最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

[实践案例] 公安行业数据治理平台如何落地数据中心

[复制链接]
发表于 2019-6-26 20:18:07 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
今天分享一篇干货,关于数据治理如何落地数据中心。
   公安行业数据中心建设如火如荼,但是数据中心的数据需要经过治理才能形成好的数据资产,为企业带来价值,那么数据治理的核心就需要达到有标准可依,真正全部达到100%是不可能的,毕竟考虑落地情况,我们会对数据进行冗余,会对规范理解出现偏差,业务会随时在发展,标准更新赶不上业务发展带来的变化;为了体现“干货”两字,我就以公安举例。
某省公安厅数据中心标准体系建设如何通过数据治理进行落地。
现状:公安行业目前有公安部部标。按照行业客户的说话来说,这些更多叫行业规范。国家标准反正我没看到,预计更抽象一层,这个里面的公安部部标,主要有一定的量数据元信息,这些信息偏向业务标准,  目标:建立省级公安数据中心,依据数据治理实现数据管控针对数据中心落地的数据资源标准,还没有一套切实可行的思路进行管理。
建设内容
   1、建立省级数据标准,与行业数据标准和政务数据标准形成联动。
   2、建立数据接入平台,实现业务系统、流式数据、外部数据汇集。
   3、建立数据处理平台,依据数据接入平台的数据进行数据融合、数据分析等能力,为云搜、主题库提供计算能力。
   4、构建数据运营平台,根据主题库数据构建专题数据,为数据服务提供支撑。
   5、建立数据治理平台,建立数据标准,实现数据中心全流程生命周期管控。
数据治理平台总体设计思路:建立一套本地本地数据中心数据资源标准,该本地标准形成一个池,里面包括标准数据项和非标准数据项,针对标准数据项完成标签属性归类和政务资源属性归类。
本地标准面向外围标准
  向上和行业标准关联,向下和形成省级标准提供依据,横向提供政务共享资源。
本地标准面向数据中心
  实现本地标准落地到数据中心每个环节。
数据治理平台详细设计思路:
  本地数据资源标准的建设,我们按照公安行业命名方式,提供了数据元、数据项和数据项集。本地标准的数据元,主要去对应行业标准的数据元。数据项主要针对数据元落地的表字段和为今后公安部提供行业数据项,该数据项主要实现与数据元形成关系映射,该数据项不能与数据中心物理表字段一一映射,比如,一个身份证号码,为了实际需要,我们在建数据仓库的过程,需要在不同层、不同库、不同表中提供该字段,故我们把数据项形成一个池,依据这个池我们把也业务含义一致的的进行归类,形成新的一类资源为数据项集。数据中心的所有表都可以通过数据项集进行查找和映射,这些本地数据资源标准可以为公安部形成行业的数据项和数据项集遥相呼应。
   往往数据中心在初期构建的时候,并非都能够依据标准进行建设,那么我们如何考虑这类场景呢?我们认为数据资源是随着业务发展会不断进行完善,有些会取消,有些会增加,那么我们认为这类资源也可以先利用起来,放入数据项池里面,称为非标准数据项。那么非标准的数据项使用原则是什么呢? 标准的数据项即可以用于数据中心建设,也可以对外向行业和政务资源提供。而非标准在为上升称为标准数据项之前,只能用于数据中心的构建。那么我们针对数据项形成数据项池进行数据打标,形成标准和非标准组合的数据项池。
数据接入如何结合数据治理落地:
   数据治理提供针对数据接入进行数据资源注册能力,即业务部门在填写自身数据项的时候,可以根据经验或者之前明确的数据项关联数据资源标准,如果可确定与那个数据标准进行关联,通过这种方式,我们就不断完善我们的本地数据资源池,在这个过程中,数据治理平台通过决策树训练本地数据项池,针对后续进入的数据项是否为标准,引入了人工只能机制。
    数据资源问题解决了,接下来就是基于资源采集数据,数据接入负责数据具体采集,数据治理负责数据接入平台上面的每个人任务的采集周期,采集范围,采集规则进行控制。我们目前按照阶段实现了采集周期和采集范围的管理。采集规则目前工作量较大,主要在下期慢慢进行,找到通用性后方可制定采集规则的标准。
数据处理如何结合数据治理落地
   数据处理更多围绕数据中心服务,公安数据中心,一般会建立:资源层、基础层、主题层、专题层(依据实际业务才会落地)。
   数据处理依据数据接入把数据落地到资源层,进行后续加工处理;数据治理针对数据处理,主要控制每层数据源的访问管理和数据处理任务的范围管理,主要考虑每个源在数据处理中,能够扮演的是源还是目标,或者两者都兼顾的角色。针对具体处理规则,同数据接入处理方式一样,需要下阶段实现。
数据组织如何结合数据治理落地
    数据组织在数据中心扮演至关重要的作用,他为整个数据中心各个层提供底层数据模型的构建。每个层次的表的命名规范、表的关系,都是通过数据治理进行实现,构建方式分为两种机制,一种方式数据治理直接把数据模型落地到数据中心,形成物理模型,然后直接通知其他平台进行数据任务配置;另外一种方式是数据治理完成逻辑模型的构建,其他模块通过接口获取逻辑模型自行创建物理模型。为了防止其他模块进行非法表进行建设,我们在数据治理平台中提供元数据稽核功能,主要针对实际物理环境与我们的本地资源库进行比较,稽核各个平台是否依据数据中心标准建设。检查对象主要包括多余的表和表的建设属性发生变化。
云搜服务如何结合数据治理落地:
   云搜索在公安行业很重要,公安数据量很大,期间关联性较复杂,我们需要针对已有的数据资源进行分析和增强更多属性来完成应用支撑,故公安行业的的数据标签也是一种数据资源,也需要纳入到我们数据项池进行统一管理。
   公安行业的数据标签体系简要介绍
   本次标签体系我们依据结构化建设,根据公安业务对象拆分为5大类标签:人员标签、车辆标签、案(事)件标签、地点标签、组织标签。每个大类又细分不同层级的子类。人员标签主要是人员身份标签跟人的行踪和行为标签;车辆标签主要是车辆的一些基础属性、使用情况、异常行为轨迹的标签。案(事)件标签主要是案件类别、案件特征两块。地点标签主要是对警情高发地、执法闭环各类发案地点、嫌疑人户籍地/暂住地、寄递业收货地和治安基层基础涉及地点等。组织标签主要是人与人的关系标签,重点在于同一性。
   依据标签采模式不同,我们将标签分为三类。
事实标签(行业叫法为属性标签)】通过对原始数据库的数据直接获取的属性或者对原始数据进行统计分析,提取出业务对象的事实标签。例如人员的所拥有的房产数量。
归纳标签(行业叫法为统计标签)】以事实标签为基础,通过构建事实标签与业务问题之间的模型,进行模型分析得到业务对象的归纳标签,例如车辆异常行为的:只在夜间出没。
预测标签】在分析模型的基础上,通过归纳预测和机器学习算法得到业务对象的预测标签。例如车辆异常行为的:疑似被盗。
部分的研判分析结果我们将不作为标签,而放置在数仓的专题分析来实现。例如频繁过车是基于某个案发地等地点来查询一段时间内有哪些车经常在该区域出现,若接作为标签的话很容易造成所有车辆都会有频繁过车的标签存在而导致无实际意义;再比如几个有犯罪前科的聚集在一起需要进行预警,但是并不适合为每人打上一个疑似作案的标签,也不利于查询具体哪些人聚集在一起,故而也需将其纳入专题分析。
   云搜索是一个服务,底层一般存储在开源的ES,那么针对每类标签资源进行打标的时候,我们需要基于数据处理完成数据打标动作,通过数据组织针对标签资源进行模型设计。那么数据治理在数据标签的能力主要体现:
   1、完成数据标签体系的管理。
   2、针对标签提供与数据资源的关联,这里一般基于数据项集的数据项。数据标签的标签值需要指定对应的数据字典表。
   正常流程基本是这样的,那么问题来了,针对事实标签,我们可以按照这个思路完成标签工作的实施。如果我们需要实现归纳标签和预测标签呢?这些标签之前是没有在数据组织过程中依据数据项构建数据模型,这类问题如何解决呢?这里实际项目的解决方式,可先按照之前的思维方式,通过线下告知数据中心管理人员建立相关标签字段的数据项。另外一种方式就是数据标签体系完成后,提交一个任务到数据中心人员身上,等待数据中心完成模型变更后,才实现标签与数据项进行关联,实现网上全流程化管控。
  
来源:摩兔起航

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 09:36

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表