最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[数据资产] 演讲实录:政府统一数据资产管理平台建设方案(蒋俊)

[复制链接]
跳转到指定楼层
楼主
发表于 2019-12-12 09:34:28 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2019-12-12 09:38 编辑

近日,青岛市大数据发展管理局,青岛市大数据发展促进会(以下简称“促进会”)与李沧区大数据发展管理局主办的2019青岛市大数据专家大会,暨青岛市大数据秋季论坛在李沧区召开。本次活动数澜科技受青岛战略合作伙伴联云科技的邀请,蒋俊以数澜大数据资深咨询专家身份参加并在会上发表演讲。

近年来,青岛市高度重视大数据产业发展,不断加强顶层设计,逐步构建起了大数据产业发展生态圈,大数据发展影响力和竞争力日益增强。

蒋俊,现任数澜科技安全事业部副总经理。从事企业及政府信息化及数据服务超过15年,在安全、政务、军工制造等多个领域的数据中台规划及场景应用上均有丰富的实战经验。在会上演讲中,蒋俊提到,有效利用政府数据是建设新型数字城市关键


「图 数澜科技安全事业部副总经理&大数据专家」

政府数据管理及应用现状
规划多落地少

蒋俊谈到政府数据管理的情况时,表示不容乐观。他用“汇”“管”“通”“用”4个字,概括了目前政府数据管理出现的四个阶段性问题。
“汇”即有目录无汇聚。参照国家及地方发布的《政务信息资源目录编制指南》进行各级部门信息资源编目或多或少都做了,但基于资源目录的数据汇聚不理想,或者说实际汇聚的寥寥无几。
“管”即有汇聚无治理。有些地方实现了部分数据汇聚,但缺乏体系化数据治理,数据仍然标准不统一,质量低,权责不清晰。导致数据还是用不起来。
“通”即有数据无资产。虽然目前政府在做数据治理时有采用一些基础清洗加工治理手段,如:去重去空等,但数据未打通,数据未实现深度价值萃取,形成资产,如:ID化、标签化。尤其是标签化程度非常低。甚至没有标签,只有原始库。
“用”即有应用无服务。数据在部分场景应用一直有,但共享程度不足,缺乏数据使用能力抽象,形成通用可复制的服务及组件,导致数据应用开发效率低。如:人车房查询检索服务。政务数据应用场景中最关键的公共服务实现,往往需要多种数据智能联通,传统数据管理及应用模式下难以实现。
基于以上现状蒋俊认为,最大的挑战还是政府在数据应用上思维的转变,首先是改变数据资源利用重系统,轻平台的传统方式,其次就是建立统一数据资产管理平台。基于数据中台建设方法论,通过领先的大数据技术,对海量的政府数据进行价值萃取,构建其数据资产组织及服务体系,为城市级各类场景应用提供高效持续的数据支撑能力。

政府部门统一数据资产管理平台
建设实施路径

数澜曾参与多个城市政府数据资产管理平台建设,公安智慧大脑顶层规划等,并在多个领域行业有丰富的数据中台、数据资产化建设的落地经验,关于数据中台的建设,数澜也沉淀了一套行之有效的方法论。

首先政府在建立统一的数据资产管理平台需把握四大原则一是战略行动,要建立其让数据持续用起来的机制。二是要两项保障条件,即组织变革的推动和数据认知的提升。三是数据资产化准则要以可见、可用和可运营为导向。四是要建立完善的四大体系,分别是技术体系、数据体系、服务体系和运营体系。

「图 数据资产管理平台总体架构」

其次是在实施全流程,需把握实施环节中的5个关键点,分别是聚、存、规、通、服。

「图 数据资产管理平台实施全流程」
“聚”指的是数据汇聚。数据汇聚中最关键是基础元数据采集,如:数据来源数据、存储位置、字段格式语义、数据结构等。再就是如何通过自动化技术手段来适配多种异构数据源,多种数据格式,海量数据稳定、高性能接入。如:关系型数据库、NoSQL数据库、非结构存储、实时数据仓库、离线数据仓库和消息队列等多种数据格式接入功能。

“存”指数据存储。针对体量巨大,形式繁多且高速增长的数据,需要根据不同的使用场景选择不同的存储技术。

最后,通过“规”“通”两个过程完成数据治理及数据价值萃取,形成基础库、主题库。

关于“规”的实施落地主要包括:数据提取、数据清洗、关联、比对、标识(标签化)。首先是数据提取,结构化数据比较规整,其提取操作相对简单;非结构化数据提取,办公文档、文本、图片、XML、HTML、各类报表、图像、音频文件和视频文件等,从中提取常用的生物特征技术相对较成熟,如:证照、人脸、车牌等。但实际项目中会涉及到更多关键特征的提取,如:身份、关系、位置等,通常需要在NLP、文本及图像识别等通用技术上做大量算法定制,如:某项目中涉及微信、支付宝、钉钉、QQ文档数据的结构化提取。数澜这块积累了不少实战经验。

比如2018年,数澜在做北京某政府部门做统一数据资产管理平台建设项目时,通过开展数据清洗、质量管理、标签建设以及数据关联等工作,帮助其完成了52个部门,6000多类的数据编目,8亿多条数据资产化工作,同时结合具体的主题应用,将各委办局相关的业务数据汇聚到市大数据平台原始库,形成基础库、主题库,并成功对接国家发改委、公安部、教育部等提供数据查询接口,实现了支撑空间分析、信用分析等多个主题分析的有效应用。
其次是数据清洗,数据清洗是数据资产化中数据治理最关键环节,工作量大,方法相对成熟。一般数据清洗的方法有:过滤、去重、格转、校验等。达到标准及质量要求数据需要具备几个重要质量指标,分别是数据规范性、数据完整性、数据唯一性、数据准确性、数据时效性、数据一致性。另外平台工具需要内置通用的数据清洗技术规则、而清洗业务规则则要结合数据特性定制。
然后是数据关联,数据关联主要采用对象化提取手段,如:ID-Mapping,基于机器学习、深度学习的建模挖掘技术,将各种离散ID,通过行为特征、标签聚类、相似预测等规则模型,逐步的聚合到统一的唯一ID上。如对人的各类id及行为进行识别归一,像身份证、设备、虚拟身份id、网络账号等,通过IDMapping技术(算法能力)建立唯一标识ID的对象,挖掘虚拟身份ID与真实身份关联,不是简单的显性关联,通过特征识别算法发现碎片数据的隐形关联。如:核心关系、附加关系、三度关系。数据治理中的数据关联一般不会到关联分析,如亲友、同事关系。做完数据关联,基本完成了人口库、法人库基础构建。
  
有人问,到了这个阶段资产化是否就完成了呢?还差最后一步,那就是标签化。如果说清洗是传统数据治理的核心,那么标签化则是数据资产化的核心。数据真正要用起来主要面向业务人员,那么我们就要做到让数据更易理解、易阅读、易用。关于标签的并没有严格的标准及范围约束,什么数据适合建标签,什么数据或字段不适合,这取决于对业务及数据的理解。标签构建需基于标签知识库,对接入的数据进行挖掘计算、分类标注,让业务人员可以根据“可理解的分类方式”快速查找到所需的原始数据和已加工生产的业务标签,从而快速构建业务应用,实现数据的业务化。
关于政府数据标签体系,数澜科技3年来的实践也梳理了一套行之有效的方法论和标准,可供参考(如图)。

另外,如果需要实现海量数据标签化,还可以利用标签规则引擎对数据进行比对分析、模型计算,并对其打上标签。目前这种通过规则植入工具来实现自动化打标签还不成熟,主要还是人工打标签为主。标签可以五花八门,但标签管理能力可以产品化。
  
“通”指基于知识图谱技术的数据融合。标签已经做了一层数据价值深度萃取。实体属性、实体关系、实体行为等都可以设计标签。那为什么还需要知识图谱,知识图谱最重要的作用,是可以用来做多层级关联分析,和标签形成互补。知识图谱体系,可以提供端到端完整的解决方案。主要通过知识推理、融合计算、图挖掘和计算、图谱可视化后,形成关系结果及数据关联关系,实现直观展现。
“服”指的是数据集、标签、查询检索接口、模型分析(算法+数据集)结果等需要通过安全可控的数据服务透出,目前主要采用两种方式,一是数据共享,对于被授权的部门,经部门申请后,原始的、标准化后的、经标签标注的不同阶段的数据库表、数据文件可以直接共享,便于被授权进行深度的分析和加工。二是服务共享,把数据检索、数据查询、数据对比、数据统计、数据关联、数据计算、数据稽核等封装为服务接口对外提供服务共享。
最后蒋俊认为,就像金矿经过提取清洗治理后变成金块后价值提高了,金块就是数据服务,可供加工不同金首饰使用,这就是数据资产化的过程。政府数据量庞大,种类繁多,形式多样化,更是需要资产化,而数据中台是数据资产化过程中的必然选择。

作者:超越
来源:数澜科技
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-4 11:41

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表