最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] 如何进行数据治理?上汽数据业务部高级数据架构师给你答案

[复制链接]
跳转到指定楼层
楼主
发表于 2019-3-14 14:21:53 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

本文为上汽数据业务部高级数据架构师宋亚邦在“数据治理”的微信直播上的精彩内容。

来源:上海汽车报天天看


为什么要进行数据治理?

宋亚邦:首先,数据是有价值的。根据埃森哲发布的“2035年之前各行业的平均GDP增长率”,单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的。


但是,数据的应用环境是有风险的。Facebook的个人隐私泄露是今年最大的数据安全事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询。此外,数据的应用环境是低效的。从上面三点的分析,就得出了我们数据治理的一个目标就是:合规、高效地产生数据价值。  


为什么说数据的应用环境是低效的?

宋亚邦:我们总结了数据应用环境的一些共性的问题


一是数据不可知,用户不知道大数据平台有哪些数据,也不知道这些数据和业务有什么关系,虽然意识到了大数据的重要性,但平台中没有能解决自己业务所面临问题的关键数据,该如何寻找这些数据。


二是数据不可用,数据需要一个漫长的开发过程,导致业务分析的需求,难以被快速满足。


三是数据不可控,没有统一的数据标准导致数据难以集成统一,没有质量控制导致海量数难以被利用,没有有效管理整个大数据平台的管理流程。

如何合规、高效的产生数据价值?

宋亚邦:一共可以分为四个阶段:


第一阶段,要全面梳理企业信息。盘点集团的数据资产,在这个基础上,我们设计了集团的数据治理平台,植入了很多管理理念。数据治理不仅是数据治理团队的事情,更多人还是需要业务技术治理、相关协作,共同努力才能提升。


第二阶段,要对数据分类,建立主题域模型。对集团的信息进行分类,做一个主题领域细分的模型。这个就有点类似于图书馆的一个目录检索。


第三阶段,制定数据标准,提升数据质量。数据标准体系分为基础类、管理分析类和专有类数据标准三部分。有了这些标准后,才能对数据质量进行核查。


第四阶段,数据仓库分层设计,主数据标签体系。分层的初衷是为了给数据分析挖掘人员提供便利,做算法的人员尽可能少的去做清理数据的内容,直接用顶层清洗好的数据,去做有价值的事情。

怎样才能确保数据质量?

宋亚邦:在制定了完善的数据标准之后,我们会对数据质量进行核查。我们整理的数据质量的相关问题共分为四类:个人信息问题、技术问题、流程问题和管理问题。在这四个方面中,我们又对每个部分进行细分。生成数据质量管控的“鱼骨图”。


其实,我们还对数据质量管控的流程进行了再设计。首先注册数据资产。第二步就是对数据进行剖析,这样可以知道里边每张表每个字段到底有多少个空值,分布情况是怎样的,与哪些表有关联。最后生成模型,进行监控改进。目前,这个流程的话已经沉淀到我们的数据治理平台当中。


数据治理有哪些难点?

我们又将如何解决?

宋亚邦:刚开始做的时候,该做什么、体系怎么去建立、还涉及到很多个团队。最大的困难可能就是数据那么多,你怎么去找到一个重点,不会迷失在海量的数据当中。从我们的经验看下来,最重要的还是要有一个业务导向。根据业务需求去制定一个优先级,找到需要的数据,然后开展相关的治理工作。


我们的下属企业的信息化水平差别很大。在集团的困难就是面对这么多就是差别很大的企业,怎么样去做一套通用的东西。我们也想通过提供一些产品化的东西,像数据湖、舆情分析产品为下属企业提供工具。集团也想担负起来数据共享平台建设的一个作用,能把大家给撮合起来。

治理工作是否可以利用人工智能?

宋亚邦:当然可以用,我们现在就是用了一个神经网络的自编码器,在数据入库的时候提取字段的特征,那如果要做关联匹配,只需要计算两个特征码的相似度就可以了。此外,虽然我上面提到四个阶段,其实还有一个隐藏的第五个阶段,就是智能化的企业知识图谱,为企业提供数据价值,用知识图谱的人工智能技术就是将数据沉淀成知识,形成企业的知识图谱,提供从关系的角度去分析问题的能力。

上汽集团数据治理达到了什么水平?

有哪些创新?

宋亚邦:如果和金融行业或者管理规范的互联网公司相比,上汽其实还有不小的差距。但是在制造行业,相对来说是领先一步的。从我前面给出的数据能力成熟度评估来看,上汽两年前的得分是处在2.25。这样的分数大概处于基本管理的阶段,经过这两年的建设,我们现在已经迈入了3.0阶段,进入了主动管理阶段。


对上汽而言,最大的创新可能就是成立我们这样一个团队。据我所知,制造行业有这么大魄力的不多。同时,我们在工作过程中也进行一些微创新。比如软件评估能力成熟度模型,数据能力成熟度模型、设计自己的数据治理平台等。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-22 08:07

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表