马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本文为上汽数据业务部高级数据架构师宋亚邦在“数据治理”的微信直播上的精彩内容。 来源:上海汽车报天天看
为什么要进行数据治理? 宋亚邦:首先,数据是有价值的。根据埃森哲发布的“2035年之前各行业的平均GDP增长率”,单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的。
但是,数据的应用环境是有风险的。Facebook的个人隐私泄露是今年最大的数据安全事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询。此外,数据的应用环境是低效的。从上面三点的分析,就得出了我们数据治理的一个目标就是:合规、高效地产生数据价值。
为什么说数据的应用环境是低效的? 宋亚邦:我们总结了数据应用环境的一些共性的问题:
一是数据不可知,用户不知道大数据平台有哪些数据,也不知道这些数据和业务有什么关系,虽然意识到了大数据的重要性,但平台中没有能解决自己业务所面临问题的关键数据,该如何寻找这些数据。
二是数据不可用,数据需要一个漫长的开发过程,导致业务分析的需求,难以被快速满足。
三是数据不可控,没有统一的数据标准导致数据难以集成统一,没有质量控制导致海量数难以被利用,没有有效管理整个大数据平台的管理流程。 如何合规、高效的产生数据价值? 宋亚邦:一共可以分为四个阶段:
第一阶段,要全面梳理企业信息。盘点集团的数据资产,在这个基础上,我们设计了集团的数据治理平台,植入了很多管理理念。数据治理不仅是数据治理团队的事情,更多人还是需要业务技术治理、相关协作,共同努力才能提升。
第二阶段,要对数据分类,建立主题域模型。对集团的信息进行分类,做一个主题领域细分的模型。这个就有点类似于图书馆的一个目录检索。
第三阶段,制定数据标准,提升数据质量。数据标准体系分为基础类、管理分析类和专有类数据标准三部分。有了这些标准后,才能对数据质量进行核查。
第四阶段,数据仓库分层设计,主数据标签体系。分层的初衷是为了给数据分析挖掘人员提供便利,做算法的人员尽可能少的去做清理数据的内容,直接用顶层清洗好的数据,去做有价值的事情。 怎样才能确保数据质量? 宋亚邦:在制定了完善的数据标准之后,我们会对数据质量进行核查。我们整理的数据质量的相关问题共分为四类:个人信息问题、技术问题、流程问题和管理问题。在这四个方面中,我们又对每个部分进行细分。生成数据质量管控的“鱼骨图”。
其实,我们还对数据质量管控的流程进行了再设计。首先注册数据资产。第二步就是对数据进行剖析,这样可以知道里边每张表每个字段到底有多少个空值,分布情况是怎样的,与哪些表有关联。最后生成模型,进行监控改进。目前,这个流程的话已经沉淀到我们的数据治理平台当中。
数据治理有哪些难点? 我们又将如何解决? 宋亚邦:刚开始做的时候,该做什么、体系怎么去建立、还涉及到很多个团队。最大的困难可能就是数据那么多,你怎么去找到一个重点,不会迷失在海量的数据当中。从我们的经验看下来,最重要的还是要有一个业务导向。根据业务需求去制定一个优先级,找到需要的数据,然后开展相关的治理工作。
我们的下属企业的信息化水平差别很大。在集团的困难就是面对这么多就是差别很大的企业,怎么样去做一套通用的东西。我们也想通过提供一些产品化的东西,像数据湖、舆情分析产品为下属企业提供工具。集团也想担负起来数据共享平台建设的一个作用,能把大家给撮合起来。 治理工作是否可以利用人工智能? 宋亚邦:当然可以用,我们现在就是用了一个神经网络的自编码器,在数据入库的时候提取字段的特征,那如果要做关联匹配,只需要计算两个特征码的相似度就可以了。此外,虽然我上面提到四个阶段,其实还有一个隐藏的第五个阶段,就是智能化的企业知识图谱,为企业提供数据价值,用知识图谱的人工智能技术就是将数据沉淀成知识,形成企业的知识图谱,提供从关系的角度去分析问题的能力。 上汽集团数据治理达到了什么水平? 有哪些创新? 宋亚邦:如果和金融行业或者管理规范的互联网公司相比,上汽其实还有不小的差距。但是在制造行业,相对来说是领先一步的。从我前面给出的数据能力成熟度评估来看,上汽两年前的得分是处在2.25。这样的分数大概处于基本管理的阶段,经过这两年的建设,我们现在已经迈入了3.0阶段,进入了主动管理阶段。
对上汽而言,最大的创新可能就是成立我们这样一个团队。据我所知,制造行业有这么大魄力的不多。同时,我们在工作过程中也进行一些微创新。比如软件评估能力成熟度模型,数据能力成熟度模型、设计自己的数据治理平台等。
|