如何进行数据治理？上汽数据业务部高级数据架构师给你答案

发表于 2019-3-14 14:21:53

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

本文为上汽数据业务部高级数据架构师宋亚邦在“数据治理”的微信直播上的精彩内容。

来源：上海汽车报天天看

为什么要进行数据治理？

宋亚邦：首先，数据是有价值的。根据埃森哲发布的“2035年之前各行业的平均GDP增长率”，单纯看自然增长，制造行业只有2.1%，但是通过数据以及由此衍生出来的人工智能加成之后，这个数字就晋升到第二名4.4%，数据的价值是相当可观的。

但是，数据的应用环境是有风险的。Facebook的个人隐私泄露是今年最大的数据安全事件，直接导致Facebook市值缩水640亿美元，扎克伯格也受到国会质询。此外，数据的应用环境是低效的。从上面三点的分析，就得出了我们数据治理的一个目标就是：合规、高效地产生数据价值。

为什么说数据的应用环境是低效的？

宋亚邦：我们总结了数据应用环境的一些共性的问题：

一是数据不可知，用户不知道大数据平台有哪些数据，也不知道这些数据和业务有什么关系，虽然意识到了大数据的重要性，但平台中没有能解决自己业务所面临问题的关键数据，该如何寻找这些数据。

二是数据不可用，数据需要一个漫长的开发过程，导致业务分析的需求，难以被快速满足。

三是数据不可控，没有统一的数据标准导致数据难以集成统一，没有质量控制导致海量数难以被利用，没有有效管理整个大数据平台的管理流程。

如何合规、高效的产生数据价值？

宋亚邦：一共可以分为四个阶段：

第一阶段，要全面梳理企业信息。盘点集团的数据资产，在这个基础上，我们设计了集团的数据治理平台，植入了很多管理理念。数据治理不仅是数据治理团队的事情，更多人还是需要业务技术治理、相关协作，共同努力才能提升。

第二阶段，要对数据分类，建立主题域模型。对集团的信息进行分类，做一个主题领域细分的模型。这个就有点类似于图书馆的一个目录检索。

第三阶段，制定数据标准，提升数据质量。数据标准体系分为基础类、管理分析类和专有类数据标准三部分。有了这些标准后，才能对数据质量进行核查。

第四阶段，数据仓库分层设计，主数据标签体系。分层的初衷是为了给数据分析挖掘人员提供便利，做算法的人员尽可能少的去做清理数据的内容，直接用顶层清洗好的数据，去做有价值的事情。

怎样才能确保数据质量？

宋亚邦：在制定了完善的数据标准之后，我们会对数据质量进行核查。我们整理的数据质量的相关问题共分为四类：个人信息问题、技术问题、流程问题和管理问题。在这四个方面中，我们又对每个部分进行细分。生成数据质量管控的“鱼骨图”。

其实，我们还对数据质量管控的流程进行了再设计。首先注册数据资产。第二步就是对数据进行剖析，这样可以知道里边每张表每个字段到底有多少个空值，分布情况是怎样的，与哪些表有关联。最后生成模型，进行监控改进。目前，这个流程的话已经沉淀到我们的数据治理平台当中。

数据治理有哪些难点?

我们又将如何解决？

宋亚邦：刚开始做的时候，该做什么、体系怎么去建立、还涉及到很多个团队。最大的困难可能就是数据那么多，你怎么去找到一个重点，不会迷失在海量的数据当中。从我们的经验看下来，最重要的还是要有一个业务导向。根据业务需求去制定一个优先级，找到需要的数据，然后开展相关的治理工作。

我们的下属企业的信息化水平差别很大。在集团的困难就是面对这么多就是差别很大的企业，怎么样去做一套通用的东西。我们也想通过提供一些产品化的东西，像数据湖、舆情分析产品为下属企业提供工具。集团也想担负起来数据共享平台建设的一个作用，能把大家给撮合起来。

治理工作是否可以利用人工智能?

宋亚邦：当然可以用，我们现在就是用了一个神经网络的自编码器，在数据入库的时候提取字段的特征，那如果要做关联匹配，只需要计算两个特征码的相似度就可以了。此外，虽然我上面提到四个阶段，其实还有一个隐藏的第五个阶段，就是智能化的企业知识图谱，为企业提供数据价值，用知识图谱的人工智能技术就是将数据沉淀成知识，形成企业的知识图谱，提供从关系的角度去分析问题的能力。

上汽集团数据治理达到了什么水平?

有哪些创新？

宋亚邦：如果和金融行业或者管理规范的互联网公司相比，上汽其实还有不小的差距。但是在制造行业，相对来说是领先一步的。从我前面给出的数据能力成熟度评估来看，上汽两年前的得分是处在2.25。这样的分数大概处于基本管理的阶段，经过这两年的建设，我们现在已经迈入了3.0阶段，进入了主动管理阶段。

对上汽而言，最大的创新可能就是成立我们这样一个团队。据我所知，制造行业有这么大魄力的不多。同时，我们在工作过程中也进行一些微创新。比如软件评估能力成熟度模型，数据能力成熟度模型、设计自己的数据治理平台等。

帐号		自动登录	找回密码
密码			立即注册

[实践案例] 如何进行数据治理？上汽数据业务部高级数据架构师给你答案

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1