Datablau王琤：EDW2019-国际数据管理最新趋势

发表于 2020-2-27 15:05:40

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

为了深入落实国家大数据战略，推动大数据产业交流与合作，展示我国大数据产业最新发展成果，2019年6月4日至5日，由中国信息通信研究院、中国通信标准化协会主办、大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

会上，来自工业和信息化部的领导，我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家，将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。

6月5日，在数据资产管理分论坛上，Datablau创始人&CEO王琤为我们带来了主题为《EDW2019-国际数据管理最新趋势》的演讲。

谢谢大家，今天我的演讲是跟大家分享EDW2019-国际数据管理最新的趋势。之前信通院会议负责人和我就这次演讲内容有一个深度讨论。我说看看能不能把国际上的最新趋势、行业里面最新的方向，在会上讲一讲，在这里大家互相学习。

一、EDW简介

我以前是CA ERwin全球研发负责人，做了十几年的全球研发。EDW大会全称Enterprise Data World企业数据世界，是DAMA International国际数据管理协会的全球年会，DAMA协会于1988年就成立了。EDW大会是商业世界中最全面的关于数据和信息管理的供应商中立教育与交流活动，至今已举办23届。这个会我参加了蛮多年，每年都有一千多名与会者，就很多主题进行讨论。那边也给我留了一个作业，看看未来能不能把大会搞成一个中国的或者说东方的大会。这是每年会议的议程，如数据建模、新型数据库怎样做管理。去年在EDW上我也做了围绕“微众银行的数据治理创新的场景”的演讲分享，2019年EDW将在波士顿举行。

二、元数据和数据目录

今天的内容分了三块，第一块是元数据和数据目录，这是比较新的趋势；第二块是数据架构；第三块是数据建模。

第一块元数据与数据目录来自于这张片子，这块其实是IBM全球CDO办公室在EDW上做的分享。这是IBM Global Chief Data办公室发表的论文，第一是说他要做成全球数字化转型的领导者。IBM的分支机构很多，业态也非常多。他的信仰是说有一个企业级的数据是可信的，希望这个数据变成一个AI的骨架、AI的基座，开发整个企业级的数据战略，企业级的治理系统，中心化的数据源，为未来AI做一个基座，包括深度的数据分析。相当于CDO办公室跟其他业务部门是合作伙伴的关系。当前面临的挑战是业务跟技术花费太多的时间维护元数据，其实架构有了，内容也很丰富，运维变成了非常困难的事情。然后是碎片化，变化很频繁，怎样把这些碎片化的环境变成一些自动化的场景。最后是怎样把运维化的方式变得更自动化。

我在国内接触了方方面面各种类型的企业，金融行业、制作业、能源行业等。当前比较头部的企业，建行以及股份制银行等做数据资产已经有近十年了。他们当前的面临的场景跟IBM很像，需要应对几方面的挑战：数据资产管理运维如何自动化？新数据源接入频繁，如何自动盘点？数据需求强烈又变化频繁如何满足？新增系统数据如何管控？这些都是企业做了一段时间数据治理后，面临的变化和挑战。

IBM的解决方案是把元数据这层加强，包括虚拟化元数据。咱们今天在座的有一些是刚开始做数据治理，有一些可能做蛮长时间了。我觉得要以一个开放思路看看西方比较先进的数据治理理念，他们现在已经做了“分久必合、合久必分”，很多元数据系统把数据管理变成分片式，变成一个烟囱。自然语言的查询，相关的东西是不是能自动盘点，应该是一个open source，元数据要开放，不是人看这个东西，是机器看这个东西，所以要做成open sourc+微服务的系统。系统应该是多级部署，是一整套系统，不是不同的分支机构、不同的区域自己搞自己的一套系统。

在国内比较少业务术语，什么事都是从业务术语切进来的。业务术语跟一些标准会比较像，国内跟西方的叫法不太一样，不同的角色其实都是从业务术语切进来，看到的东西是不同的。不只是业务术语，刚才其实也谈到了行业模型，把行业模型跟业务术语相结合，行业模型本身就是业务术语组装成的。业务人员来看这些的时候不只是看一条条的分类，要看在这个行业模型里所处的位置。因为它其实都是业务对象，这些业务对象跟别的业务对象的关联关系，这样帮他理解业务数据。为什么搞行业模型？行业模型就是给一个核心的语境。

这是我一些我自己的理解，把元数据抽取进来，还有一些输入和数据模型，会形成元数据的信息库。上面是元数据吸收了很多信息，数据管理团队核心是要维护数据标准、维护数据运维，包括数据目录要开放给数据消费者，让数据消费者通过数据目录实现数据服务，数据管理团队通过业务数据库考核相关的报表。元数据跟数据目录的关系，一个是面向IT的，一个是面向业务的。

三、数据框架与数据湖

国内跟西方有很大的差距，西方行业里数据湖架构讲了很多，国内目前行业内讲得还是比较少。国内大部分都是把大数据平台当储存来用的场景，数据湖、数据海、数据池塘等等很多的概念都包含在大数据平台里头。报表里对应的数据进来，更泛的数据还没想好怎么用的时候，第一个横向的维度就是用户，传统的是做数据相关的分析，更多、更泛的人是数据探索的人、数据科学家，他能不能进来？这是当前数据湖跟数据仓的区别。现在国内因为所谓的更便宜、更快，所以用大数据平台代替数据仓，更多的是做服务。国内还是把数据湖当数据仓库的形式，一些自服务把数据开放出来。当前的用户场景，如果说传统的数据集市是一瓶矿泉水，干净、包装完整，使用方便。而数据湖则是一个巨大的天然湖，各种用户可以汲取湖水，探索式潜水，提取样本。在数据湖中的数据既有原始格式的也有加工过的，供各种用户群体来使用。有的客户说我希望有干净的矿泉水，直接把数据拿过来就能用。有的客户说我希望要一些更原始的数据，还有的说时间太长了等不了了，我就直接做数据沙盒数据分析也好。

我从三年前就看到西方数据湖的架构就是这么做的，分成四个区：原始区、生产区、开发区、敏感区，这个架构在西方基本上也是公认的。有什么区别？在原始区对应的角色是不一样的，原始区对应的是数据工程师，还是偏纯IT的人，他在这做的是数据加工和清洗。之后这个区域的东西会分成两部分，一部分扔到敏感区，这块是严格的防护控制，另一部分加工完的数据会扔到开发区，就是让大家做数据分析。

这样做有什么效果？数据库加上一个数据系统，做ETL，最终BI这一块开放给实际的业务人员，让他用，他能玩起来，绿的区域就是业务能接触到的阶段。现在我们希望达到的效果是绿色区域往下沉，数据湖这个平台把数据资产的东西都加工清洗，比较完善地收集进来，之后去玩数据可视化，最终业务人员参与，这是当前西方比较认可的做法。华为也是这个模式，他们在数据模型这一块做得非常好，现在有将近500个数据建模师在上面建设数据应用模型，我们可以理解成出仓或者面向数据分析的数据模型。设计之后数据服务那一块完全开放，给不同的业务部门，让业务相关人员玩这个数据。

西方面临多个数据湖包括私有云、公有云的场景，之后会发现，不同的分支机构自己玩的时候虽然也做了数据管理，但是这些数据管理已经变成烟囱，要把不同的分支部门的数据管理再管理起来。相当于，比如说中青旅自己搞一套，光大银行也单独的一套，他们各自的系统慢慢做起来了，但是面临怎么打通的问题，西方企业当前已经到了这个阶段。他们想了一个招叫自服务数据分析，自服务数据分析是不可控的，有的人从出仓玩，有的从业务系统玩，有的人还跑到沙盒里玩。我发现数据科学家玩这些东西玩得挺好的，他们把数据自服务分析这件事也玩烂了，到了这么一个阶段现在开始说，还是要回到全球数据官办公室，要从不同的分支部门，不同的集团下属公司捞这些东西。这就涉及到自动化，现在肯定要强化自动化的盘点。以上这是数据架构新的趋势。

四、数据建模的最新趋势

现在有一个敏捷数据建模，数据建模其实讲的是设计，敏捷与设计两个本来就是矛盾的。数据建模是希望一开始把大楼的设计图都搭出来，开发说不行，我现在要敏捷，要根据业务需求走，数据建模是不是能跟上我的节奏？这是当前蛮有意思的情况。从Gartner数据管理的调研结果来看，数据建模在西方大概有83%的企业都用到了，只有17%没有。国内企业数据建模相对来说没有那么官方，很多都是个人的方式来用这个东西，但是数据建模应该是从企业的角度来做这个事。数据管理员这一块我觉得国内现在比西方做得好，我看到现在银行基本都是，从组织结构上要设立专门的数据治理管理专员，因为去年发了文，数据治理的指引。国内现在推动数据治理比西方快得多。数据模型前面提到分三个模型：逻辑模型、物理模型、概念模型。本身数据模型业务人员是能读懂的，它不是象牙塔里的阳春白雪，不是给搞数据的专家用的，客户拿逻辑模型或者概念模型是能看懂关系的，可以帮助理解相关的数据。核心就是帮助客户来理解数据的，比如银行报送的表，能够帮助到业务人员理解数据。

敏捷宣言，搞开发的人都很清楚，我们希望个体交互，而不要过程工具，要的是工作软件，不要面面俱到的文档。现在有一个新的概念，静态的数据建模和敏捷数据建模。静态的数据建模是分布式的，以前更多的是先建模后开发，现在敏捷建模是在已有的模型上能够迭代，而这块的核心是强调多人协作、模型的管控。也包括NoSQL，希望这个数据库不要限制它，更多的是拿一个NoSQL数据库，相关的属性扩展很容易。这样就是一个PK的状态，是一个矛盾体，从两个角度——一个是文化角度，一个是做事角度，去做这个事。

我们碰到的实际案例，可以看到建立一个分支开发迭代的方式是一样的。建模其实也需要有这个branch，建模的开发应该是跟实际开发同步的。还有新的场景，建模也有新的迭代，这应该有更方便的方法来做出仓的设计，这也是当前建模新的模式，包括有一些客户在模型库里面已经有了，地址、年龄、性别等等直接做进来，直接把建模的方式加快。还有数据模型的标准目标，传统的发一个标准就变成一个工作文件了，设计一些数据质量的规则。现在要通过建模把数据标准做进去，这也是比较大的突破，把数据建模跟数据标准结合在一起。NoSQL数据标准肯定是需要的，写代码和用数据的人是两拨人，这样的话需要到NoSQL数据库把数据抽取出来给用数据的人。

最后是叫企业数据治理组织势力分布图。是什么意思呢？因为经常见一些企业客户，发现企业慢慢在成立大数据部门，打个比方业务部门有一千人，对应研发大概有200人，大数据部门有40人，治理部门通常只有4个人，这是经常碰到的企业情况。这样的话，一千个人的业务部门天天提各种需求，经常就会碰到开发部门或者数据部门甩锅说是因为数据治理没做好，我们没法提供服务；或者服务没有那么好，数据部门经常会说我接入了，数据治理部门没治理好；研发部门经常不断地上线一些新的业务系统，新的业务系统之前没盘点好，没有管控好，存量数据又存了一大堆。我们经常看到企业里数据治理部门处在很尴尬的一个地位，只有4个人，但是这么多人都去找他们要各种各样的东西。我的观点是，肯定要把这些事甩出去，怎么甩？第一是数据治理这四个人，大数据部门做自己的数据资产目录，研发部门做前头的数据建模的数据管控。要开发新的业务系统，把你的数据模型交出来，或者你按照我的数据标准走，把前端管控好，后面的数据湖靠数据资产目录的方式做。同时服务业务部门的时候仍然是数据资产部和自助的数据储备，来服务相关的业务部门。这肯定要靠张力，靠不同的方法、不同的工具把数据治理工作给甩出去。

以上这三部分这是当前我对整个数据治理市场的理解，谢谢大家。

帐号		自动登录	找回密码
密码			立即注册

[实践案例] Datablau王琤：EDW2019-国际数据管理最新趋势

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1