最具影响力的数字化技术在线社区

168主编 发表于 2018-4-26 09:00:39

记《魅族大数据治理》分享讲座之本人感想分析

昨天参加了魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容,现整理一些如下.
首先,他们整理了一个治理流程,架构图(本人整理,非原版,下文图片亦是如此)如下:https://img-blog.csdn.net/20180401111520309?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下:
https://img-blog.csdn.net/20180401112038282?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70流程图上面,其中,“主数据管理” 模块是本人根据理解加的,下文会讲到。接着,他们重点讲了“元数据管理” 模块。可能是做这方面,他们讲的细一些。主要是“自研”还是使用“开源解决方案”,其中,他们介绍使用了一种叫“Apache Atlas” 的开源框架,来做元数据的管理。他们有一个“元数据平台架构”,包括“多源数据采集”, “WEB UI” 调用”MetaData Api” 做数据展示,而“MetaData Core” 从底层,也就是“Apache Atlas” 获取数据。架构图细节比较多,后期会上传图片。然后,他们介绍了元数据采集,以及数据度量(校验)规则。度量规则如图:
https://img-blog.csdn.net/20180401113117635?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70接着,还有介绍了他们的“数据质量管理系统”,细节比较多,就不上图了。最后,计算出来的结果数据合不合理,以及准确性高不高?为此,还有个“质量评价体系”,如图:
https://img-blog.csdn.net/20180401113848432?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70其中,指标定义:
[*]离线任务失败个数
[*]离线任务整体延迟分钟数
[*]九点之前未完成的任务数
[*]流平台告警次数
[*]规则执行完整度以及报错情况
总之,讲的侧重架构方面,由于本人目前做具体开发方面比较多,现把本人对一些内容的理解分享一下。先介绍下这些所谓“元数据”门类的概念。元数据是什么?元数据(Meta Data)概念是”描述数据的数据” ,听上去,感觉,不是很明白.哈佛大学图书馆项目定义是:”元数据是帮助查找,存取,使用和管理信息资源的信息” .这下清晰了一些, 比如,如果一个app功能是用来查找,存取等管理数据的,那么元数据是用来帮助管理的. 再举一个例子可能更明白一点:例如在一座图书馆中,如果认为每本书的内容都是数据,用来查找每一本书的索引就是元数据.这下对它的意义和功能清楚了一些,但是在管理元数据中,仅仅知道几个例子是不够的.我找了一张元数据的架构图:架构图:
https://img-blog.csdn.net/20180406124155648?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70从图上看起来,元数据也是一个牵涉甚广的东西.元数据的一般存在形式有:(1) 数据库结构,和表之间的关系描述(2) 配置文件,如xml格式文件;(3) Sql 脚本(4) 流程图(5) UML图,E-R图(6) …以上大多东西,在开发中都会有用到,是实际用到的东西,以前我们知道这些东西,现在我们知道它们都属于元数据. 魅族工作人员有介绍了一种管理工具,叫做”Apache atlas”,它能管理元数据,似乎是一个强大的工具,那么它是什么呢?它的网站(https://atlas.apache.org/)介绍说:Data Governance and Metadata framework for Hadoop用谷歌翻译,就是:用在hadoop上的数据治理和元数据框架工具.它可以提供哪些功能,这里有个功能图:https://img-blog.csdn.net/20180406124059537?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70它能治理上面提及的元数据形式吗?有一个使用例子,是用来使用Apache atlas 查看数据血缘关系:https://img-blog.csdn.net/20180406124230351?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70参考索引:
https://community.hortonworks.com/articles/36121/using-apache-atlas-to-view-data-lineage.html还有使用例子,是用来定义类型(Type)的:https://img-blog.csdn.net/20180406124247912?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NhZmViYXIxMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70pdf教程:https://atlas.apache.org/0.7.1-incubating/AtlasTechnicalUserGuide.pdf有兴趣可以慢慢研究.这是它的源代码,应该是吧:https://github.com/apache/incubator-atlas总结:
元数据是一个数据门类,用来描述数据,它的表现形式多样,具有一定的抽象性,对数据整体,或局部数据,都有一些相应的描述语言,规则和工具。
Apache atlas 是一个hadoop系列的元数据管理工具, 它提供了完成度比较高的功能. 作为大数据开发工作者, 以前用苍白的语言描述自己做的事情, 给之的反馈是真的不屑或假的不屑;现在有了一个可以看的东西, 给之的反馈是真的理解或假的理解.其实元数据只是数据门类里面的一个类别,其它的还有 主数据,参考数据,交易数据等等.这些也是一个个大类.主数据(Master Data)概念主数据指实例化的企业关键数据.主数据一般存在形式有:(1)企业组织架构,如员工,部门等(2)企业财务数据,如预算,利润,合同等(3)企业产品等信息.
(4)…听起来,开办一个企业,就会有以上的数据,它们叫做主数据.参考数据(Reference Data)概念参考数据指帮助解释和理解数据的数据.比如, 数据库中关于性别(sex)的数据,我们一般用1和2,而不是男和女. 这个1和2 是一个约定俗成的方式;还有,如果一个字段peopleSum ,它表示的是一个村子的人口总数,还是一个国家,还是一个世界的人口,这个注释就是参考数据。如果是国家人口,是哪个国家,国家有哪些,这些国家名的相关字段,也是参考数据。还有一个数据门类,是交易数据。交易数据(Transaction Data)的概念交易数据指用于记录业务事件的数据,比如客户的订单,交易流水,申请记录等。它往往用于描述在某一个时间点上业务系统发生的行为。介绍了以上几种数据门类,以后在描述数据时,起码对数据范畴和数据的关联会清晰一点,是不是?其实本人,并不知道有什么用。不过,本人感兴趣的是,应用层面,能否借以上概念做些定性分析?未完待续参考资料:
https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0904loulj/index.html
http://atlas.apache.org/QuickStart.html
https://github.com/apache/incubator-atlas
https://wenku.baidu.com/view/9b39d5b5fe4733687f21aa25.html?from=search
https://atlas.apache.org/
https://community.hortonworks.com/articles/36121/using-apache-atlas-to-view-data-lineage.html
https://hortonworks.com/blog/apache-atlas-project-proposed-for-hadoop-governance/
http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm
页: [1]
查看完整版本: 记《魅族大数据治理》分享讲座之本人感想分析