最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

记《魅族大数据治理》分享讲座之本人感想分析

[复制链接]
跳转到指定楼层
楼主
发表于 2018-4-26 09:00:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

昨天参加了魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容,现整理一些如下.
首先,他们整理了一个治理流程,架构图(本人整理,非原版,下文图片亦是如此)如下:

然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下:

流程图上面,其中,“主数据管理” 模块是本人根据理解加的,下文会讲到。

接着,他们重点讲了“元数据管理” 模块。可能是做这方面,他们讲的细一些。主要是“自研”还是使用“开源解决方案”,其中,他们介绍使用了一种叫“Apache Atlas” 的开源框架,来做元数据的管理。他们有一个“元数据平台架构”,包括“多源数据采集”, “WEB UI” 调用”MetaData Api” 做数据展示,而“MetaData Core” 从底层,也就是“Apache Atlas” 获取数据。架构图细节比较多,后期会上传图片。

然后,他们介绍了元数据采集,以及数据度量(校验)规则。度量规则如图:

接着,还有介绍了他们的“数据质量管理系统”,细节比较多,就不上图了。

最后,计算出来的结果数据合不合理,以及准确性高不高?为此,还有个“质量评价体系”,如图:

其中,指标定义:

  • 离线任务失败个数
  • 离线任务整体延迟分钟数
  • 九点之前未完成的任务数
  • 流平台告警次数
  • 规则执行完整度以及报错情况

总之,讲的侧重架构方面,由于本人目前做具体开发方面比较多,现把本人对一些内容的理解分享一下。

先介绍下这些所谓“元数据”门类的概念。

元数据是什么?

元数据(Meta Data)概念是”描述数据的数据” ,听上去,感觉,不是很明白.哈佛大学图书馆项目定义是:”元数据是帮助查找,存取,使用和管理信息资源的信息” .这下清晰了一些, 比如,如果一个app功能是用来查找,存取等管理数据的,那么元数据是用来帮助管理的. 再举一个例子可能更明白一点:例如在一座图书馆中,如果认为每本书的内容都是数据,用来查找每一本书的索引就是元数据.

这下对它的意义和功能清楚了一些,但是在管理元数据中,仅仅知道几个例子是不够的.我找了一张元数据的架构图:

架构图:

从图上看起来,元数据也是一个牵涉甚广的东西.

元数据的一般存在形式有:

(1) 数据库结构,和表之间的关系描述

(2) 配置文件,如xml格式文件;

(3) Sql 脚本

(4) 流程图

(5) UML图,E-R图

(6) …

以上大多东西,在开发中都会有用到,是实际用到的东西,以前我们知道这些东西,现在我们知道它们都属于元数据. 魅族工作人员有介绍了一种管理工具,叫做”Apache atlas”,它能管理元数据,似乎是一个强大的工具,那么它是什么呢?

它的网站(https://atlas.apache.org/)介绍说:

Data Governance and Metadata framework for hadoop

用谷歌翻译,就是:用在hadoop上的数据治理和元数据框架工具.

它可以提供哪些功能,这里有个功能图:

它能治理上面提及的元数据形式吗?

有一个使用例子,是用来使用Apache atlas 查看数据血缘关系:

参考索引:
https://community.hortonworks.co ... w-data-lineage.html

还有使用例子,是用来定义类型(Type)的:

pdf教程:

https://atlas.apache.org/0.7.1-incubating/AtlasTechnicalUserGuide.pdf

有兴趣可以慢慢研究.

这是它的源代码,应该是吧:

https://github.com/apache/incubator-atlas

总结:
元数据是一个数据门类,用来描述数据,它的表现形式多样,具有一定的抽象性,对数据整体,或局部数据,都有一些相应的描述语言,规则和工具。
Apache atlas 是一个hadoop系列的元数据管理工具, 它提供了完成度比较高的功能. 作为大数据开发工作者, 以前用苍白的语言描述自己做的事情, 给之的反馈是真的不屑或假的不屑;现在有了一个可以看的东西, 给之的反馈是真的理解或假的理解.

其实元数据只是数据门类里面的一个类别,其它的还有 主数据,参考数据,交易数据等等.这些也是一个个大类.

主数据(Master Data)概念

主数据指实例化的企业关键数据.

主数据一般存在形式有:

(1)企业组织架构,如员工,部门等

(2)企业财务数据,如预算,利润,合同等

(3)企业产品等信息.
(4)…

听起来,开办一个企业,就会有以上的数据,它们叫做主数据.

参考数据(Reference Data)概念

参考数据指帮助解释和理解数据的数据.

比如, 数据库中关于性别(sex)的数据,我们一般用1和2,而不是男和女. 这个1和2 是一个约定俗成的方式;还有,如果一个字段peopleSum ,它表示的是一个村子的人口总数,还是一个国家,还是一个世界的人口,这个注释就是参考数据。如果是国家人口,是哪个国家,国家有哪些,这些国家名的相关字段,也是参考数据。

还有一个数据门类,是交易数据。

交易数据(Transaction Data)的概念

交易数据指用于记录业务事件的数据,比如客户的订单,交易流水,申请记录等。它往往用于描述在某一个时间点上业务系统发生的行为。

介绍了以上几种数据门类,以后在描述数据时,起码对数据范畴和数据的关联会清晰一点,是不是?其实本人,并不知道有什么用。

不过,本人感兴趣的是,应用层面,能否借以上概念做些定性分析?

未完待续

参考资料:
https://www.ibm.com/developerwor ... 904loulj/index.html
http://atlas.apache.org/QuickStart.html
https://github.com/apache/incubator-atlas
https://wenku.baidu.com/view/9b3 ... 25.html?from=search
https://atlas.apache.org/
https://community.hortonworks.co ... w-data-lineage.html
https://hortonworks.com/blog/apa ... -hadoop-governance/
http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-23 20:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表