最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[元数据] Apache Atlas | 元数据管理框架的独舞

[复制链接]
跳转到指定楼层
楼主
发表于 2021-1-31 16:16:04 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2021-1-31 16:18 编辑

导读: 本文由張較痩总结分享授权发布,本文主要从元数据管理框架Apache Atlas、WhereHows&DataHub的定位、功能、架构、对比展开介绍~ ( ` ) 笔芯~ 再次感谢張較痩投稿!

  張較痩,大数据行业新人,就职于北京18线互联网公司,正努力向各位同行和前辈学习中!

  关注『数据仓库与Python大数据』,获取更多。

  作者: 張較痩

  正文

  一、定位

  Apache Atlas:Apache Atlas是hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。

  Linkedin WhereHows:WhereHows是LinkedIn公司为了方便员工发现公司内部数据、跟踪数据集移动、查看各种内部工具和服务的动向,而开发的用于大数据发现和管理的工具。它从不同的源系统中采集元数据,并进行标准化和建模,从而作为元数据仓库完成血缘分析。

  Linkedin DataHub:WhereHows项目已于2018年重新被LinkedIn公司设计为DataHub项目。

  二、厂商

  Apache Atlas:Atlas最早由HortonWorks公司开发,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架。后来开源出来给Apache社区进行孵化,目前得到Aetna,Merck,Target,SAS,IBM等公司的支持进行发展演进。因其支持横向海量扩展、良好的集成能力和开源的特点,国内大部分厂家选择使用Atlas或对其进行二次开发。

  Linkedin WhereHows&DataHub:由LinkedIn开源,并主要在LinkedIn内部使用。外部应用比较少,暂时没有看到相关应用案例。

  三、功能概览

  Apache Atlas:

  1)查看数据仓库中表与表之间的血缘依赖

  

  2)查看数据仓库表中字段与字段之间的血缘依赖

  

  Linkedin WhereHows:

  1)查看数据仓库中表与表之间的血缘依赖

  

  2)查看数据集和作业流血缘依赖

  

  3)查询元数据

  

  Linkedin DataHub:

  1)搜索元数据

  

  2)查看元数据

  

  3)编辑元数据

  

  4)查看数据集和作业流血缘依赖

  

  四、架构

  Apache Atlas:

  

  MetaSource Sources:目前,Atlas支持从以下来源提取和管理元数据:Hbase、Hive、Sqoop、Storm、Kafka

  Messaging:除了API之外,用户还可以选择使用基于Kafka的消息传递接口与Atlas集成

  采集/导出(Ingest/Export):采集组件允许将元数据添加到Atlas。同样,“导出”组件将Atlas检测到的元数据更改公开为事件。

  类型系统(Type System):用户为他们想要管理的元数据对象定义模型。Type System称为“实体”的“类型”实例,表示受管理的实际元数据对象。

  图形引擎(Graph Engine):Atlas 通过使用图形模型管理元数据对象。

  Titan:目前,Atlas 使用 Titan 图数据库来存储元数据对象

  Metadata Store:采用Hbase来存储元数据

  IndexStore:采用Solr来建索引

  API:Atlas的所有功能都可以通过REST API提供给最终用户,允许创建、更新和删除类型和实体。它也是查询和发现通过Atlas管理的类型和实体的主要方法。

  Atlas Admin UI:该组件是一个基于Web的应用程序,允许数据管理员和科学家发现和注释元数据。Admin UI提供了搜索界面和类SQL的查询语言,可以用来查询由Atlas管理的元数据类型和对象。

  Tag Based Policies:权限管理模块。

  Business Taxonomy:业务分类

  Linkedin WhereHows:

  

  WhereHows支持从HDFS、Teradata、Oracle、HIve、Elastic Search、Druid的数据集和Azkaban、Oozie的作业中将元数据的抽取、加载(ETL)至自身的Repo库。源系统可分为数据集类源系统和作业类源系统。

  数据集类源系统:以Hive为例,WhereHows从Hive的元数据库MySQL中抽取元数据并存储在自身的元数据仓库中,从而最终可以从WhereHows中查看Hive中的元数据信息,如Hive中有哪些Database、Database下有哪些表等。WhereHows不能直接得到数据集的血缘,WhereHows中数据集的血缘是从相关作业的分析中得到的。

  作业类源系统:以Azkaban为例,假设运行hive任务,则WhereHows可以从Azkaban的元数据库中获取作业信息、并从JobHistory获取实际运行的Hive或pig的日志,并对这些元数据以及日志数据解析形成血缘。

  Web UI即前端Web组件,提供可视化查询功能。提供展示元数据的UI,包括Datasets和Flows两个功能视图。

  REST Endpoint作为服务后端,主要提供API接口和执行ETL作业两个功能。

  DataHub:

  

  DataHub提供通过直接API调用或Kafka流的形式来摄取元数据。

  元数据从Kafka获取,元数据的生成者要生产一个标准化的元数据改变事件(MCE)。

  DataHub通过一组通用数据访问对象(DAO)进一步抽象底层数据系统,例如键值DAO、查询DAO和搜索DAO。通过键值DAO的任何更新操作都将自动发出元数据审计事件(MAE)。

  五、对比

  1)Atlas比WhereHows血缘分析粒度较细,支持字段级血缘依赖的跟踪。WhereHows仅支持表级。

  2)Atlas与Apache Ranger集成,可根据与Atlas中实体相关的分类对数据访问进行授权/数据屏蔽。而WhereHows缺乏有效的用户、权限管理能力。

  3)WhereHows比Atlas支持的源系统多。

  4)DataHub刚立项不久,数据管理方面与WhereHows的特性差不多,侧重于元数据的发现(搜索、查询)。

  5)Atlas在同行业中逐渐普及,社区活跃度远高于WhereHows和DataHub。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-30 02:57

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表