最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[元数据] Marquez,开源的元数据管理工具

[复制链接]
跳转到指定楼层
楼主
发表于 2021-6-28 14:37:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
Marquez是一款开源的元数据服务,用于数据生态系统元数据的收集、汇总及可视化。它维护着数据集的消费和生产,为作业运行时和数据集访问频率提供全局可见性,提供集中的数据集生命周期管理等。WeWork发布并开源了Marquez。
Marquez是一款开源的元数据服务,用于数据生态系统元数据的收集、汇总及可视化。它维护着数据集的消费和生产,为作业运行时和数据集访问频率提供全局可见性,提供集中的数据集生命周期管理等。WeWork发布并开源了Marquez。
Marquez的特征:
  • 集中式元数据管理支持:
数据血缘(Data Lineage)
数据治理(Data governance)
数据健康检查(Data health)
数据发现+探索(Data discovery + exploration)
  • 精确的高维度数据模型:
作业(Jobs)
数据集(Datasets)
  • 通过指定的元数据 API轻松收集元数据:
重视数据集数据
强化作业和数据集的所有权
  • 以最小的依赖进行简单的操作和设计
  • RESTful API支持与其他系统的复杂集成:
Airflow
Amundsen
Dagster
  • 旨在促进一个健康的数据生态系统,在这个系统中,组织中的团队成员可以信心十足地无缝共享并安全地依赖彼此的数据集。
为什么选择Marquez?
Marquez 支持跨全数据集的高度灵活的数据血缘查询,同时可靠且高效地关联作业及其生成和使用数据集之间的(上下游)依赖关系。
Marquez的设计
Marquez 是一个模块化系统,作为一个可高度伸缩和扩展的去平台化的解决方案,实现元数据管理。它由以下系统组成:
  • 元数据存储库:存储所有作业和数据集元数据,包括作业运行和作业级统计的完整历史记录(如:总运行时间、平均运行时间、成功/失败等)。
  • 元数据API:RESTful API使一组不同的客户端能够围绕数据集的生产和消费收集元数据。
  • 元数据UI:用于数据集发现、连接多个数据集并探索它们依赖关系图。
为了方便采用并使不同的数据处理应用程序能够将元数据收集作为其设计的核心需求,Marquez提供了实现元数据API的特定语言客户端。作为初始版本的一部分,它支持Java和Python。
元数据API是一个抽象的概念,用于记录数据集生产和使用的信息。是一个低延迟、高可用的无状态层,负责封装持久化的元数据、集合血缘信息。API允许客户端收集,且/或从元数据存储库获取数据集信息。
元数据需要被收集、组织和存储,以便通过元数据UI进行丰富的探索性查询。元数据存储库是由元数据API压缩且清洗后的抽象的数据集信息目录。
Marquez的数据模型
Marquez的数据模型强调数据集的不变性和及时处理性。数据集由作业运行生成,价值重要。作业运行与版本代码链接,并生成一个或多个不可变的版本输出。数据集的更改通过轻量级API的调用被记录在作业执行的不同点,包括运行本身的成功或失败。
下图显示了在多次运行中为给定作业收集和编目的元数据,以及应用于其输入数据集的时间序列变化。

  • 作业:作业包含所有者、唯一名称、版本和可选描述。作业会将一个或多个版本输入定义为依赖,并将一个或多个版本输出定义为artifacts。需注意的是,作业可能只定义了输入数据集,也可能仅定义了输出数据集。
  • 作业版本:作业的只读不可变版本,有唯一可引用的链接,以编码存储保证源码的重现。作业版本将一个或多个输入和输出数据集关联到作业定义(数据在各种作业中的流转,对记录血缘信息很重要)。这些关联对源链接进行分类,并提供强大的可视化数据流。
  • 数据集:数据集有所有者、唯一名称、schema、版本和可选描述。数据集包含于数据源。数据源可将物理数据集分组到它们的物理源。每个数据集都有一个指向历史更改集的版本指针,由Marquez来维护。当将数据集更改提交回Marquez时,将生成一个唯一的版本ID,进行存储,然后将其设置为当前版本,并在内部更新指针。
  • 数据集版本:数据集的只读不可变版本。每个版本都可以独立读取,有一个唯一ID,映射到数据集的更改,以保留其在特定时间点的状态。只有当数据集的更改被记录,才会更新最新版本ID。为了计算不同的版本ID,Marquez将版本控制功能应用于与底层数据源的数据集相对应的一组属性。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-24 10:03

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表