最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] 数据血缘的那些事儿

[复制链接]
跳转到指定楼层
楼主
发表于 2020-3-7 18:04:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
数据血缘(Data Lineage)通常是指管理数据生命周期中的数据流向和历史记录,包括数据源头信息,后期移动到那个目标数据库等。
数据血缘的用途较多
  • 合规需求,这是监管部门的需求,为了监管合规,数据流动的各点和来源,都是重点需要监管的。
  • 影响分析和质量问题分析,这个数据开发部们的核心需求,随着数据应用越来越多,数据的流动链越来越长,一个源头的核心业务的改动,下游各分析应用必须保持同步,没有影响分析,就会各个数据服务造成异常访问的情况。
  • 数据安全和隐私这个是数据合规部门的需求,哪些数据是需要脱敏的,这个要保持全流通所有域的管控。
  • 迁移项目,这个出现在特定老项目终止需要新项目接管的情况下,没有数据流动映射表,就会大量花时间去整理,也很难保证迁移的完整性和正确性。
  • 自服务分析,数据分析团队为了确定数据可信程度,那么数据的来源是数据可信的重要依据。

数据血缘系统的构建和维护是一个较重的系统工程,我认为其是数据治理工作中的流沙之地,不小心会陷入这个坑之中,尤其是技术完美人格类型的负责人,这是因为数据血缘的工作需要考虑的因素很多。为了最大程度降低项目失败的风险,我们需要考虑数据血缘的服务用户对象,确定业务方面和技术方面的血缘优先,需要考虑到细节程度,覆盖率,变化频率,同时还要考虑人员流动,组织部门,技术架构等情况,制定最适合我们自己的策略。
数据血缘的收集方法
  • 自动解析
    自动解析当前主要的收集方法,具体就是解析SQL语句,存储过程,ETL过程等文件。因为复杂代码和应用环境等原因,根据国际厂商的经验,自动解析可以覆盖到企业数据的70-95%,目前无法做到100%,因此患有技术洁癖的负责人容易犯下这个错误,即追求极高的覆盖率。
  • 系统跟踪
    这个方法就是通过数据加工流动过程中,加工主体工具负责发送数据映射,这样做的极大好处是收集精准,及时,细粒度可支持,不过限制就是不是每个工具都可以集成。这种方法一般鉴于统一的加工平台,比如Informatica可以管理自己的全数据血缘周期。
  • 机器学习方法
    这个方法是基于数据集之间的依赖关系,计算数据的相似度。这个方法的好处是对工具和业务没有依赖,缺点准确率需要人工确认,一般可以做到3-8的数据可以分析发现。
  • 手工的收集
    在整个项目中,一般有5%是需要手工来做的。

目前的数据血缘大多是基于技术的梳理,一般服务技术人员的需求。随着数据服务走向前台,服务业务分析和CDO的业务数据血缘,目前已经有相关产品,通过数据的语义分析,将技术元数据映射到业务元数据上,将血缘以业务流程方式发布共享出来,辅助商务决策,这是未来的发展方向之一。
———— / END / ————
朱金宝  CTO
前ERwin总架构师,10年ERwin研发经验. 负责产品全生命周期的发布,丰富产品发布和架构设计经验,多个大数据建模专利所有者和技术文章作者。
来源:Datablau

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-22 02:55

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表