最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] 聊聊大数据质量监控的那些事

[复制链接]
跳转到指定楼层
楼主
发表于 2020-2-29 16:25:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2021-9-22 16:40 编辑

在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。
数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。
本文主要探讨了一二线互联网公司数据质量监控平台。
一、Data Quality Center(DQC阿里巴巴数据质量监控平台)
1.系统架构图
(1)基于线上业务数据,进行数据采集
(2)基于监控规则库,执行SQL任务,进行计算处理
(3)基于用户规则,发送数据报警(短信、邮件)
2.系统流程图
(1)用户进行规则配置
(2)通过定时的调度任务触发检查任务执行
(3)基于任务配置,获取样本数据
(4)基于计算返回检验结果
(5)调度根据检验结果,决定是否阻断干预(强依赖、弱依赖)
二、 Apache Griffin(Ebay开源数据质量监控平台)
1.系统架构
(1)从准确性、完整性、时效性、唯一性等多个维度进行监控
(2)计算结果存储至ES、HDFS
(3)计算结果metrics展示
(4)支持实时和离线
(5)优势:开源
2.系统技术路线

3.metrics展示

三、 DataMan(美团点评数据质量监控平台)
1.系统架构
DataMan系统建设总体方案基于美团的大数据技术平台。自底向上包括:检测数据采集、质量集市处理层;质量规则引擎模型存储层;系统功能层及系统应用展示层等。整个数据质量检核点基于技术性、业务性检测,形成完整的数据质量报告与问题跟踪机制,创建质量知识库,确保数据质量的完整性(Completeness)、正确性(Correctness)、当前性(Currency)、一致性(Consistency)。
2.metric展示


四、 BDP(京东大数据质量监控平台)
京东数据质量监控系统(简称:数据质量系统) 是数据仓库、数据集市中表的数据变化进行监控。数据质量系统根据用户设定采集项配置、规则项配置、预警规则设置(枚举值),对用户指定的表进行每日定时数据采集、计算,并与历史数据或维表进行比对验证。最终将触发预警规则的异常数据以短信、邮件、App 等方式及时通知给用户。
1.系统架构图
关系型数据库mysql和非关系型数据库HBase作为数据源,进行监控
2.系统流程图
(1)数据监控(2)运行日志(3)数据报警(4)规则配置
3.监控展示

上述主要分析了当前各大公司主要在使用或者开发的数据质量方面的平台,无论是离线数据监控还是实时数据监控,均有涉及。然而可能你的公司没有这么多的人力或者物力,但是由于数据量的增长,需要考虑数据治理方面的问题,就可以考虑采用开源的平台,在此基础上开发或者优化,毕竟站在前人的肩膀上才能看的更远,走的更快。

参考资料:

1.美团点评技术专栏(DataMan-美团旅行数据质量监管平台实践)

2.开源中国(开源数据质量解决方案 Apache Griffin)

来源:https://blog.csdn.net/weixin_43291055/article/details/102608188


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-4 19:09

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表