最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] 大数据质量监控(Griffin)建设方法 监控指标

[复制链接]
跳转到指定楼层
楼主
发表于 2020-11-30 15:20:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
一、为什么要做数据质量监控1)数据不一致

企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。企业业务系统更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性信息设置和要求不统一。另外,由于各系统的相互独立使用,无法及时同步更新相关信息等各种原因造成各系统间的数据不一致,严重影响了各系统间的数据交互和统一识别,基础数据难以共享利用,数据的深层价值也难以体现。

2)数据不完整

由于企业信息系统的孤立使用,各个业务系统或模块按照各自的需要录入数据,没有统一的录入工具和数据出口,业务系统不需要的信息就不录,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。

3)数据不合规

没有统一的数据管理平台和数据源头,数据全生命周期管理不完整,同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,且没有相应的数据管理流程。

4)数据不可控

海量数据多头管理,缺少专门对数据管理进行监督和控制的组织。企业各单位和部门关注数据的角度不一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的数据管理标准、流程等,相应的数据管理制度、办法等无法得到落实。同时,企业基础数据质量考核体系也尚未建立,无法保障一系列数据标准、规范、制度、流程得到长效执行。

5)数据冗余

各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一,且部分业务系统针对数据的验证标准严重缺失,造成了企业顶层视角的数据出现“一物多码”、“一码多物”等现象。

二、建设方法


质量监管平台建设,主要包含如下8大流程步骤:

  • 质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等;
  • 提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准;
  • 规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等;
  • 执行检核:调度配置、调度执行、检核代码;
  • 问题检核:检核问题展示、分类、质量分析、质量严重等级分类等;
  • 分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识;
  • 落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼;
  • 知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。
三、监控指标1)单表数据量监控

一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值
 SQL结果:var 数据量 = count(“昨天”(如果设置了时间字段的话)满足“过滤条件”的记录)
 数值检测:如果数据量不在[数值下限, 数值上限], 则触发报警
 同比增加:如果((本周的数据量 - 上周的数据量)/上周的数据量100)不在 [比例下线,比例上限],则触发报警
 环比增加:如果((今天的数据量 - 昨天的数据量)/昨天的数据量
100)不在 [比例下线,比例上限],则触发报警
 “阈值配置”的六个数值当中,至少配置一个阈值. 对于没有配置的阈值,不做监控

2)单表空值检测

某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内
 目标字段:选择要监控的字段,不能选“无”
 SQL结果:var 异常数据量 = count("目标字段"为空的记录)
 单次检测:如果(异常数据量)不在[数值下限, 数值上限],则触发报警

3)单表重复值检测

一个或多个字段是否满足某些规则
 目标字段:选择要监控的字段,group by 这里的字段列表后,没有重复
 单次检测:如果(异常数据量)不在[数值下限, 数值上限], 则触发报警

4)单表值域检测

一个或多个字段没有重复记录
 目标字段:选择要监控的字段,支持多选
 检测规则:填写“目标字段”要满足的条件。其中$1表示第一个目标字段,$2表示第二个目标字段,以此类推。上图中的“检测规则”经过渲染后变为“delivery_fee = delivery_fee_base+delivery_fee_extra”
 阈值配置与“空值检测”相同

5)跨表数据量对比

主要针对同步流程,监控两张表的数据量是否一致
 SQL结果:count(本表) - count(关联表)
 阈值配置与“空值检测”相同

6)跨表主外键对比

 监控字段和关联字段:需要符合外键约束的两个字段
 阈值配置与“空值检测”相同

来源:https://blog.csdn.net/Charlie_jun/article/details/106944822
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-7 22:48

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表