最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] 数据质量监控

[复制链接]
跳转到指定楼层
楼主
发表于 2020-1-6 09:27:32 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2021-9-22 16:42 编辑

  • 数据质量的定义
    • 从数据使用者的角度定义,高质量的数据应该是能充分满足用户使用要求的数据。
  • 数据质量的标准
    • 1:及时性:数据获取是否及时,主要指数据提取、传送、转换、加载、展现的及时性。在数据处理的各个环节,都会涉及到及时性。我们一般考虑两个方面第一就是接口数据是否能够及时的抽取过来。第二就是展现层能否及时的展现出来。
    • 2:完整性:是指数据是否完整,描述的数据要素,要素属性及要素关系存在或不存在,主要包括实体缺失、属性缺失、记录缺失以及主外键参照完整性的内容。
    • 3:一致性:第一就是原始数据即文件接口和入库的数据记录条数是一致的。第二就是同一指标在任何地方都应该保持一致。
    • 4:有效性:描述数据取值是否在界定的值域范围内,主要包括数据格式、数据类型、值域和相关业务规则的有效性。
    • 5:准确性:主要是指指标算法、数据处理过程的准确性。这个准确性主要是通过元数据管理中定义的指标的算法、数据处理顺序和人工检查相结合的方式来保证。
  • 数据仓库中数据质量检查
    • 接口数据的检查。接口数据主要有文件和数据库
      • 接口内容本身的数据质量问题: 及时性,有效性,完整性
      • 文件接口采集程序的监控:文件接口采集程序是否正常启动,正常结束等
    • 数据仓库层面的数据
      • 数据处理过程监控:是否按时调度,是否成功。
      • 关键指标的检查:
        • 基础指标的检查
          • 数值检查:主要是通过检查单个指标的数值来发现指标的异常和突变等情况。这里需要设置相应的阀值来进行。
          • 波动检查:主要是同比或者环比的检查。先计算指标的同比或环比波动率,然后与预定的波动率上下限(阈值)进行比较。
          • 关联检查:对两个存在关联关系的指标(如同增、同减正关联关系),分析变化和波动情况。
          • 平衡检查:通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。
        • 加权波动检查:通过对单个指标的基础检查结果和影响因素的加权计算分析,综合检查指标的波动和变化情况。


  • 数据质量的评测流程
    • 数据质量需求分析
    • 确定评价对象和范围
    • 选取数据质量维度及评价标准
    • 确定质量测度及评价方法
    • 运用方法进行评价
    • 结果分析和评级
    • 质量结果和报告
  • 数据质量的评估方法
    • 基本概念
      • 模型M=<D,I,R,W ,E,S>
      • D(Dataset)是需要进行评估的数据集
      • I(Indicator)数据集D上需要进行评估的指标,如完整性、准确性、一致性等
      • R(Rule)与评估指标相对应的规则
      • W(Weight)赋予规则R的权值(大于0的整数),描述了该规则在所有规则中所占的比重。
      • E(Expectation)对规则R给出的期望值(介于0到100之间的实数),是在评估之前对该规则所期望得到的结果。
      • S(reSult)规则R对应的最终结果(介于0到100之间的实数),是在检测该规则后所得的结果。



    • 构造技术
      • 构造数据质量评估模型要经过4个步骤:确定数据集评估应用视图,选择评估指标,制定规则集,计算规则结果得分。
      • 下面将结合具体的实例来说明如何构造数据质量评估模型。
        • 1、确定数据集评估应用视图
          在进行数据质量评估时,首先要提出数据质量评估的需求,要确定哪些数据是用户感兴趣的(包括数据库、数据库中的数据集和数据集上的字段),对它们建立对应的用户视图。
          2、选择评估指标
          对于每个给定的数据集,选择所需要的评估指标: 对于Customer,选择完整性和有效性两个指标。
          3、制定规则集
          根据选择的评估指标,制定数据质量评估规则,并确定它们相应的权值和期望值。对于Customer,针对完整性和有效性指标制定以下规则:
          (1)ID 非空(权值:5,期望值:90):完整性
          (2)ID长度为18位(权值:10,期望值:90):准确性
          (3)Sex值为 F 或 M (权值:10,期望值:98):有效性
          4、计算规则结果得分
          对于规则集中的每条规则R,检查数据集上的数据实例,计算满足R的数据元组的百分比,得到R对应的结果S。计算数据元组总数的百分比,就是最终结果:假设它们的结果分别为95,90,90。




参考
http://www.chinaz.com/web/2012/1112/281738.shtml
http://blog.sina.com.cn/s/blog_66239fdb0100z9yf.html
http://www.5ykj.com/Article/xslwqygl/98050.htm
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 18:56

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表