最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] 数据质量评估方法

[复制链接]
跳转到指定楼层
楼主
发表于 2019-9-10 15:58:59 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
数据质量评估体系主要参考以下指标:


数据完整性
数据准确性
数据有效性
数据时效性
数据一致性
依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。


数据质量评估具体检测的内容
数据完整性检测
完整性,描述数据信息缺失的程度,是数据质量中最基础的一项评估标准。数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。数据完整性检测的步骤是


对于数据信息记录缺失的检测,可以通过对比源库上的表数据量和目的库上对应表的数据量来判断数据是否存在缺失。
对于字段信息记录缺失的检测,选择需要进行完整性检查的字段,计算该字段中空值数据的占比,通常来说表的主键及非空字段空值率为0%。空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。


数据准确性检测
准确性,用于描述一个值与它所描述的客观事物的真实值之间的接近程度,通俗来说就是指数据记录的信息是否存在异常或错误。例如业务员在上报系统上填写客户信息时,手误输错了某一信息,造成了数据库里存在的信息与客观事实不一样。数据准确性的检测较为困难,一般情况下很难解决。在某些特定的情况下,例如性别,年龄,出生日期,籍贯等信息可以通过校验身份证号来检测,前提是确保身份证号码是正确的。


数据有效性检测
有效性,描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。数据有效性检测的步骤是用户选择需要进行有效性检测的字段,针对每个字段设定有效性规则。有效性规则包括类型有效、格式有效和取值有效等。类型有效检测字段数据的类型是否符合其定义,例如可以通过求和来判断是否是数值型,通过时间操作来判断是否是时间类型。格式有效性检测可以通过正则表达式来判断数据是否与其定义相符。取值有效检测则通过计算最大最小值来判断数据是否在有效的取值范围之内。


数据时效性检测
时效性, 是指信息仅在一定时间段内对决策具有价值的属性。数据从生成到录入数据库存在一定的时间间隔,若该间隔较久,就可能导致分析得出的结论失去了借鉴意义。例如当天的交易数据生成后没有及时的录入数据库或者源库与目的库之间的同步延迟,则会导致统计结果和真实结果存在一定误差。


数据一致性检测
把待检测的表作为主表,首先用户确定一致性检测的主表字段,然后选择需要给定检测的从表和从表字段,设置好主表和从表之间的关联项,关联项可以是多个字段,但是关联项必须是拥有匹配值的相似字段。匹配关联之后检查主表和从表相同或者类似字段字段值是否一致。


数据质量评估流程
数据质量的评估流程首先确定要检测的数据质量指标和评估规则,然后编写相应的 SQL 脚本来检测分析数据,最后计算满足各个规则的数据的百分比得分。系统的综合得分的计算可以通过把每条规则的得分计算出来,然后综合后取平均值,但更为合理的方法就是可以把每条规则的得分按照给定的权重进行评价,做出一个合理的数据质量评价等级。由用户规定每个检测规则的权重,做出一个权重方案,然后按照各个检测规则的权重进行整体的计算统计,得到一个合理的数据质量评估得分
————————————————
版权声明:本文为CSDN博主「下限君的逆袭」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u014644783/article/details/86526342

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-25 07:36

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表