最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

[实践案例] 数据质量平台EsDataClean的13种兵器

[复制链接]
发表于 2019-9-10 16:53:48 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

子曰:工欲善其事,必先利其器。作为一款数据管理管理产品,如何能够“慧眼”诊断出数据中存在的各类问题,离不开质量管理平台内置的核心“武器”——质量评价算法。


今天,我们一起来了解一下这EsDataClean的这十三种秘密武器。


空值检查

用于检查业务表的目标字段是否为空值。不但能实现对同一业务表的单个指标

值是否为空的检查,对于多个指标的空值检查也轻松应对,可以根据实际需要实现是否允许每个指标不能为空或者不能同时为空的检查。

值域检查

用于检查业务表中数值型、字符型、日期型目标字段的值是否在指定的范围内。如:检查参加工作者年龄是否在16,65之间,可以在值域范围内书写[16,65]。

规范检查

你可以轻松实现诸如:身份证号码、IP地址、手机号码、日期、邮编、固定电话、日期、字符等类型指标的规范性检查;系统还提供正则表达式实现更加复杂的规范检查。

重复数据检查

她可以实现业务表中记录数据是否重复,什么是重复数据,你说了算!重复数据依据自定义功能,助你完成重复数据的定义。

记录缺失检查

在直报系统中,我们去检查某一填报任务的报表户id数据是否与机构表中的机构id一致,是否有缺失,记录缺失检查可以帮你完成。

引用完整性检查

检查业务表中录入的民族代码,是否都在民族维表内,病案数据中的血型代码是否都在血型代码中?引用完整性检查可以帮你完成。

业务逻辑检查

用于检查指标间是否符合逻辑关系要求,如参加工作的人,年龄应在16在65之间。我们实际应用得逻辑关系校验往往很复杂设计多个表,多种条件、分支判断,不用担心,系统提供了多表关联关系定义,多种函数、可视化的逻辑关系定义操作界面,助你轻松完成复杂逻辑关系的定义。

及时性检查

对业务数据有时效性要求的小伙伴们,在设定时效性检查的字段、允许的误差天数、检查的表达式定义等基本信息后,便可进行业务数据的时效性检查。

波动检查

业务指标与同比、环比相比在多大的范围内波动是合理的,你可以用它来检查。

平衡检查

检查某厂商生产的手机长、宽的差值应在[1,8]毫米之间;用于判断一个业务表中两个指标(表达式)间的差值是否在指定的范围内。

离群值检查

了解某个指标识的离散分布情况,从中发现差异比较大的值;如:对某地区三级医院的人均住院费用极值的探索,你再也不用拍脑袋,写sql去后台查啦!系统支持拉依达法,即三倍标准差和格鲁布斯法的监测校验,帮你轻松找到离群值。

结果集比对

用于实现跨数据源的对比,对数据抽取前后,数据的一致性进行对比分析。支持分数据期和业务表全数据集的一致性对比分析。

Sql检查

如果以上的各种检查方法都看完了,还没有你满足你的一款style;别担心,系统提了支持sql脚本检查的操作入口,按照系统提供的sql脚本调用格式,进行配置,你就可以实现将自己写的sql检查脚本集成到数据质量平台来使用。

结束语

好了,看了这么多兵器的用途,想必你对数值质量平台的每一款武器都有直观的了解了吧


楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 04:14

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表