最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据时代下,数据感知在数据质量管理系统中的应用

[复制链接]
跳转到指定楼层
楼主
发表于 2017-7-24 18:04:49 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
关于数据质量管理,可能与大部分人没有太大的关系。虽然,市面上有很多的公司在进行数据的挖掘、分析方面业务的工作,但是关于数据质量管理方面的公司真的是屈指可数。

由于本人所在的公司主要是为了解决发改委遇到的一些问题,而开展的1个项目。比如检验地市注册资金是否存在异常这么1个简单的例子。

而对于数据感知技术,大部分没有了解过。为了说明,大数据时代下,数据感知在数据质量管理系统中的应用,这里我们需要先解决几个问题:

  • 什么是数据质量管理系统?
  • 什么是数据感知技术?
  • 数据感知技术的用途?


下面我们分别来进行介绍。

什么是数据质量管理系统

我们知道,数据是企业数据中心的重要资产,获取并维护高质量的数据,对业务及运营至关重要。而数据量越大,有价值的信息获取的难度就越大。如果获取不到有用的信息,就不能很好的进行数据挖掘和数据分析。

但是在这个过程中,有许多因素会导致这些数据资产贬值,比如数据的冗余和重复会导致信息的不可识别、不可信及精确度不够等情况的发生。

而数据质量管理系统就是对数据进行处理后能够提供高质量的数据,最终的目的是挖掘数据价值,推动业务发展,实现盈利。

而数据质量管理系统主要由如下一些部分组成:

  • 数据清洗与去重
  • 数据可视化
  • 数据评估
  • 数据治理
  • 数据挖掘
  • 数据分析


而当前系统主要采用纯Python来实现。对于发改委动不动就千万级别的数据还是可以很好的进行驾驭的。

什么是数据感知技术

对于感知的定义是客观事件通过感觉器官在人脑中的直接反映。而所谓数据感知,就是通过对数据的一些特征信息来对数据进行描述。比如,我们看到远处有1个人,长头发穿着红色衣服高跟鞋,那么我们就可以推测那个人是女的。当然,这个过程也可能会出现不准确的问题,比如那个人是个男的,就这样打扮。

而数据感知技术可以实现给我们1组样本数据,我们可以知道它是哪种类型。比如,给我们如下的100条记录1组数据:

13923123425
020-8876234
(0760)2347234
...
3423456
  
通过我们的感知技术我们可以识别它为手机号码和电话号码,其中手机占据的比例假设为60.82%,而电话号码占据的比例为32.22%,而剩下还有6.96%的数据无法被识别出来,因此我们可以推断当前数据为联系方式为主。

需要注意的是,这100条记录需要满足随机性,不然感知出来的结果可能会差强人意。

当然,这是比较简单的1个例子。当然我们还可以识别中文姓名、地址信息、企业名称、工商注册范围、工商注册资金等类型,这里就涉及到概率论及统计学的一些内容了。

当然,还会涉及到一些线性代数的内容,比如贝叶斯网络转移矩阵的使用,会用到矩阵的相关知识。

数据感知技术的用途

一般情况下,数据质量管理系统都是基于规则库进行开展工作的,而对每组数据进行规则的配置是1个繁琐且耗时的工作,基本上没有人愿意进行这种工作。

而此时,通过数据感知技术,我们可以自动的感知规则,并为每组数据推荐最适合的规则,从而简化人员的工作量,提高效率。

另外通过数据感知技术,还可以找到数据库其他类似的类型的数据,进行数据关联性的关联,弥补一些认知上的缺陷。

总结

实际上,数据感知只是数据质量管理中的1个很小的环节,通过这种自动化的技术,可以节省人工的成本及提高效率。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-14 04:59

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表