最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据准备是大数据分析的无名英雄

[复制链接]
跳转到指定楼层
楼主
发表于 2015-2-4 20:42:48 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
随着企业花越来越多的时间来分析数据,清理和准备数据的解决方案将会变得更有价值
现在大数据是热门话题,你在任何地方与任何人交谈很难不提到大数据。事实上,大数据的术语有点被过度使用,它对不同的人意味着不同的东西,但所有这些定义都有一个共同点,那就是数据!
上面我们说大数据依赖于数据,这似乎很明显,但大数据分析的成功需要的不仅仅是原始数据,还需要好的高质量数据。所以,更准确的说法应该是,大数据的成功需要准备好的数据。对于分析,有句古老的格言,“进来是垃圾,出去也是垃圾”,这意味着如果你把大量参差不齐的数据放到分析解决方案,你将会得到不好的结果。
数据的清理和准备历来都是漫长的艰巨的耗时的过程。当笔者还在Yankee Group公司时,他们迁移CRM系统,在迁移工作之前,该公司花了一年时间来清理现有系统中的记录数据,以确保不会迁移不好的数据。虽然他们做了这么多工作,仍然有很多不良信息被迁移过去。
最近,笔者看到一家被称为Paxata的公司,该公司提供的解决方案可以进行所谓的“自助服务自适应数据准备”。在分析或运营报告工作之前,该技术可以整合、清理和形成数据。市面上很多现有的商业智能产品声称可以简化分析过程,但事实是,大多数数据科学家和数据分析师花费大量时间来为分析准备数据。鉴于此,笔者认为,大多数企业宁愿聘请高薪人才找出数据的含义(+微信关注网络世界),而不是清理数据。
Paxata提供数据整个生命周期的准备,包括探索、清理、更换、形成和发布数据以进行分析。该产品还允许不同的数据团队共享相同的数据集,让不同的团队可以同时编辑和访问多个设备的信息。该产品还是一个管理解决方案,它会追踪项目内的每个步骤,并有完全的重放功能来审查已经完成的更改。
Paxata的用户可以提高对大型数据集的分析生产率,同时最小化数据蔓延的危险。该产品既可作为云服务—确保数据准备的灵活性,也可以作为内部部署的解决方案,它可以整合到hadoop以更快获取价值。
正如上文所述,大数据现在是一个热门话题,但企业和IT领导者需要明白,分析糟糕的数据意味着糟糕的分析结果,可能会造成错误的商业决策。正因为如此,笔者希望看到数据准备技术会开始像大数据一样热门。
via:网界网 作者:邹铮编译


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-18 02:01

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表