最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

【干货】防止数据湖成为数据沼泽的三大关键

[复制链接]
跳转到指定楼层
楼主
发表于 2017-6-26 12:13:43 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2017-6-26 12:18 编辑

数据湖可以轻松存储所有的业务数据,但是需要注意的是:大量的存储量(容器库)可能引起陷入瘫痪,让用户动弹不得。我们今天就来谈如何能防止数据湖变成数据沼泽。



很多年来,在诸如Apache hadoop这样的技术支持下,企业纷纷寻求建立数据湖,即企业范围内的数据管理平台来存储原始数据。数据湖能提供各类单一分类信息库来满足企业内所有人都可以进行数据分析到数据挖掘。原始、未治理的数据湖被认为可以捕获所有大数据信息以及整理出所有所需信息。

商业智能软件金字塔分析(Pyramid Analytics)的CTO Avi Perez认为已经有很多客户和方方面面在显示数据湖正恶化成为数据沼泽,大量的数据存储(容器)根本不能触达到最终用户。

“数据库都非常昂贵,这些数据湖从根本上解决了这个问题。数据湖以及所有的这些大数据项目之所以建立首先都因为面临自市场的压力,其次,真实世界所产生的大量数据需要有一个方式去存储。”Perez说道。

目前世界上最成功的那些公司都围绕他们的数据湖创建了业务(例如谷歌就是个很好的案例),但其他公司则没有任何清晰的路径去从其所收集数据中获得价值。

Perez认为“他们仅仅收集了一堆尘土,一堆垃圾,一堆废弃物,最后不得不砍掉这些既不能获得任何价值,且又昂贵无比的项目预算。”

这也并不是说数据湖是个坏主意。Perez认为每家公司最终也都需要一个数据湖,但是必须深思熟虑地创建一个最终用户可以从中受益的数据湖。

为了避免误入歧途,Perez提出如下三项建议。

1在初始尽可能少地收集数据

Perez认为企业最容易犯的大错是仅仅因为他们能收集数据,而收集了过多数据。想想如果你有一台智能手机,可能会存数百张甚至更多照片。

“也许最后手机里你有十亿张照片,然而其中99%都可能是你一点儿都不想保留的垃圾。因为拍照不花钱,所以你轻而易举地拍了很多照片。你也许在想,有一天我会好好清理一下,但是如果那天一直都没到来呢?你就收集了大量的信息,且并不能有效利用。”

当你某天突然想给某个人看一张特别的照片时,不得不滑动无数垃圾照片去费劲地寻找。

数据湖也是同样的。在Hadoop里面存储数据貌似没什么成本,因为是免费的。但是太多的数据将使你更难真实地从中提炼有价值的洞察。

“我认为更好的方式是改变水龙头的方向,在看似低廉地收集数据的基础上去使用这些数据其实并不便宜,反而更昂贵。因此不要随时随地到处收集信息。聚焦在那些你有特定计划的数据集上,并且思考你将如何挖掘它们。”

2接受机器学习战略

哪怕是一个集中性的数据集,也尽量利用自动化来从大量数据中探索洞察。

Perez认为:“你需要一个自动化系统来清洗数据,人工智能、机器学习、深度学习,无论你用哪种术语来称呼它,其都将成为处理数据的魔法解决方案。我总希望以一种最轻松的方式来释放巨量5PB数据湖的价值,所以从学习一门技术开始吧。”

Perez认为在最开始可以挑选一个熟悉的数据集,并且选择一种机器学习的方式来训练自己拥有这门手艺,最后无论是培训其他人还是雇人来以此技术有效地进行工作,即可达成目的。

“机器学习是一种黑色艺术,其并不容易,但这是你必备的一项技艺。”

3决定你想着手的业务问题

到处都存在这样的闭环:先搞清楚你正在尝试解决何种业务问题。目标清楚后,就可以很轻松地利用机器学习技术从零开始收集你所需要的数据,并从中找出洞察。

举例而言,假设你是一个大盒子的零售商,想了解什么样的顾客会到店。你可以捕捉入店顾客的图像信息,并且用复杂神经网络技术(CNN,一种深度学习神经网络技术,用于解析计算机视觉问题)来处理图片。CNN能够辨识任何个人到底是男性还是女性,儿童还是成年人,一个儿童和成年人,一个年轻人和一个老年人,等等。

“一旦你将业务项目以及目标和这些设定绑定在一起,就可以赋能于业务用户,其可以帮你做出决策:‘我需要做更多针对男性的市场推广,因为现在男性太少’。你并不需要提前获得一个精确的战略。如果你没有绑定在一起,那么就这些收集而来的信息也将变成一个很难处理的负面资产了。”

一旦你将业务驱动视为能动之一,那么其很可能将这种能力迭代,从而提供给业务更多既定的解决方案。举例而言,一旦你能识别出谁进入了店面,那么你可以应用同样的功能来发现谁路过了化妆品柜台。企业网D1Net译


(来源:企业网D1Net)



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-26 03:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表