马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
现在“大数据”这个词真的是火到了极点,互联网公司和IT行业人员聊起天来,两句离不开大数据,三句离不开大数据。 企业如何建立自己的数据管理平台? 对于中小型企业,数据的存储可以考虑使用外部的云端数据中心,目前外部数据中心的成本已经非常低了。在企业内部还是要建立自己的数据分析架构,其中要用到一些常用的数据工具。很多中小公司对数据管理和数据应用只是简单地输入日报表,周报表,然后是月报表。然后根据这些报表由公司领导给出下一阶段的决策。 这些报表通常都是固定格式,只是数据不同。决策层长期以往,思维将会被禁锢在这些一成不变的表格中。很多决策层已经认识到这一点,于是他们说“给我新的东西看”甚至明确要求我要什么形式,什么维度的报表。于是我们的DBA们开始敲代码,跑数据,后面是领导不停的催,折腾个一两天是很正常的事,终于跑出一张报表了。有时刚交上去,报表需求又变了,我还要XX的报表,于是又是一次循环,又是一两天。好了,一周就这么过去了。 市场在这一周里又发生了很多变化。这就是传统的数据分析,甚至还谈不上数据挖掘,感觉永远是慢一拍。类似这种公司的数据量不大不小,来源固定,比如百货行业,自建的网上商场,垂直类电商。对于这种首先要改善的是速度和敏捷。在明确了那些固定报表,和常用分析维度后,通过大数据技术手段我们完全可以把报表分析做到,实时查询,主动提醒,对于临时提出的分析要求也可以做到快速输出报表。 那么如何实现,我们大致介绍下所要用到的实现方案。目前流行的大数据的解决方案大部分都是以hadoop为基础架构。 什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案,分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据,比一台计算机运行速度快,而且如果数据量大了,或者报表复杂导致运算速度慢,只要再加计算机就解决了。当每台计算机运算完毕后,会把中间结果集中到一台计算机上,再把这些中间结果汇总起来得出最终结果。这就是经典map/reduce模式。一句话总结就是:拆分任务,分布运算,汇总出结果。 企业建立数据管理平台 每次的报表分析工作只要能按这套模式拆分成能分布运算的任务,并且任务结果可以合并成一个结果,就可以支持Hadoop的分布式运算,从而解决了分析速度的问题。 中小企业是否需要有一支具有大数据理念的“小数据”挖掘团队? 目前中小企业对于大数据普遍存在的观点: 我的数据量每月就那么多,或者网站的流量不多。从“量”上来说不多,从“样”上来说也不广,来源也很单一。所以我们没有搞大数据的必要,离我们太遥远了。 在大数据的浪潮下,做为中小公司对大数据的认识要有所求有所舍。中小公司关键要形成大数据的理念。作为一个合格的“数据科学家”不是一定要非常擅长互联网,营销之类,只要是熟悉就可以,重要是要有武器,什么样的问题来了,我用什么武器应对,解决方案是什么,可行性是多少。 除了结构化数据以外还有文本,音频,图像,网络,行为轨迹,时间维等非结构化数据,这些数据如果处理?解决方案是什么? 要懂预测,大数据最终就是用于预测,预测中会用到很多方法是基于机器学习的,其中比较热门的是集群学习。 懂分布式计算,前面提到了一点分布式计算的皮毛,如Hadoop,但不是说知道这点术语和概念就可以了,关键是要会灵活使用这些工具和技术。面对一堆数据,要用什么算法来实现map/reduce,哪些分析我只要hive就可以解决。要用开放的眼光,要知道公司里哪些数据对外部有重大价值,外部有什么数据能对公司产生重大价值,借他山之石以攻玉,实现内部数据与外部数据的整合。 随着互联网进程的深入推进,数据产生的时速和规模要远远超过现在,对于中小企业来说,越早培育起数据意识,才能应对这场互联网的浪潮。 小编了解到各行各业也在向大数据时代靠拢,很多企业庶修炼成大数据企业,小编在这里想说,企业想要修炼成大数据企业就应该从两大方向着手:内部的构建和外部的互动。 扫二维码加关注,了解更多精彩内容!
|