最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

企业如何建立自己的数据管理平台?

[复制链接]
跳转到指定楼层
楼主
发表于 2015-5-5 11:18:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
  现在“大数据”这个词真的是火到了极点,互联网公司和IT行业人员聊起天来,两句离不开大数据,三句离不开大数据。
  企业如何建立自己的数据管理平台?
  对于中小型企业,数据的存储可以考虑使用外部的云端数据中心,目前外部数据中心的成本已经非常低了。在企业内部还是要建立自己的数据分析架构,其中要用到一些常用的数据工具。很多中小公司对数据管理和数据应用只是简单地输入日报表,周报表,然后是月报表。然后根据这些报表由公司领导给出下一阶段的决策。
  这些报表通常都是固定格式,只是数据不同。决策层长期以往,思维将会被禁锢在这些一成不变的表格中。很多决策层已经认识到这一点,于是他们说“给我新的东西看”甚至明确要求我要什么形式,什么维度的报表。于是我们的DBA们开始敲代码,跑数据,后面是领导不停的催,折腾个一两天是很正常的事,终于跑出一张报表了。有时刚交上去,报表需求又变了,我还要XX的报表,于是又是一次循环,又是一两天。好了,一周就这么过去了。
  市场在这一周里又发生了很多变化。这就是传统的数据分析,甚至还谈不上数据挖掘,感觉永远是慢一拍。类似这种公司的数据量不大不小,来源固定,比如百货行业,自建的网上商场,垂直类电商。对于这种首先要改善的是速度和敏捷。在明确了那些固定报表,和常用分析维度后,通过大数据技术手段我们完全可以把报表分析做到,实时查询,主动提醒,对于临时提出的分析要求也可以做到快速输出报表。
  那么如何实现,我们大致介绍下所要用到的实现方案。目前流行的大数据的解决方案大部分都是以hadoop为基础架构。
  什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案,分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据,比一台计算机运行速度快,而且如果数据量大了,或者报表复杂导致运算速度慢,只要再加计算机就解决了。当每台计算机运算完毕后,会把中间结果集中到一台计算机上,再把这些中间结果汇总起来得出最终结果。这就是经典map/reduce模式。一句话总结就是:拆分任务,分布运算,汇总出结果。
  企业建立数据管理平台
  每次的报表分析工作只要能按这套模式拆分成能分布运算的任务,并且任务结果可以合并成一个结果,就可以支持Hadoop的分布式运算,从而解决了分析速度的问题。
  中小企业是否需要有一支具有大数据理念的“小数据”挖掘团队?
  目前中小企业对于大数据普遍存在的观点:
  我的数据量每月就那么多,或者网站的流量不多。从“量”上来说不多,从“样”上来说也不广,来源也很单一。所以我们没有搞大数据的必要,离我们太遥远了。
  在大数据的浪潮下,做为中小公司对大数据的认识要有所求有所舍。中小公司关键要形成大数据的理念。作为一个合格的“数据科学家”不是一定要非常擅长互联网,营销之类,只要是熟悉就可以,重要是要有武器,什么样的问题来了,我用什么武器应对,解决方案是什么,可行性是多少。
  除了结构化数据以外还有文本,音频,图像,网络,行为轨迹,时间维等非结构化数据,这些数据如果处理?解决方案是什么?
  要懂预测,大数据最终就是用于预测,预测中会用到很多方法是基于机器学习的,其中比较热门的是集群学习。
  懂分布式计算,前面提到了一点分布式计算的皮毛,如Hadoop,但不是说知道这点术语和概念就可以了,关键是要会灵活使用这些工具和技术。面对一堆数据,要用什么算法来实现map/reduce,哪些分析我只要hive就可以解决。要用开放的眼光,要知道公司里哪些数据对外部有重大价值,外部有什么数据能对公司产生重大价值,借他山之石以攻玉,实现内部数据与外部数据的整合。
  随着互联网进程的深入推进,数据产生的时速和规模要远远超过现在,对于中小企业来说,越早培育起数据意识,才能应对这场互联网的浪潮。
  小编了解到各行各业也在向大数据时代靠拢,很多企业庶修炼成大数据企业,小编在这里想说,企业想要修炼成大数据企业就应该从两大方向着手:内部的构建和外部的互动。
扫二维码加关注,了解更多精彩内容!


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-9 05:23

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表