最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

李元佳:理理大数据的脉络

[复制链接]
跳转到指定楼层
楼主
发表于 2016-1-20 10:30:17 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
这篇扯扯大数据还有IBM的认知计算,有点长。
一  先看看商业智能
先扯远点。
大数据的生意到底是啥?说白了就是数据分析(analytics)的生意,原来的商业智能(business intelligences)也是分析的生意,如果把原来的商业智能称为分析 1.0,那大数据其实就是分析2.0。
先看看商业智能是怎么样一个生意。
商业智能的场景是什么呢?到底能给客户带来什么使得其愿意为技术买单。简单来说就是帮助企业实现KPI管理,就是为需要管理的企业流程定义关键KPI指标,销售额多少、库存量多少、合同数量多少啊等等,商业智能系统可以把企业的过程数据(例如实际的订单)转换为相应KPI,要是手工来做这个KPI统计,企业不知道要花多少资源和时间才能完成。这个有个高大上的名字,叫做Performance Management, 或者Corporate Performance Management(CPM)。
这个需求场景几乎可以应用到所有企业,毫不费功夫复制到这个垂直行业,金融企业可以、电信企业可以、能源企业可以、零售企业可以,所有财富五百强的企业都要用,每个企业的运营人员都需要把握自己公司的关键流程。企业建设这样的系统的投资回报率无容质疑,市场需求是无疑的。
这对于产品经理来讲是个精美的产品模式,单一的模型、普世的刚需、海量的市场。(大数据的症结在于此,后面再讨论)
技术人员也开发了一套技术体系支撑这个商业需求。
首先是数据管理。数据要从各个独立的系统CRM、ERP等汇聚在一个池子,才能够进行全局指标的计算,这个池子就是数据仓库(data warehouse),  汇聚的工具是数据集成工具(data intergration)。这里首先要解决的一个技术难题就是数据量比原来单一系统的大,需要解决这个问题才能谈得上分析,Teradata 还有IBM DB2 DPF就用了分布式(简单起见先用这个词)的架构解决这个问题。
其次是数据分析。技术人员发现,KPI的分析其实是个多维分析的问题,比如说在对销售情况进行分析时候,对所有的交易,从年份纬度看到底每年销售了多少,或者从区域纬度看各个省销售了多少,或者从产品纬度看哪个产品销量最大,就是对同一套原始数据从不同纬度进行统计分析。这个技术最大的难题就是数据量太大,分析速度跟不上,一个企业可能一年下来会有数十甚至百亿级别的交易,要对这些数据进行求和平均,极为耗时,有些甚至需要数小时,这样实用性不高。为了解决这个问题,就开发了一种预先计算的机制,把指标先计算好,需要看指标时候直接给指标。这些难题都解决完了,还有一个问题就是数据的可视化,把指标通过仪表盘的模式展现给用户。
二  商业智能产业链
好,我们再来看看商业智能的整个产业链是怎么样的:
  • 商业场景:Performance Management, 同时有一套corporate performance management 的理论和方法,如何选流程,如何指标化。
  • 应用产品:CPM
  • 分析平台:BI平台(多维OLAP分析)
  • 数据平台:数据仓库data warehouse  
  • 工具:数据集成、数据质量

这块的软件市场约328亿美金(2014年),是一个足够大的市场空间,加上硬件及服务也能达到上千亿:
  • Analytic applications:21亿
  • CPM suit:27亿
  • BI Platform: 89亿
  • Data warehouse :约150亿
  • DI&DQ:41亿

Source Gartner 2015
我们看到传统方式里,企业软件的赚钱模式是在平台,尤其是大平台,我们看到BI及数据仓库平台合计239亿美金,占比超过70%。(后面我们再来看看开源是如何击毁这个大厂商赖以生存的模式。)
三 IBM的玩法
为了吃这块大肥肉,厂家拿出了收购法宝。
看看IBM。
IBM完成了五个主要的收购后形成完整的商业智能软件栈的布局,其中以cognos及SPSS的收购最为引人注目。
  • Advanced Analytics Platform:SPSS, 2009
  • BI Platforms: Cognos, 2007
  • Data warehouse: Neteeza,2010
  • Data quality: Exeros, 2009
  • Data intergration: DataMirror 2007

2009年完成主要的收购以后正式推出商业分析服务。
2010时候,IBM商业分析的收入约为100亿美金,2013年左右约160亿美金,每年增长达到两位数。
大家看清传统IT厂商的玩法了吧。培育一个高成长的新领域,大肆收购,卡位平台,保持两位数增长,市场成熟以后再培育一个新的市场空间。反正不缺新的技术,今天大数据,明天云计算,还有物联网,还有3D打印,一长串的新领域,这样就能够确保永远保持高速增长。
大平台很重要,是现金牛之一,相信大多数厂家都很清楚这点。
四 大数据平台失守
绕了半天,谈回大数据。
商业模式的颠覆总是来自外部,和意想不到的领域。
上面把BI和报表基本划等号是为了简单理解起见,其实以前也不是没有复杂的数据分析产品,上面没有包含另外一个分析的细分市场predictive analytics, 其平台就是Advanced Analytics Platform, 就是不仅仅做KPI报表分析,还做更加深度的数据挖掘(大数据分析的老祖宗),SAS, SPSS这些厂家的产品可以做更为复杂的统计及模式发现等应用,但是这块一直发展不起来,仅仅约12亿美金的市场空间,主要是投资成本太高,也没有大量可复制的场景,仅仅在银行及电信领域应用比较多。
真正的引爆点来自和企业IT市场关系不大的互联网厂商,谷歌在2004年抛出了论文,雅虎的人在2005年弄了个开源的hadoop,业界07、08年左右开始爆炒大数据概念,互联网企业开始引入Hadoop 架构,相关大数据的初创公司蜂涌而起,cloudera于2009年成立,Hadoop正式版在2011年发布,企业市场也开始在2012和2013年以后开始慢慢接受大数据的概念。
有一点比较关键的就是大数据的发展是bottom up的,先由yahoo把google的东西抄了,用开源做了一套,因为是互联网来的,所以在企业领域是否能够大规模高效使用就只能由市场的发展本身来回答,这个是完全新的一种成长方式。
而这里面最为重要的就是数据的存储和计算带来的技术创新,HDFS的分布式文件系统可以廉价的存储PB级的数据,HBase把传统数据仓库存储的数据量从TB延展到TB,而计算原来依赖于数据库的并行处理能力,而现在Map/Reduce提供了一个更为通用的分布式处理模式,意味着为无数的分析场景打开了可能性。
数据的存储与计算是整个大数据里面最为中核的平台,下面的数据也证明这点。
我们看看目前大数据市场已经IPO以及被投资比较多的公司:
  • IPO

    • Tableau(市值55亿),可视化
    • Qlik(市值26亿),可视化
    • Tibco(市值39亿),可视化
    • Splunk(市值67亿),日志分析
    • Hortonworks,Hadoop

  • Most funded

    • Cloudera(融资1040M),hadoop  
    • Palantir(融资950M ), 分析平台
    • Mongodb(融资311M),NoSQL
    • Domo(融资250M), 云BI
    • Mu Sigma(融资195M),大数据服务
    • Datastax(融资190M), NOSQL
    • MapR(融资174M), Hadoop  

Hadoop发行版Cloudera的投资已经超过10亿美金,即使按照市盈率10计算,其市值已经将近100亿美金!Hortonworks也在2015年正式IPO。Cloudera, Hortonworks, MapR的三架马车格局胜负已分,Cloudera是当之无愧的领头,MapR估计往后的日子越来越难。
另外一个投资重点就是NoSQL数据库,MongoDB和Cassandra(datastax )成为NoSQL市场的事实垄断者。
加上各厂商在2010-2011年大肆收购的MPP数据库,Greenplum, vertica, neteeza,Aster data, 数据存储和计算平台基本格局已经确定,Hadoop/Cloudera 和NoSQL/MongoDB是目前胜出的两匹马。
这三条赛道基本跑完主赛。
传统的IT厂商对关键的基础平台是必争之地,在BI里面数据管理的数据仓库占150多亿,占软件收入的将近一半。但是开源完全打破了这种模式,由于Hadoop和大多数NOSQL本身是开源的,所以不太可能继续采取高溢价方式销售,大多数厂商已经接受了Hadoop发行版不可能赚大钱的现实,2014和2015年里,Intel、HP、微软等都纷纷放弃自己的发行版和解散研发团队转而依赖于Hortonworks 和Cloudera。大家都意识到,最后会像红帽和SuSE,剩下两家做开源发行版的小厂商。而MongoDB和Cassandra是NOSQL里面最后能存活下来的。
看似机会无限的大数据,对于大厂商而言却像异常难以把握的泥鳅,大家都不得不忍痛放弃至关重要的数据平台。甚至连最后本来还想坚守的MPP,等到pivitol把Greenplum开源,把这块彻底打碎,所有大数据的数据管理和处理层都完全开源,守无可守。原来数据仓库的巨头Teradata 的市值已经蒸发几十亿美元,
至此为止,最重要的数据处理层基本完成主要投资,大局已定。新出现的Spark是目前这里唯一最大的变数,但也很容易被Cloudera 这些厂家吸收进其发行版,Databricks似乎寄望于云能够帮其突局。
大厂的失守,对于小厂商来说是绝佳的黄金机会。2013年以来,慢慢很多企业开始逐步采用Hadoop, 银行、电信等大行业开始有大量早期的创新项目单子出来,早期的采用意味着实验性质为主,大量的定制化,开源也意味着需要大量的服务,于是一大堆没有特别大技术含量,但是做大数据项目的公司如雨后春笋,大量涌现,大家看到现在中国市场有这么多的大数据公司很多本质上就是这个大背景下起来的。
这是个前途无量的市场。2014年Hadoop 的订阅及专业服务市场约6亿美金,2017年预计增长三倍到17亿美金,NoSQL在2014年约4.5亿美金,到2017年约17亿美金。复合增长率超过40%。而软件及软件服务的收入仅占项目成本里面的10%,还有大量的硬件及实施的费用。
五  应用碎片化之困
前面谈到,大数据的勃发是因为新的数据存储和处理技术的出现,至于说这项技术到底能给业务带来什么商业价值,需要去重新探索。于是各个行业涌现无限的垂直行业分析的,日志分析、医疗分析、金融分析、安全分析、电信分析、教育分析、能源分析等等。但是不幸的是目前还没有发现太多杀手级的应用。
已经IPO的公司里面,Splunk是做企业IT运维里面机器日志分析,从而优化运维的效率,是传统的ITOM细分领域下的一个应用,这个应用是大数据分析最成功的场景之一,目前Splunk市值已经超过67亿美金。除了这个,剩下的三个是Tableau, Qlik, Tibco总共市值超一百亿美金,多是数据可视化的公司。说白了就是原来的一些报表应用,还有就是把数据聚集起来,让所谓的数据科学家捣腾捣腾,进行数据探索。
IBM提到了这几个大数据最有价值的场景:
  • Data exploration  
  • Enhanced 360 degree view of customers  
  • Security intelligence extension  
  • Operational intelligence  
  • Data warehouse modernization  

我们看到多少都还有原来BI系统的影子,客户画像、流程监控、数据仓库的现代化。数据探索和安全分析是两个相对比较不同。但都说不上可以直接给企业带来多大的价值。
IBM也在应用领域启动了收购机器,在大数据领域花了160亿美金完成35起收购:
  • The Now Factory: 电信网络及服务分析
  • Star Analytics: 多数据源自动集成
  • Emptoris: 供应链及合同分析
  • Varicent software: 销售数据管理
  • Vivisimo: 数据探索及发现
  • Clarity systems:金融数据分析
  • OpenPage: 企业风险及合规
  • Algorithms: 风险管理
  • StoredIQ: 内容分析管理
  • Tealeaf: 客户体验分析
  • DemandTec: 营销分析
  • Coremetrics: web分析及监控

看完这些收购,可以理解管理层的角度来看,这种分析应用的细分市场是个碎片化的市场,收购一百起都不能确保能够带来多大的营收上的突破。这种不能海量复制的场景也是难以成为大生意啊!
对比起BI市场那种简单和高度可复制的报表应用,我们可以更加深深体会到大数据在应用层面的艰难探索。
中间数据平台的失守、分析应用的高度碎片化是大数据厂商的大数据焦虑的来源。
六 分析平台将成为焦点战场
分析平台似乎是一个机会。
在大数据的浪潮下,涌现很多基于Hadoop生态的新的BI平台以及数据探索平台。原来传统的分析平台,包括基于统计分析的SPSS还有SAS等,虽然还继续会扮演很重要的角色,但是这些其实已经在市场上存在几十年的平台,对于解决实际的行业问题来说还是太远,非常难以把分析的价值变现。
一方面是走垂直行业的路子,各种垂直行业的分析应用以及垂直行业的分析平台,是大数据价值变现的一条路,大大降低用户的使用门槛。整个创业的市场,也在制造无数的垂直领域的分析平台。
另外一方面是更加易于产生分析价值的平台,大数据的最核心价值是产生智能,发现人类难以发现的事情。这个的典型代表是融资额接近10亿美金的Palantir。
Palantir 是通过为美国的情报部门的反恐服务长起来的,其本质就是把人类活动的模型建模,然后把人类实时的活动及时间输入,通过对时间、地点、人物、事件的关联分析认识事件,其最具轰动效应的就是帮助中情局发现本拉登,是一种所谓的Human centric或者是Human Driven的分析。在其应用场景里面,比如说航班信息、出入境信息、移民信息、人口流动、其他交通信息、社交网络、电话等信息组成分析的基本要素,这种要素里面地理信息、社交关系、拓扑关联、可视化展现及关联分析非常重要,比如说其可能要完成的任务是要分析所有来自叙利亚一个月内进入美国的航班里面,电话和社交信息可疑的人,同时接触过危险品交易的人,然后把这些可疑的人员分析出来,同时把他们的关系圈分析出来,把他们目前所在的城市及住址在地图上显示出来。其成功之处在于把要解决的社会问题需要的方法沉淀到平台里面,只要是涉及到人和事的分析,其都可以帮助完成,公安、金融反欺诈、流行病这些都需要类似的功能,对于电话、位置、住宿、交通痕迹、社交网、购买活动等等的分析可以解决很多实际的社会问题。既解决了价值变现的问题,又解决了过于碎片的市场不能沉淀出分析平台的问题。目前Palantir主要用在国家安全、社会安全、网络安全、金融安全、内幕交易、医疗、保险、自然灾难等社会领域。
这种场景可想而知对于中国这种高度复杂的社会管理能够带来多大的价值,也就不难理解为什么现在整个圈子都在谈论这个产品。
离价值越近,平台的价值就越大。
越靠近智能,离价值越近。
数据存储、计算、探索、展现的基础打好以后,对数据真正做分析的人工智能再次重生,这次有了个新的名字,深度学习。
机器大脑是一个新的分析平台吗?
谷歌的Google brain项目正式曝光,成为Google X的知识部门(knowledge)下的一个项目,接着四亿美金收购 deep mind, 然后收购dark blue labs(自然语言认识), 收购vision factory(视觉识别),重金布局人工智能。于是引发了互联网公司的人工智能军备竞赛,百度大脑、fackbook、亚马逊等都开展相似项目。
到底这些人工智能平台能否成为跨行业的通用的分析平台仍然是个问号,似乎更多的是其互联网业务的补充,谷歌首先把机器学习用于其搜索引擎,以便提供更为智能化的准确结果,还有无人驾驶汽车,还有就是类似Siri这样的应答系统。这场军备竞赛似乎对目前企业领域难以有很大的影响。
IBM采取了另外一种策略。
IBM忽然发现在Watson上的持续投入有可能是其一个杀手锏,其在《危险边缘》的智力问答里面击败两位人类世界冠军,让世人看到机器智能的可能性。
Watson干的是个啥事情呢?在智力问答游戏里面,首先你要听得懂问题,其次你要有知识,然后还要有推理能力,通过推理找到答案。
  • 人工语言能力:听得懂问题就是人工语音的范畴,就是能够分析并理解人工语言;
  • 知识学习能力:而知识是通过学习能力获得,可能是大量专业的书、网页、维基百科等需要通过自然语言学习能力把它们变成知识库;
  • 推理判断能力:推理能力能够根据输入问题,列出可能的答案,然后再通过各自证据对结果排序,然后给出最可能的答案。

这个就是Watson 的第一个应用DeepQA的大体原理。
IBM给其冠个市场推广术语“认知计算”,所谓认知就是能够理解人话、学习知识、并有判断推理能力。
这种对答型的专家决策系统存在无限复制的可能,首先是在医疗应用领域。医生需要根据病人的症状,结合医学知识和临床经验,给出可能的病症。这种知识密集型的应用几乎可以完全照搬上面的模式,把病的知识、药的知识、临床相关的诊断等相关资料输入到Watson,其通过人工语言分析,获得相关知识,然后把病人的自述和检查相关的材料还有病历输入给Watson,其通过人工语言分析,然后初步列出可能的病,然后结合病人的全面情况给不同答案权重,最后选择出最优结果。
除了医疗还有法律、教育、政府还有金融服务领域,都存在大量应用这种专家系统的场景。
2010开始售卖搭载deepQA的系统,一百万美金起卖!终于让IBM的战略设计者们看到了希望,一个完全没有竞争的市场,高度可复制的平台,高增长空间和高利润的市场。
商业化的前提是构筑一个基于Watson的庞大生态系统,引导各行业的合作伙伴,构筑各个细分行业的垂直应用,一旦成功,将使IBM在由互联网发起的大数据变革里面重新掌握话语权,无论在技术和生态都将具有极高门槛,这个和IBM们心中的类似大型机的玩法何其相似。
在经过和各行业的合作伙伴的探索以后,IBM确认了这个是可以做的一个生意,2014年正式成立IBM Watson Group, 初期投资10亿美金,2000人。初期推出基于云服务的三个产品,Watson discovery advisor,  Watson analytic, Watson explore.
而在今年的CES上CEO  Rometty宣布IBM将转向认知计算,这块市场将在十年内达到100亿美金,Watson在官方层面正式成为公司级大战略,IBM将在Watson身上豪赌的一把,其将动用所有垂直行业的力量在各行业应用中推广基于Watson的专家系统模式,并构筑起无比庞大的生态。
如果Watson模式能够成功,将改写大数据时代的格局。
或者是不是应该把智能分析为核心的新的竞争格局成为分析3.0?
无论如何,能够快速给用户带来价值的分析平台,将是今后的大焦点。
七 最后
这里没有太多篇幅介绍大数据云化带来市场结构性的变化,因为这个太显而易见。原来BI的一整套都将面临云化厂商的剧烈颠覆,上面的两个厂商Domo和gooddata就是做云化的BI,还有亚马逊的云化服务,大量的hadoop云服务,还有遍地开花的垂直分析的SaaS服务,databrick也把spark的精力放在云服务上。这将是撬动整个市场板块的新因素。
大数据的市场还在剧烈的演化中。
这篇文章有点长,整体的节奏拖的很慢和冗长,是在深圳回广州的高铁上、在咖啡厅里、在体育中心看儿子打球的缝隙里,陆续写的,或者是没有技术的氛围的缘故。

不过也算是对整个大数据行业发展的脉络的梳理,算对这个伟大创新时代的一个见证。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-31 10:57

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表