阿里巴巴大数据平台“达芬奇密码”进化论

发表于 2015-2-8 18:11:42

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

阿里巴巴大数据平台“达芬奇密码”进化论

作者：阿里巴巴

大数据时代，阿里巴巴集团是最有资本进行烂漫遥想的公司之一。阿里数据平台事业部服务器上，攒下了超过100PB已“清洗”的数据。

马云曾在2012年公开宣称“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。在此前后，战略布局已渐次展开：2010年，推出重要的搜索业务 “一淘”，2011年收购数据属性公司CNZZ，近期有接连收购友盟、入股新浪微博和高德，抢占数据源；在物流领域，阿里由天猫主导建设了与各大配送公司对接的“天网体系”，最近牵头成了智能骨干物流网络“菜鸟科技”，并构建物流信息数据平台。

阿里数据十年铸剑，如今还只是起手开了个局。

无论是洪七公还是车品觉，他们都说没有心思与精力去想太过务虚的“大数据美梦”到底如何炫目，他们更关注坚实的数据仓库和实在的应用场景。

十年进化

从2003年淘宝起步开始，七公就一直在与数据打交道。

他的经历勾勒出这家数据巨人的演变轨迹。最早的数据工作自2003年起步时就是出于业务需求的驱动，起初做得挺粗糙，做数据库、做IT系统，随后开始统计分析一些互联网公司都会关注的基本点，比如PV、UV等，当时的淘宝数据部门只有几名员工。

在数据的童蒙时代，淘宝“依葫芦画瓢”地学习当时最大的对手——易趣。“谁都是从什么都不懂开始，而当时ebay、亚马逊已经由成熟的BI部门了，我们就学起来，”七公说。

与易趣的竞争对阿里数据的推动颇有额外加成。据淘宝数据老人回忆，其间易趣强势地通过排他协议垄断了门户广告资源，迫使阿里将广告投放转向中小网站联盟，而由此催生的广告投放精准化分析需求，也使得淘宝的数据团队积累起了更多的流量数据分析经验。

在2004、2005年之交，淘宝逆转易趣。2003年淘宝全年交易额不过2271万元，而2004年全年则攀上了10亿元。随着业务增量和品类的快速扩张，数据量也随着跃升，淘宝开始意识到不再能拍脑袋做经营决策，实时观察掌握交易量和用户增量变化的需求正在不断爆发。

淘宝数据团队开始投入对每个类目的精准化分析。2005年，淘宝成立商业职能部门，成为当时淘宝CEO姜鹏的直属部门。

这一年，阿里拥有了第一严格意义上的数据产品“淘数据”。这是一份经营数据的报表，为各业务公司、部门提供经营报表的检索生成工具。

还是从这一年开始，阿里开始切入搜索、广告业务。这两项有着原生数据基因、天然涉及大量算法的数据属性业务推动了阿里大规模数据运营的开端。七公说，由此阿里对数据和应用场景的理解越来越清晰，目的性也更为强烈——搜索帮消费者更快找到商品，而广告让商家获得更高的ROI（投入回报率）。

到了2009年，阿里数据开始进入产品化时代。

“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月，商业智能部团队又开发出可以预警的“KPI系统”和提供给业务部门使用的“数据门户”。

阿里的对外数据产品也开始浮出水面。脱胎于“雅虎统计”的工具“量子恒道”为外部的商户提供了统计、分析自有店铺中的流量、点击、购买等数据变化的工具。

与数据产品的大裂变同步，这一年阿里的数据技术架构也开始了大变革。此前一年加入阿里出任首席架构师的原微软亚洲研究院常务副院长王坚主导了阿里架构从Oracle商用系统向基于hadoop开源平台的迁移。

Hadoop是基于google早前放出的其上一版分布式计算架构白皮书所开发出的开源平台，相比IBM、Oracle等商用系统的优点在于不仅成本低廉，且架构可扩展性极强。基于此，全球互联网企业的大规模计算体系多使用这一平台。

这使得阿里看到了处理自身庞大数据的新曙光。此前，阿里已发现传统数据库越发力不从心，越来越多业务部门的分析师发现他们早晨9点上班看数据时难以获得结果——越来越多的数据让传统商用机器难以按时计算完成，而添置设备的代价极为昂贵，更遑论因业务快速发展而及时定制更新功能。一些业务部门则开始自建部分Hadoop集群。

彼时阿里和雅虎关系仍颇为亲密屡有合作，看到雅虎基于Hadoop的平台运营良好，也确实能够支撑未来数据快速扩张的技术需求，阿里也下了这番决心。

2009年，王坚成立阿里集团研究院，将集团内各公司自行搭建的Hadoop集群统一开发出云梯1系统，以实现全集团所有数据的打通、整合的管理和共享。

这一系列变革之后，阿里集团最高层提出了对外数据开放的思维。这一年，淘宝交易规模跃上了3000亿元门槛，淘品牌开始崛起，大卖家聚集的淘宝商城（天猫前身）也已然胎动。阿里意识到了自生生态的力量。

2010年初，淘宝推出了一款划时代的产品“数据魔方”。通过这款产品，阿里第一次向市场开放了全局市场数据。这款赫赫有名的付费产品成为了众多大中型商户追捧的数据利器。

这一产品发端于阿里数据平台团队对客户的走访。当时宝洁公司提出，希望对行业数据有所了解，以帮助其经营决策。数据团队的一位员工“空无”提出了与其case by case解决，不如直接产品化的想法，“当时就强烈地感觉到，阿里数据的价值出来了！”

在此之后，阿里内部数据产品的开发开始进入井喷状态。淘宝数据部门开发出了“活动直播间”让买家更好滴参与促销运营。2011年上半年，“卖家云图”、“页面点击”接连出现，

一年后，为了配合淘宝的大促销活动，便于及时查看实时数据，这个团队又开发了“活动直播间”。为了让卖家更好地运营，2011年2月，“卖家云图”出世。2个月后，“页面点击”诞生，这款产品可以表示每一页面中卖家点击的位置，并用不同颜色和数字加以明晰标记。

2011年，车品觉加盟支付宝。他发现了阿里数据产品仍存在的一些短板：高层有太多数据，但关联性不够，难以快速全局诊断；而另一端是一线运营曾总喊数据不够，却数据间隔严重，也无法获得关联性。

于是，他做了两款产品，一款叫“观星台”给前者，是一个高度可视化的仪表盘，选择最关键的数据以图在几秒内能明了全局运营状况；另一款叫“地动仪”，可以看到用户投诉最多的功能是什么，甚至可以获取最原始的客服电话录音。

随后，车品觉进入淘宝，也开发了两款产品。一款黄金策，能够综合700多项变量进行叠加，数秒内可以就制定人群和特定应用场景行为双向推导查询；而另一款产品“无量神针”则提供用户软件的监控，它的副标题为“倾听用户的痛”，可以以可视化图标直接提示可能存在的风险，如用户来电中退款要求的变量等，每当数据“异动”发生，他的团队就会及时发出预警。

而在七公旗下的另一支数据团队也做出了一系列产品，如能够实时显示消费者购买行为细分搜索、成交指数的可视化产品“淘宝指数”，以及去年“双11”期间推出的推测用户身份和购买场景的产品“淘宝时光机”。

一家互联网公司的数据挖掘负责人说，从淘宝数据门户到数据魔方，再到淘宝指数和淘宝时光机，阿里的数据产品从报表到数据工具，再到可视化图片甚至一组flash，看上去越来越不没有“数据味”，但对消费场景和行为的渗透和数据的掌握却越来越深了。

车品觉说，阿里数据挖掘和分析，维度正越来越多，同时也在从发现、呈现、分析现有数据，开始向更多了解用户、预测业务推演转化。

高速公路与跑车

去年阿里集团的一系列架构调整，重构了阿里数据达芬奇密码盘排序。

在这些调整中，阿里云拆分；阿里系的数据库和大规模运算资源整合为数据平台事业部，由陆兆禧亲带；同时阿里成立了虚拟组织“集团数据委员会”，车品觉出任首任会长。

王坚带领的阿里云是这套密码盘中的最底层基础，提供了最基础的运算平台。譬如继云梯1之后，阿里自行研发的云梯2体系，就是建立在阿里云的“飞天”架构之上。

在此之上，是数据平台事业部的七公团队。他们运营着阿里集团共享的数据仓库，阿里集团目前各业务公司产生的数据经清洗之后就存储在数据平台事业部的服务器集团上，并在这里进行大规模运算。

车品觉带领的淘宝网商业智能部门在数据平台事业部之上使用数据进行分析。同时，车品觉出任会长的阿里集团数据委员会的成员们分属阿里各业务公司，他们也利用七公团队的工作成果各自进行分析。

这三层架构，可以理解为阿里云是IasS（基础设施即服务）。阿里数据平台事业部是PaaS（平台即服务），而车品觉的团队则是SaaS（软件即服务）。

阿里集团内的数据大多都经过这般旅程——譬如用户在淘宝上的一个收藏动作，产生一条数据，首先在淘宝网的前端服务器上产生一条日志，这条日志随后被传送存储到七公团队的服务器上存储，其间经过淘宝团队的清洗，在数据平台事业部的服务器上，这条数据将再度被检查其日志格式是否正确等清洗过程，随后被编入数据库，接着与其他若干数据一同被分入分主题的数据集市。当数据委员会的分析师们进行数据挖掘时，它再度接受挑选是否被采用。

如此架构与流程正是为了更好的支撑大数据的愿景。

车品觉认为，在此2011年之前，阿里的数据产品还算不上大数据，大致是对现有数据的分析挖掘以及呈现。在他的认知中，大数据首先要有足够大的数据规模，同时也要有足够多的跨界维度。只有尽可能穷尽更多的维度，在相应具体应用场景下，才能做出足够精准的判断和推测。

而七公说得则更为实在，“我们就是去解决问题，只看业务发展。我们知道数据非常重要，也希望各家公司的数据用得更好。看到更多数据关联在一起，发展出更大的价值，而不是冲着虚无缥缈的东西去的。所以我们不关注外面说大数据就是为了解决内部数据互通。”

目前，数据业务平台已整合了阿里集团的全部数据。此外，阿里小微集团中创新金融事业部（即阿里金融）的数据也与这一平台直接相连。

七公说，数据平台事业部成立的使命很简单：就是去做各家公司想做但现阶段没有时间或能力的事，搭平台、把数据整合在一块。“我们提供计算、存储平台即云梯建模、定义、分析是前段品觉的团队做的。”

IBM大数据业务资深人士说，大数据概念有着两层结构。上一层是人们所热议的充满科幻感的分析预测能力，它似乎为大家描绘了如何触碰一个可知可感未来的方法论；而另一层则是实现这一梦想所需的处理大规模、高并发、高关联性甚至是低价值密度数据的运算能力。

车品觉做的是前者，而七公维护的是后者。

车品觉说，七公的团队是在修建高速公路，而他的团队则是在高速路上驾驶跑车，“建高速公路是一个漫长的工程，需要巨大的投入、耐心以及细致。”

七公告诉本刊，数据平台事业部的服务器上，所保有的历史数据已超过100PB，而且已经过了清洗。

“清洗”是被七公和车品觉反复提及的词，它保障了数据的质量，直接关乎大数据运营的准确性。

那么如何清洗数据？七公说，首先得让数据都能对得上，产生关联。尤其是互联网行业，发展迅速且难于规划，通常都在不断试错、快速迭代，这使得不同部门、业务之间的数据往往难于打通，甚至不少公司里业务间连用户cookie、日志格式都不同。

阿里或许是幸运的，从2004年淘宝开始统计日志之后，整个淘宝系的日志格式就已统一，使得现在的麻烦少了不少。

但这才仅仅是一个开始，正如前面所示，数据处理的链条极长，任何一个环节出错都会影响后端，而且越是错在前端，偏差越是明显。车品觉说，数据污染往往有两个原因，一是原来就采集错误，二是数据口径不同。

前者往往来自于部门协作脱节。如前端业务部门的开发人员如果改变了页面功能但未及时通知数据部门，则相关用户行为所对应的数据定义就已失真；而后者则更容易理解，譬如有的电商公司统计转化率只统计到用户点击购买，而有的公司则要考虑点击后是否付费、是否退款？“鸡同鸭讲”也显然会造成错误。

这就是数据委员会的工作。它要统一整个集团的统计口径和统计方法，制定关于质量和安全的范式。数据委员会的成员来自各个业务公司，车品觉要主持规范工作，进而影响全局。

今年年内，车品觉将数据质量和数据安全视为其最重要的课题。为此，数据委员会下设置了数据质量和数据安全两个小组。

在安全方面，他们格外小心，因为涉及用户隐私。最终他们设置的规则是不做1000人群体一下的群体购物行为的分析，而且开放多少数据有安全小组进行集体评判。

在数据质量方面，车品觉提出了要尽可能消除杂音，如用户点击统计中要去掉测试、自己员工点击等因素，同时又要尽可能地保证原始场景可还原，以防止失真。

他说，理想中，数据仓储中的数据能还原原有场景是才最好，“七公在后台，我们最希望我们需要还原的时候有足够的数据能够支持。”

“数据是科学的，但清洗中的取舍和分析时维度的选择则要靠分析师的判断修为，这部分不那么科学，而是更像是艺术，”车品觉说。

而七公要做的更多是保障数据存储和运营的技术流程规范、安全，维护系统稳定，降低系统BUG造成的错误并进行修正等。这份工作并不轻松，至今阿里集团的数据都在每年至少翻倍的速度增长。

其实，参与到阿里大数据战略中的团队还有更多。如姜鹏旗下的共享平台事业部下的搜索团队，担负着为全集团各部门清洗非结构化数据的任务。

数据平台事业部下有一个20多人的数据产品部团队，运营着“数据魔方”、“淘宝指数”、“淘宝时光机”等数据产品。根据默契的惯例，车品觉团队主要做对内数据产品，而他们则向阿里外部分享提供数据工具。

此外，各家公司的分析师也都负责这各自业务的数据清洗工作。而车品觉旗下，还有一支数据科学家团队，并不隶属于任一具体业务公司，横跨支付宝和阿里集团两大平台进行数据挖掘分析和数据产品研发。

数据新觉醒

车品觉很推崇数据界前人提出的一段“六字真言”：“对比、细分、溯源”，他说还要加上一个“趋势”。

这便是从传统BI领域跃入“大数据时代”的关键一步。

在此之前，阿里的数据产品更多还是呈现历史和当下的运营状况，仍是决策的辅助。而人们憧憬的大数据方法论则要求着推测未来、洞悉全局、引导决策的能力。

不久前，车品觉曾在一次非正式交流中说，大数据概念目前看来仍是忽悠。而这次与本刊交流时，他特意更正，说“忽悠”是指现在的基础，大数据的前提是拥有足够的数据、关联性，并具备相对应的运算能力和分析能力。

他说，今年以来自己的思维改观也很大。最近几周，他一直在跟BI团队开会，提出要重新定义BI，“今天的BI在未来未必好用了，也许并不完全适合未来的数据世界。”

数据团队的理解更新之外，阿里集团整体的姿态也决定了数据作为的新方向。

车品觉印象深刻的是，2011年时，时任阿里集团首席人力官、支付宝CEO的彭蕾（现任阿里小微集团CEO）对他说，数据团队要尝试着从数据化运营转向运营数据。

这成为了阿里系数据系统跃升的一次重要触发机制。车品觉说，“运营数据”已是大数据的方向。

去年，马云的公开表态更明确了这一点。他提出，“平台、数据、金融”是阿里集团和阿里小微集团未来的路线。眼下，平台已成，如何成为一家彻底的数据公司，如何在内外提供数据价值，成为新的攻坚战。

阿里集团已然布局深远、行动频频。

早在2005年，马云就曾在国际交流中说，阿里巴巴的交易数据都保存完整，早晚有一天会派上大用场。2010年，阿里推出重整的搜索业务一淘，2011年收购数据属性公司CNZZ，近期又接连收购友盟，入股新浪微博和高德，数据源头开始不断展开。

甚至在物流体系中，阿里先是由天猫主导建设了与各大配送公司对接的“天网体系”，如今又集团出面牵头成立了全国智能骨干物流网络“菜鸟科技”，并提供物流信息数据平台。

马云谋划的是在交易平台同位的庞大数据平台，作为信息流的精华部门它与物流、现金流结合，构建成完整闭环且不断外扩的生态体系。在提供内部数据决策支撑之外，甚至会形成数据的交易平台。

举个例子你便知阿里数据分量。去年大淘宝系交易额已超过万亿，足有一省GDP分量，而他庞大生态中实时地展现出宏观经济走势，阿里研究院每个月都会接待好几波各级政府索要数据的要求。近期不少政府官员也前来向车品觉咨询大数据在公共行政管理中的应用方法。

宏大愿景之下，车品觉说，今天的阿里数据团队态势严峻。

“我们有很多困哪要解决，数据质量和安全是今年的重头戏，制定范式我们还有很多工作要做”，他说，此外更严峻的新课题是如何让数据“落地”，在公司具体场景中帮业务、产品做得更好。

具体而言，他深感原先做得还远远不足，已经做出来的“黄金策”、“无量神针”等还不够用，不能太高估计，用户对数据的敏感度。尽管“无量神针”每个小二都能用，黄金策的权限都已经发放到中层，感觉门槛还是太高了，“可视化很重要，相关性很重要”。

这使得他们在加紧阿里内部数据的挖掘、关联力度，为数据分析、预判找出更多可靠的参考维度。最近开始，车品觉团队的数据研究广度开始从淘系延生涉及到整个阿里系，同时他们也开始考虑对阿里外部提供数据工具。

车品觉曾说，数据团队应该是CEO直属的战略级团队。之前有不少大互联网公司前来向他讨教，但一被问及“数据团队应该是运营团队还是技术团队”时便深感对方完全走错了路。

而如今，他也坦言，CEO、管理层的注视让他们逐步感到压力。“马云最厉害的是知道数据要耐心养”，但高层们频频布局数据、问及数据落地时，他感觉到团队有非常大的责任，“不能再只是讲故事了，我们到时候必须亮剑了。”

“现在做的事并非是今年要毕其功于一役，但我们要打开局面做出良性循环，”车品觉说，只有数据证明了自己的价值，才能够让人们信任、支持，持续投入，届时阿里才能成为一家数据公司。

车品觉团队今年让数据产生商业价值的意愿变得空前强烈。他们在积极主动地寻找机会，站在商业场景合作伙伴的前面，提供足以改进并指导决策的数据方案——今年以前，数据产品提供的都是诊断辅助，而现在是让数据去引导决策。

这一行动已有成果出现。车品觉团队中的一位数据科学家杨滔牵头为聚划算设计了一套预测报名商品能否成为爆款的数据工具嵌入了这家公司的系统。这款产品参考60多个变量，输出商品的是否爆款、最终销量、库存等数个关键预判数据，并直接作为商品是否能参与活动的判断标准。据分析，这一产品目前预测的准确度已达到80%以上。

这很大程度解决了阿里的管理决策困境。去年聚划算出现腐败案件震动业内，阿里集团首席风险官邵晓锋当时曾对本刊表示，未来将引入数据产品，以尽可能降低人为干预因素的比重。如今数据工具成为了决策系统的关键组成部分。

杨滔还在琢磨着参考更多维度的内外部数据，将这一系统拓展为线上下通用产品，可以帮助综合零售企业统合预测线上下销售和库存状况，直接产生经营决策。他在开发的另一款产品则有着浓烈的“人机对话学习”色彩，即通过研究淘宝上购物推荐达人的行为，分析其规则进而让淘宝系统的推荐工具学习其中规律，提高个性化推荐的能力。

而整个阿里系业务中，最为炫目就是阿里金融的小贷业务。这是一项典型的大数据成功应用，阿里金融的数据团队设计的模型综合淘宝上产生的信用记录、成交数额等结构化数据，以及用户评论等非结构化数据，加上外部采集的用电量、银行信贷等数据，可以精准决策是否放贷和放贷额度，而贷款不良率仅为0.78%堪称业内最低。

车品觉认为，今天大数据的机会来自于信息的不平衡，而数据产品可以将更多维度综合关联比照，如同在尽可能多的角度安装摄像头，才能掌握更为真实的商业动向。

目前，阿里数据分析团队们用的仍多是阿里内部的数据，因为仅仅这些他们还远没有挖掘完。但阿里的数据支撑团队已又一次提前开始为他们修路，为他们准备更多维度的外部数据。据阿里数据员工透露，七公的团队已开始接入高德等阿里投资公司的外部信息。

此外，阿里云和平台数据事业部还在致力于底层技术和运算能力给予新的支撑。

在给予Hadoop的云梯1之后，阿里又自行开发出了新的基于“飞天”体系的“云梯2”平台，成为业界除谷歌之外，几乎仅有的自行开发底层分布式计算系统的互联网公司。目前阿里金融、阿里数据科学家团队和数据平台事业部旗下的数据产品部都跑在云梯2上，这一系统更为突出实时运算能力。此前的“淘宝时光机”多是离线运算，而“淘宝指数”则跑在实时平台上。

车品觉说，阿里目前已到了大数据的海边，在国内互联网行业是“做得最狠的”，“如果阿里做不出来，中国在数据化领域上速度会减慢。”

阿里集中了目前大数据领域中国最多的数据、资源、人才，他和他的团队以及相关数据业务部门同僚都深感责任重大。

阿里内部分享：大数据业务平台两年发展历程

这篇文章来自一个公司内部的分享，是自己所服务的业务中数据平台的发展历程，已经讲了有几个月了，最近打算挑几个点拿出来用文章的形式写出来。是自己进入公司以来参与过或者接触过的数据型项目的情况。基本包含了业务数据分析的整个流程。这篇文章纯文字描述，没有任何图呵呵。所以看我需要耐心。

1、最早的数据分析可能就报表

目前很多数据分析后的结果，展示的形式很多，有各种图形以及报表，最早的应该是简单的几条数据，然后搞个web页面，展示一下数据。早期可能数据量也不大，随便搞个数据库，然后SQL搞一下，数据报表就出来了。但是数据量大起来怎么分析呢？数据分析完了怎么做传输呢？这么大的数据量怎么做到实时呢？分析的结果数据如果不是很大还行，如果分析的结果数据还是很大改怎么办呢？这些问题在这篇文章中都能找到答案，下面各个击破。

2、要做数据分析，首先要有数据

这个标题感觉有点废话，不过要做饭需要食材一样。有些数据时业务积累的，像交易订单的数据，每一笔交易都会有一笔订单，之后再对订单数据作分析。但是有些场景下，数据没法考业务积累，需要依赖于外部，这个时候外部如果有现成的数据最好了，直接join过来，但是有时候是需要自己获取的，例如搞个爬虫爬取网页的数据，有时候单台机器搞爬虫可能还爬不完，这个时候可能就开始考虑单机多线程爬取或者分布式多线程爬取数据，中间涉及到一个步骤，就是在线的业务数据，需要每天晚上导入到离线的系统中，之后才可以进行分析。

3、有了数据，咋分析呢

先将数据量小的情况下，可能一个复杂的SQL就可以搞出来，之后搞个web服务器，页面请求的时候，执行这个SQL，然后展示数据，好了，一个最简单的数据分析，严格意义上讲是统计的分析。这种情况下，分析的数据源小，分析的脚本就是在线执行的SQL，分析的结果不用传输，结果的展示就在页面上，整个流程一条龙。

4、数据量大了，无法在线分析了，咋办呢

这个时候，数据量已经大的无法用在线执行SQL的形式进行统计分析了。这个时候顺应时代的东西产生了（当然还有其他的，我就知道这个呵呵），数据离线数据工具hadoop出来了。这个时候，你的数据以文件的形式存在，可能各个属性是逗号分隔的，数据条数有十几个亿。这时候你可能需要构建一个hadoop集群，然后把自己的文件导入到集群上面去，上了集群之后，文件就是HDFS的格式了，然后如果要做统计分析，需要写mapreduce程序，所谓的mapreduce程序，就是实现map和reduce的接口，按照自己的业务逻辑写分析流程，之后把程序打成jar包上传到集群，之后开始执行。分析后的结果还是文件的形式产生。

5、分析个数据还要写java代码是不是效率低了点

这个确实是，mapreduce的程序，本身的可测性没有执行一个简单的单元测试来的爽，所以效率确实不高。这个时候，hive出现了，hive是一个数据仓库分析的语言，语法类似于数据库的SQL，但是有几个地方是不同的。有了hive之后，数据分析就好之前写SQL一样了，按照逻辑编写hive SQL，然后控制台执行。可能最大的感觉是，数据库的sql很快就能有结果，但是hive的，即使很小的一个数据分析，也需要几分钟时间。构建hive，需要在hadoop的集群上，原理很简单，就是把文件构建成表的形式（有一个数据库或者内存数据库维护表的schema信息），之后提交写好的hive sql的时候，hadoop集群里面的程序把hive脚本转换成对应的mapreduce程序执行。这个时候，做离线的数据分析简单写脚本就行了，不用再搞java代码，然后上传执行了。

6、数据产生的结果，怎么搞到线上提供服务的数据库中呢

这个时候分析的结果有了，可能是一个很宽很长的excel表格，需要导入到线上的数据库中，可能你想到了，如果我的数据库是mysql，我直接执行load 命令就搞进去了，哪有那么麻烦。但是数据源可能有多了，mysql/oracle/hbase/hdfs 按照笛卡尔积的形式，这样搞要搞死程序员了。这个时候datax（已经开源）出现了，能够实现异构数据源的导入和导出，采用插件的形式设计，能够支持未来的数据源。如果需要导数据，配置一下datax的xml文件或者在web页面上点击下就可以实现了。

7、离线分析有时间差，实时的话怎么搞呢

要构建实时的分析系统，其实在结果数据出来之前，架构和离线是截然不同的。数据时流动的，如果在大并发海量数据流动过程中，进行自己的业务分析呢？这里其实说简单也简单，说复杂也复杂。目前我接触过的，方案是这样的，业务数据在写入数据库的时候，这里的数据库mysql，在数据库的机器上安装一个程序，类似JMS的系统，用于监听binlog的变更，收到日志信息，将日志信息转换为具体的数据，然后以消息的形式发送出来。这个时候实现了解耦，这样的处理并不影响正常的业务流程。这个时候需要有个Storm集群，storm集群干啥事情呢？就一件事情，分析数据，这个集群来接收刚才提到的JMS系统发送出来的消息，然后按照指定的规则进行逻辑合并等计算，把计算的结果保存在数据库中，这样的话，流动的数据就可以过一遍筛子了。

8、分析的结果数据特别大，在线请求这些结果数据数据扛不住了，咋搞

一般的结果数据，数据量没有那么大，也就几十万的样子，这样的数据级别，对于mysql这样的数据库没有任何压力，但是这个数据量如果增加到千万或者亿级别，同时有复杂的SQL查询，这个时候mysql肯定就扛不住了。这个时候，可能需要构建索引（例如通过lucene来对于要检索的字段添加索引），或者用分布式的内存服务器来完成查询。总之，两套思路，一个是用文件索引的形式，说白来就是空间换时间，另外一种是用内存，就是用更快的存储来抗请求。

9、在线的数据库，除了mysql、oracle之外，还有其他选择不

其实目前大家的思维定势，往往第一个选择就是oracle或者mysql，其实完全可以根据场景来进行选择，mysql和oracle是传统的关系型数据库，目前nosql类的数据库也很多，例如HBase就是其中一个重要的代表。如果数据离散分布比较强，且根据特定的key来查询，这个时候HBase其实是一个不错的选择。

10、空间的数据怎么分析

上面的分析大都是统计维度的，其实最简单的描述就是求和或者平均值等，这个时候问题来了，大数据量的空间数据如何分析呢？对于我们电子商务而言，空间数据可能就是海量的收货地址数据了。需要做分析，第一步就是先要把经纬度添加到数据中（如果添加经纬度，这个可以搞http的请求来通过地图服务提供商来或者，或者是根据测绘公司的基础数据来进行文本切割分析），之后空间数据是二维的，但是我们常见的代数是一维的，这个时候一个重要的算法出现了，geohash算法，一种将经纬度数据转换为一个可比较，可排序的字符串的算法。然后，这样就可以再空间距离方面进行分析了，例如远近，例如方圆周边等数据的分析。

11、上面这些仅仅是统计，如果想搞算法或者挖掘之类的，怎么搞呢

上述的分析，大多数是统计分析，这个时候如果想高一点高级的，例如添加一个算法，咋搞呢？其他复杂的算法我没咋接触过。将拿一个我练过手的算法来讲吧。逻辑回归，如果样本数据量不是很大，可以采用weka来做了个回归，获得一个表达式，然后在线上系统中应用这个表达式，这种类似的表达式获取对于实时性要求不是很高，所以公式每天跑一次就行了。如果数据量比较大，单机的weka无法满足需求了，可以将weka的jar包集成在系统中分析，当然也可以通过hadoop中的mahout来进行离线分析，获取这个表达式。

12、我就是想离线分析数据，但是受不了hive或者hadoop的速度，咋搞

其实搞过一段时间hadoop的人肯定有一点不爽，就是离线分析的速度太慢了，可能需要等很久，这个时候Spark出现了，他和hadoop类似，不过由于是内存中计算，所以速度快了很多，底层可以介入HDFS的文件系统，具体我没有使用过，但是公司内部一个团队目前已经用spark来进行分析了。

13、这就是搞大数据了？

有了这些工具就是搞大数据了？答案肯定不是，这个仅仅是工具罢了。真正搞大数据的可能在于思维的变化，用数据来思考，用数据来做决定。目前的无线和大数据啥关系？我觉得无线的终端是数据的来源和消费端，中间需要大数据的分析，两者密不可分啊。

至此，我的疑问OK了，这些问题摸索差不多用了两年左右的时间，最终获取的，可能就是大数据分析的解决方案了。

帐号		自动登录	找回密码
密码			立即注册

阿里巴巴大数据平台“达芬奇密码”进化论

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1