追本溯源，中国大数据六大技术变迁记

发表于 2014-11-18 15:03:03

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

伴随着大数据技术大会的发展，我们亲历了中国大数据技术与应用时代的到来，也见证了整个大数据生态圈技术的发展与衍变：

1. 计算资源的分布化——从网格计算到云计算。

自2009年，资源的组织和调度方式已逐渐从跨域分布的网格计算向本地分布的云计算转变。而时至今日，云计算已成为大数据资源保障的不二平台。

2. 数据存储变更——HDFS、NoSQL应运而生。

随着数据格式越来越多样化，传统关系型存储已然无法满足新时代的应用程序需求，HDFS、NoSQL等新技术应运而生，并成为当下许多大型应用架构不可或缺的一环，也带动了定制计算机/服务器的发展，同时也成为大数据生态圈中最热门的技术之一。

3. 计算模式改变——hadoop计算框成主流。

为了更好和更廉价地支撑其搜索服务，Google创建了Map/Reduce和GFS。而在Google论文的启发下，原雅虎工程师Doug Cutting开创了与高性能计算模式迥异的，计算向数据靠拢的Hadoop软件生态系统。Hadoop天生高贵，时至今日已成为Apache基金会最“Hot”的开源项目，更被公认为大数据处理的事实标准。Hadoop以低廉的成本在分布式环境下提供了海量数据的处理能力。

4. 流计算技术引入——满足应用的低延迟数据处理需求。

随着业务需求扩展，大数据逐渐走出离线批处理的范畴，Storm、Kafka等将实时性、扩展性、容错性和灵活性发挥得淋漓尽致的流处理框架，使得旧有消息中间件技术得以重生。

5. 内存计算初露端倪——新贵Spark敢与老将叫板。

Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，从多迭代批量处理出发，兼容并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。在短短4年，Spark已发展为Apache软件基金会的顶级项目，拥有30个Committers，其用户更包括IBM、Amazon、Yahoo!、Sohu、百度、阿里、腾讯等多家知名公司，还包括了Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。毫无疑问，Spark已站稳脚跟。

6. 关系数据库技术进化—NewSQL改写数据库历史。

关系数据库系统的研发并没有停下脚步，在横向扩展、高可用和高性能方面也在不断进步。实际应用对面向联机分析处理（OLAP）的MPP（Massively Parallel Processing）数据库的需求最迫切，包括MPP数据库学习和采用大数据领域的新技术，如多副本技术、列存储技术等。而面向联机事务处理（OLTP）的数据库则向着高性能演进，其目标是高吞吐率、低延迟，技术发展趋势包括全内存化、无锁化等。

着眼当下技术发展趋势：

1. MapReduce已成颓势，YARN/Tez是否可以再创辉煌？

对于Hadoop来说，2014是欢欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等众多巨头都加大了Hadoop方面的投入。然而对于众多机构来说，这一年却并不轻松：基于MapReduce的实时性短板以及机构对更通用大数据处理平台的需求，Hadoop 2.0转型已势在必行。那么，在转型中，机构究竟会遭遇什么样的挑战？各个机构如何才能更好地利用YARN所带来的新特性？Hadoop未来的发展又会有什么重大变化？

2. 时过境迁，Storm、Kafka等流计算框架前途未卜。

如果说MapReduce的缓慢给众多流计算框架带来了可乘之机，那么当Hadoop生态圈组件越发成熟，Spark更加易用，迎接这些流计算框架的又是什么？

3. Spark，是颠覆还是补充？

与Hadoop生态圈的兼容，让Spark的发展日新月异。然而根据近日Sort Benchmark公布的排序结果，在海量（100TB）离线数据排序上，对比上届冠军Hadoop，Spark以不到十分之一的机器，只使用三分之一的时间就完成了同样数据量的排序。毫无疑问，当下Spark已不止步于实时计算，目标直指通用大数据处理平台，而终止Shark，开启Spark SQL或许已经初见端倪。那么，当Spark愈加成熟，更加原生的支持离线计算后，开源大数据标准处理平台这个荣誉又将花落谁家？这里我们一起期待。

4. 基础设施层，用什么来提升我们的网络？

时至今日，网络已成为众多大数据处理平台的攻坚对象。比如，为了克服网络瓶颈，Spark使用新的基于Netty的网络模块取代了原有的NIO网络模块，从而提高了对网络带宽的利用。那么，在基础设施层我们又该如何克服网络这个瓶颈？直接使用更高效的网络设备，比如Infiniband能够带来多少性能提升？建立一个更智能网络，通过计算的每个阶段，自适应来调整拆分/合并阶段中的数据传输要求，不仅提高了速度，也提高了利用率。

5. 数据挖掘的灵魂——机器学习。

近年来，机器学习领域的人才抢夺已进入白热化，类似Google、IBM、微软、百度、阿里、腾讯对机器学习领域的投入也是愈来愈高，囊括了芯片设计、系统结构（异构计算）、软件系统、模型算法和深度应用各个方面。大数据标志一个新时代的到来，PB数据让人们坐拥金山，然而缺少了智能算法，机器学习这个灵魂，价值的提取无疑变得镜花水月。

from：http://www.csdn.net/article/2014 ... -big-data-industray

帐号		自动登录	找回密码
密码			立即注册

追本溯源，中国大数据六大技术变迁记

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1