大数据构架和技术链分析（二）

发表于 2015-8-4 10:29:08

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

在大数据技术领域，除了Apache基金会主导的hadoop、Spark框架之外，很多公司都贡献了大量的开源产品。其中很多产品在性能方面已经超越了Hadoop家族中的某一产品，非常值得考察和使用。目前，业界也基本上都是优选组合使用。下面从技术链着手，分别介绍优秀的产品。

1、数据采集

应用场景：

很多公司的平台每天都会产生大量日志(一般为流式数据，如用户行为：访问量，搜索关键词、用户点击记录等)。这些数据很有商业价值，比如对搜索关键词加以分析，可以看出用户的喜好、倾向，进而调整商业策略。快速有效的将分散在各个服务器上的日志数据汇总和分析，已成为网站运营的重要环节。

知名产品：

Flume：Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume提供对数据进行简单处理，具备定制写入各种数据接受方(可定制)的能力。目前是Apache下的孵化项目，受到了业界的认可与广泛应用。

Scirbe：Facebook开源项目，具备高扩展性和高容错能力。

Chukwa：Apache开源项目，用于Log日志收集与分析，建立在Hadoop至上。

TimeTunnel：淘宝开源实时数据传输平台。基于thrift通讯框架搭建，具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。目前TimeTunnel在淘宝广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据库同步等领域。

上述这些工具均采用分布式架构，能满足每秒百MB的日志数据采集和传输需求。

2、数据存储

大数据存储主要分为分布式文件系统存储HDFS和NoSQL数据库存储。HDFS前面已有介绍。本部分重点介绍NoSQL数据库。

应用场景：

关系数据库虽然很强大，但是它并不能很好的应付所有的应用场景。典型的缺点为扩展性差(需要复杂的技术来实现)，大数据下IO压力大，表结构更改困难。很多WEB实时系统并不要求严格的数据库事务管理，有些场合对读、写一致性的要求不高，关系型数据库的事务管理反而成为高负载下的沉重的负担。

在这种情况，一种新的存储思路NoSQL应运而生。NoSQL泛指非关系型数据库。具备高扩展性、大数据量、高性能、高可用和灵活的数据格式。

NoSQL数据库种类众多，不同的应用场景可以选择不同的NoSQL数据库。

知名产品：

主要有四类：键值数据库、列式数据库、文档数据库和图形数据库。

Key-Value键值数据库：数据以键值的形式存储的，速度非常快。根据数据的保存方式可以分为临时性(内存)、永久性(硬盘)和两者兼具三种。

Redis：临时性和永久性兼具。Redis首先把数据保存在内存中，在满足特定条件的时候将数据写入到硬盘中，这样既确保了内存中数据的处理速度，又可以通过写入硬盘来保证数据的永久性，这种类型的数据库特别适合处理数组类型的数据。

列式数据库：

关系型数据库是以行为单位来存储数据的。相反，面向列的数据库是以列为单位来存储数据的，即将同一列数据存在一起，同时擅长以列为单位读取数据。典型代表：Cassandra、Hbae。具备查找速度快，可扩展性强，更容易进行分布式扩展，主要应用于需要处理大量数据的情况。

文档数据库：

类似键值数据库。以JSON格式存储数据。对数据结构要求不严格，表结构可变，无需事先设定表结构。跟键值存储不同的是，面向文档的数据库可以通过复杂的查询条件来获取数据。典型代表：MongoDB、CouchDB。

图形数据库：

图形结构的数据库使用图形模型(节点、边线、属性)来存储数据，并且能够扩展到多个服务器上。利用图结构相关算法。比如最短路径寻址，N度关系查找，专注于构建关系图谱等。典型代表：Neo4J, InfoGrid, Infinite Graph。

3、数据计算

名称解释：

大数据计算主要有两种最常见的计算形态：批处理和流式计算。

批处理：批处理计算是先积累大量数据，存储在磁盘上(HDFS)。然后再进行数据计算(拆分和聚合等)。这种计算方式属于磁盘级计算，计算时数据在磁盘上，需要读写磁盘;这种先存储后计算的模式, 适用于对实时性要求不高, 对数据的准确性、全面性要求较高。

流式计算：流式计算是无需先存储,可以直接进行数据计算。这种计算方式属于内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快N个数量级。这种不存储直接计算的模式, 适用于实时性要求很高，要求计算在非常短的时延内完成。对计算结果不要求绝对精确。

这两种计算方式有个形象的比喻：批处理可以看作是桶装水，一桶桶的搬。而流式计算是用水管，预先接好，然后打开水龙头，水就源源不断地流出来了，不需要水桶存储。

流式计算和批量计算具有明显的互补特征,在多种应用场合下可以将两者结合起来使用。通过发挥流式计算的实时性优势和批量计算的计算精度优势,以满足不同应用场景下的数据计算要求。

应用场景：

流式计算：互联网服务中，每时每刻都会有大量客户进行服务请求，需要在极短的响应时间内，给出数据计算结果。比如：

在浏览网站时，根据客户的查询关键词、浏览历史、地理位置等综合语义，推荐合适的广告。在互联网金融领域，根据客户信用卡消费记录,掌握客户的消费习惯和偏好,预测客户未来的消费需求,并为其推荐个性化的产品和服务。

微博上，当我们关注一位朋友,会准确给出新推荐朋友,以提升微博活力。

批处理：适用于离线批量计算。比如：

阶段性用户特征、行为分析。

数据密集型计算。

其它对实时性要求不高，适用放在线下计算的业务。

知名产品：

Hadoop-MapReduce：Hadoop设计之初就是为批处理式的计算任务提供支持的，属于典型的大数据批量计算架构,由HDFS分布式文件系统负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现。

Storm：分布式实时计算系统的代表。Twitter开源产品，现属Apache顶级项目。具备可伸缩性强，每秒处理的消息量达到100 万个数据元组。健壮性强，Storm 集群较容易进行管理。高容错性，Storm 可以对消息的处理过程进行容错处理，如果一条消息在处理过程中失败，那么Storm 会重新安排出错的处理逻辑。语言无关性，任何语言的开发者都可以使用Storm。

Spark：后起之秀，受到业界强烈关注。现属Apache顶级项目。能适应批处理，迭代，流式计算。能与Hadoop很好的结合(可构建在HDFS上，使用YARN对资源进行调度)。与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，后续的任务可以直接读取内存中的数据。据测试可以大大超过Hadoop(MapReduce)的运算速度。与Storm的区别在于，Spark流模块先汇聚批量数据然后进行数据块分发，而Storm是只要接收到数据就实时处理并分发。Spark是一套快速出色、可扩展能力极强且极具灵活性的开源分布式计算框架。目前稳定性还需提升，但发展迅速。

Spark架构图

4、数据分析

应用场景：

大数据的核心价值之一就是商业智能BI，对大数据进行数据分析、发现价值的应用场景比比皆是，不再赘述。

知名产品：

Hive：前面已有介绍。直接构建在Hadoop之上，虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。适用于批处理查询分析。目前应用较为广泛。

Impala：Cloudera开源产品。它提供了一种通用的SQL查询语法，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala采用了自己的执行引擎，把一个查询拆分分布到各个节点执行，不依赖MapReduce，不采用批处理形式处理数据。适合于实时交互式SQL查询，查询效率比Hive有很大提升。

Spark SQL：SparkSQL构建在Spark框架之上，前身是shark。与shark相比，摆脱了对hive的依赖性(可兼容Hive SQL)，在数据兼容、性能优化、组件扩展方面都得到了极大提升，性能表现优异。可以通过RDD良好的扩展性, 方便的扩展Spark支持的数据源。目前数据源方面已经支持HDFS, JDBC, 数据格式支持JSON, Parquet等。

5、数据可视化

应用场景：

发现数据之美--数据可视化是科学和艺术的和谐统一。人们对单调保守的讲述方式失去兴趣，期待更加直观、高效的信息呈现形式，数据图表，立体化的动态演示等丰富的数据可视化元素让科技与形象感更加饱满。

(来源：国研监理咨询）

发表于 2015-9-8 10:29:09

收藏了，期待可以看到图表化的整理材料

帐号		自动登录	找回密码
密码			立即注册

大数据构架和技术链分析（二）

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1