大数据MPP技术基础-Hadoop架构 - 168大数据

Hadoop不是一个软件，而是一个分布式系统基础架构，是由Apache基金会主持开发的一个开源项目。Hadoop可以使用户在不了解分布式底层实现的情况下，开发分布式程序，从而充分利用电脑集群的威力，实现高速运算和大规模数据存储。Hadoop主要有HDFS、MapReduce、Hbase等子项目组成(前期已经介绍了HDFS，后续会重点介绍MapReduce、Hbase,这里先补充简单的通识概念，MapReduce就是分布数据处理计算框架，Hbase可以理解成“变形的SQL”)。

2.webp.jpg (44.25 KB, 下载次数: 58)

下载附件保存到相册

2019-4-13 14:04 上传

Google曾发表论文《Google File System》，系统阐述了Google的分布式文件系统的设计实现，Apache针对GFS，进行开源开发，发布了Hadoop的分布式文件系统：Hadoop Distributed File System，缩写为HDFS。MapReduce的核心思想也由Google的一篇论文《MapReduce:Simplified Data Processing on Large Clusters》提出，简单解释MapReduce的核心思想就是：任务分解执行，执行结果汇总。

虽然Hadoop创建于2006年，在“大数据”的概念兴起到达白热化是在2011年至2014年期间，当时在媒体和行业面前，大数据就是“黑金石油”。有远见的大公司（称他们为“尝鲜者”在传统的技术采用周期），在2011 - 2013年开始早期实验大数据技术，推出Hadoop系统，或尝试单点解决方案。他们招聘了形形色色的人，可能工作头衔以前不存在（如“数据科学家”或“首席数据官”）。他们通过各种努力，包括在一个中央储存库倾倒所有的数据，逐步建立内部竞争力，与不同厂商尝试，部署到线上，讨论在企业范围内实施推广。下图为采集到2016年大数据生态圈。

很显然这里密密麻麻很多公司，从基本走势方面，动态的（创新，推出新的产品和公司）已逐渐从左向右移动，从基础设施层（开发人员/工程师）到分析层（数据科学家和分析师的世界）到应用层（商业用户和消费者），其中“大数据的本地应用程序”已经迅速崛起。

科技发展到今天，远远不是一个HADOOP框架能涵盖了得，但是不论HADOOP作为一个标志性事件，还是底层实际应用框架，在现在仍然值得研究。

1、大数据技术目前已经不是什么神秘的技术，已经得到广泛应用。从中小型企业到非常大的跨国公司，当然包括电信行业各型企业，不必从头开始做，有大量的成功案例“范式”可以借鉴；

2、本文提的HADOOP架构重点落脚点还是在应用上，大数据应用架构需要符合技术内在规律（规范），一般来讲应用应该包含如下图中包含的要素。

大数据应用的部署（规划设计运维）不是实现个别特性（如HADOOP或其他任何东西），而是需集成了技术，人，流程等多要素的流水线。你需要采集数据，存储数据，清理数据，查询数据，分析数据，可视化数据。这将由产品来完成，有些由人力来完成。一切都需要无缝集成。归根结底，对于这一切工作，从面向应用交付运维的高级管理人员开始，需要致力于建立一个数据驱动的文化，大数据不是小事，而是全局的事。