168大数据

标题: 大数据MPP技术基础-Hadoop架构 [打印本页]

作者: 168主编    时间: 2019-4-13 14:04
标题: 大数据MPP技术基础-Hadoop架构
Hadoop不是一个软件,而是一个分布式系统基础架构,是由Apache基金会主持开发的一个开源项目。Hadoop可以使用户在不了解分布式底层实现的情况下,开发分布式程序,从而充分利用电脑集群的威力,实现高速运算和大规模数据存储。Hadoop主要有HDFS、MapReduce、Hbase等子项目组成(前期已经介绍了HDFS,后续会重点介绍MapReduce、Hbase,这里先补充简单的通识概念,MapReduce就是分布数据处理计算框架,Hbase可以理解成“变形的SQL”)。
Hadoop总体架构如下图所示,Hadoop架构中核心的是MapReduce和HDFS两大组件。

Google曾发表论文《Google File System》,系统阐述了Google的分布式文件系统的设计实现,Apache针对GFS,进行开源开发,发布了Hadoop的分布式文件系统:Hadoop Distributed File System,缩写为HDFS。MapReduce的核心思想也由Google的一篇论文《MapReduce:Simplified Data Processing on Large Clusters》 提出,简单解释MapReduce的核心思想就是:任务分解执行,执行结果汇总


虽然Hadoop创建于2006年,在“大数据”的概念兴起到达白热化是在2011年至2014年期间,当时在媒体和行业面前,大数据就是“黑金石油”。 有远见的大公司(称他们为“尝鲜者”在传统的技术采用周期),在2011 - 2013年开始早期实验大数据技术,推出Hadoop系统,或尝试单点解决方案。他们招聘了形形色色的人,可能工作头衔以前不存在(如“数据科学家”或“首席数据官”)。他们通过各种努力,包括在一个中央储存库倾倒所有的数据,逐步建立内部竞争力,与不同厂商尝试,部署到线上,讨论在企业范围内实施推广。下图为采集到2016年大数据生态圈。


很显然这里密密麻麻很多公司,从基本走势方面,动态的(创新,推出新的产品和公司)已逐渐从左向右移动,从基础设施层(开发人员/工程师)到分析层(数据科学家和分析师的世界)到应用层(商业用户和消费者),其中“大数据的本地应用程序”已经迅速崛起。

科技发展到今天,远远不是一个HADOOP框架能涵盖了得,但是不论HADOOP作为一个标志性事件,还是底层实际应用框架,在现在仍然值得研究。

在这里,希望各位看官建立两个基本的通识:
1、    大数据技术目前已经不是什么神秘的技术,已经得到广泛应用。从中小型企业到非常大的跨国公司,当然包括电信行业各型企业,不必从头开始做,有大量的成功案例“范式”可以借鉴;
2、    本文提的HADOOP架构重点落脚点还是在应用上,大数据应用架构需要符合技术内在规律(规范),一般来讲应用应该包含如下图中包含的要素。


大数据应用的部署(规划设计运维)不是实现个别特性(如HADOOP或其他任何东西),而是需集成了技术,人,流程等多要素的流水线。你需要采集数据,存储数据,清理数据,查询数据,分析数据,可视化数据。这将由产品来完成,有些由人力来完成。一切都需要无缝集成。归根结底,对于这一切工作,从面向应用交付运维的高级管理人员开始,需要致力于建立一个数据驱动的文化,大数据不是小事,而是全局的事。

| 引文 |

⊙ 文章版权归《通信大视野》所有






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2