全球预见者分享平台、领先的数据科学社区媒体和职业发展平台

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

大数据MPP技术基础-Hadoop架构

[复制链接]
发表于 2019-4-13 14:04:28 | 显示全部楼层 |阅读模式
hadoop不是一个软件,而是一个分布式系统基础架构,是由Apache基金会主持开发的一个开源项目。Hadoop可以使用户在不了解分布式底层实现的情况下,开发分布式程序,从而充分利用电脑集群的威力,实现高速运算和大规模数据存储。Hadoop主要有HDFS、MapReduce、Hbase等子项目组成(前期已经介绍了HDFS,后续会重点介绍MapReduce、Hbase,这里先补充简单的通识概念,MapReduce就是分布数据处理计算框架,Hbase可以理解成“变形的SQL”)。
Hadoop总体架构如下图所示,Hadoop架构中核心的是MapReduce和HDFS两大组件。

2.webp.jpg

Google曾发表论文《Google File System》,系统阐述了Google的分布式文件系统的设计实现,Apache针对GFS,进行开源开发,发布了Hadoop的分布式文件系统:Hadoop Distributed File System,缩写为HDFS。MapReduce的核心思想也由Google的一篇论文《MapReduce:Simplified Data Processing on Large Clusters》 提出,简单解释MapReduce的核心思想就是:任务分解执行,执行结果汇总


虽然Hadoop创建于2006年,在“大数据”的概念兴起到达白热化是在2011年至2014年期间,当时在媒体和行业面前,大数据就是“黑金石油”。 有远见的大公司(称他们为“尝鲜者”在传统的技术采用周期),在2011 - 2013年开始早期实验大数据技术,推出Hadoop系统,或尝试单点解决方案。他们招聘了形形色色的人,可能工作头衔以前不存在(如“数据科学家”或“首席数据官”)。他们通过各种努力,包括在一个中央储存库倾倒所有的数据,逐步建立内部竞争力,与不同厂商尝试,部署到线上,讨论在企业范围内实施推广。下图为采集到2016年大数据生态圈。

3.webp.jpg

很显然这里密密麻麻很多公司,从基本走势方面,动态的(创新,推出新的产品和公司)已逐渐从左向右移动,从基础设施层(开发人员/工程师)到分析层(数据科学家和分析师的世界)到应用层(商业用户和消费者),其中“大数据的本地应用程序”已经迅速崛起。

科技发展到今天,远远不是一个HADOOP框架能涵盖了得,但是不论HADOOP作为一个标志性事件,还是底层实际应用框架,在现在仍然值得研究。

在这里,希望各位看官建立两个基本的通识:
1、    大数据技术目前已经不是什么神秘的技术,已经得到广泛应用。从中小型企业到非常大的跨国公司,当然包括电信行业各型企业,不必从头开始做,有大量的成功案例“范式”可以借鉴;
2、    本文提的HADOOP架构重点落脚点还是在应用上,大数据应用架构需要符合技术内在规律(规范),一般来讲应用应该包含如下图中包含的要素。

1.webp (1).jpg

大数据应用的部署(规划设计运维)不是实现个别特性(如HADOOP或其他任何东西),而是需集成了技术,人,流程等多要素的流水线。你需要采集数据,存储数据,清理数据,查询数据,分析数据,可视化数据。这将由产品来完成,有些由人力来完成。一切都需要无缝集成。归根结底,对于这一切工作,从面向应用交付运维的高级管理人员开始,需要致力于建立一个数据驱动的文化,大数据不是小事,而是全局的事。

| 引文 |
  • 《大数据还是回事么?(2016年最新大数据公司全局图)》,董飞,大数据微信公号“董老师在硅谷”
  • 《What Is Apache Hadoop》, The Apache Software Foundation.主页介绍http://hadoop.apache.org/


⊙ 文章版权归《通信大视野》所有

楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据科学与人工智能的社区媒体!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2019-4-23 01:05 , Processed in 0.101494 second(s), 21 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表