最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[基础] 初学者必看!图文并茂:5分钟了解Hadoop

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-26 18:29:17 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
翻译:孙国良
校对:孙强
转载需保留以上信息

原文链接:
http://www.bigdata-startups.com/BigData-startup/what-is-hadoop-and-five-reasons-organisations-use-hadoop-infographic/

Hadoop原是Hadoop开发者的孩子给自己的大象玩具起的名字。因为原有的数据存储和处理工具对于处理互联网泡沫之后开始出现的海量数据显得力不从心, 所以开发了Hadoop。首先,谷歌提出了MapReduce构架,它能够应对来自整合全球信息任务所产生的数据流,并使这些数据变得具有很高的可访问性。此后,在2005年雅虎开发了基于MapReduce构架的Hadoop。它作为Apache许可协议下的一个开源工具于2007年被正式发布。


几年来,Hadoop已经变成了一个超大规模的操作系统,尤其是应用于时下产生的海量数据所进行的分布式并行处理。像通常的操作系统一样,Hadoop包括完整的文件系统,可编写程序,以及分布式管理这些程序并返回计算结果。


Hadoop支持能同时运行在低廉硬件设备构建的大型集群上的数据密集型分布式应用程序。它是根据Apache v2的许可协议发布。Hadoop网络可靠稳定并且扩展度很高,它可以用来查询海量数据集。Hadoop是用Java所编写的,这意味着它可以在任何平台上运行,并被全球性分销商和已经在Hadoop之上构建了其他软件层面的大数据技术供应商所使用。


Hadoop分布式文件系统(HDFS)这个功能使Hadoop变得非常有用。这是Hadoop的存储系统,它把数据分解处理成称之为”块”的较小部分。这些块随后被分布于整个集群。这种数据分布允许映射(Map)和化简(Reduce)后的功能被执行于更小的子集,而不是在一个大的数据集上。这提高了效率,节约了处理时间, 提高了处理海量数据所需的可扩展性。


MapReduce是一个软件框架和模型,可以处理和检索并行存储在Hadoop系统上的海量数据。MapReduce的函数库已经被用多种编程语言所编写,所以Hadoop能与他们配合工作。另外,MapReduce可以处理结构化和非结构化数据。


MapReduce的工作分两个步骤。第一步骤是“映射(Map)”,其将数据分割为更小的子集,并把这些子集分配到集群中的不同节点上。系统内的节点可以再次执行这项操作,从而导致了一个多层次树结构,它将数据分割于越来越小的子集中。在这些节点上对数据进行处理并把结果返回到“主节点”。 第二步骤是“化简(Reduce)”。 主节点收集所有返回的数据,并把它们组合成某种可重复使用的形式输出。MapReduce框架可以管理所有的各种并行任务和整个系统,并形成Hadoop的心脏。


通过融合多种技术,海量数据可以很容易地存储,并在几分之一秒内被处理和分析。在过去几年中,对于大数据生态系统Hadoop已被证明非常成功,并且看起来前途非常光明。随着Hadoop2.0的开发,它现在使用一种全新的作业处理框架,称之为YARN。YARN是Yet Another Resource Negotiator的缩写,它是一个管理集群计算资源的应用程序调度模块。YARN使多个数据处理引擎,如交互式SQL,实时流媒体,数据科学和批量处理来处理存储在一个单一平台上的数据,创建一个全新的方法来分析。


Hadoop是一个强大的工具,自2005年以来,超过25%的企业目前使用Hadoop来管理他们的数据,在2012年同比增长了10%。以下是企业使用它的几个原因:

低成本;
高计算能力;
高扩展性;
存储灵活性;
数据保护。

Hadoop被用于几乎所有行业,从零售业,到政府,金融。下面由Solix制作的信息图表提供了一个对Hadoop的更深入描述以及一些有趣的预测。









楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-14 16:20

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表