最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

排序性能PK:Spark完胜MapReduce

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-16 15:33:46 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作为Hadoop MapReduce后继者Apache Spark可以支撑数千节点规模的集群部署,尤其在内存数据处理上,Spark比MapReduce更加高效,且支持GB或TB级别的数据。然而很多人都认为在磁盘数据计算上,MapReduce比Spark更有优势。近日,大数据公司Databricks为了评估Spark在PB级磁盘数据计算的运行状况, 其技术团队使用 AWS进行了一个Daytona Gray类别的排序基准测试。测试结果显示Spark打破了MapReduce保持的排序性能记录。这次测试是一个考量系统排序100TB数据(约万亿条记录)速度的行业基准测试。在此之前,这项基准测试的世界记录保持者是雅虎,他们使用2100节点的MapReduce集群在72分钟内完成了计算。而本次测试Spark只使用了206个EC2节点,就将排序用时缩短到了23分钟。也就是说在相同数据的排序上,Spark只使用了1/10的计算资源就比MapReduce快了近3倍。
此外,在Spark官方没有PB数量级排序对比的情况下,Databricks技术团队首次开展了1PB数据(十万亿条记录)的排序测试。这个测试使用了190个EC2节点耗时不到4个小时,同样远超雅虎之前使用3800台主机、耗时16个小时的记录,这也是在公用云环境中,首次完成的PB级排序测试。以上两个测试的具体结果如下表:
hadoop保持记录
Spark 100 TB
Spark 1 PB
数据大小
102.5 TB
102 TB
1000 TB
耗时
72分钟
23分钟
234分钟
节点数
2100
206
190
# Cores
50400
6592
6080
# Reducers
10,000
29,000
250,000
Rate
1.42 TB/min
4.27 TB/min
4.27 TB/min
Rate/node
0.67 GB/min
20.7 GB/min
22.5 GB/min
Daytona Gray类别排序基准规则
环境
专用的数据中心
EC2 (i2.8xlarge)
EC2 (i2.8xlarge)

Spark有以上的性能表现是因为Databricks与Spark社区为Spark在稳定性、扩展性、性能等方面的做了不断的改进,尤其是在超大规模工作负载下,他们投入了大量的精力来提升Spark的性能。从细节上看,与这个基准测试高度相关的工作主要有三个,首先,也是最关键的,在Spark 1.1中他们引入了一个全新的Shuffle实现,也就是基于排序的 Shuffle(SPARK--2045)。其次,他们修订了Spark的网络模型,通过JNI(SPARK--2468)使用基于Netty的Epoll本地端口传输。同时,新的模型还拥有了独立的内存池,绕过了JVM的内存分配器,从而减少垃圾回收造成的影响。最后,他们创建了一个外部Shuffle服务(SPARK--3796),它与Spark本身的执行器完全解耦,这个新的服务基于上文所述的网络模型。得益于以上三项改进措施, 在map阶段,Spark集群的单节点能够支撑每秒3GB的IO吞吐量,在reduce阶段,单节点能够支撑每秒1.1GB的IO吞吐量。其他更多的技术细节包括TimSort排序算法的实现、缓存位置的利用、Spark的容错机制以及AWS方面的增强等。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-5 10:59

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表