最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-15 15:19:39 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 乔帮主 于 2014-10-15 15:29 编辑

前几天,CSDN报道了伯克利大学的一个项目Tachyon。记者及时联系到了Berkeley计算机系AMPLab的博士生Reynold Xin,中文名字辛湜,他是Shark的作者,也是Spark的核心成员(@hashjoin)。

Spark是一个高效的分布式计算系统相比hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。

图:Spark的核心成员Reynold Xin

CSDN的专访整理如下:

CSDN:你好,辛湜。请首先介绍一下自己。

辛湜:我是UC Berkeley计算机系AMPLab的博士生,专注于数据库以及计算机系统的研究。AMPLab正在开发一个大数据的处理平台叫做Berkeley Data Analytics Stack (BDAS),其中包括了Spark, Shark等项目。我是Shark的作者,也是Spark的核心成员。 (辛湜的学术主页

在来Berkeley开始博士研究之前,我在Google和IBM工作过一段时间。在Google的时候主要做分布式系统开发,在IBM的时候做分布式的DB2内核的开发。之前我是在多伦多大学就读工程科学专业本科(Engineering Science,类似工程物理)。

CSDN:为什么会选择计算机专业?有什么特别的故事吗?

辛湜:从小学开始接触编程,当时觉得可以通过程序来控制电脑是一个十分神奇的事情。后来高中之后和一个朋友(网名“旅行”)合作,写了一个在国内当时比较有名的论坛程序FastBoard(以及后续版本Celeste)。我们还建立了可能是当时中国最大的PHP论坛。不过后来因为个人学业原因几个项目都没有再继续。

CSDN:为什么会选择伯克利大学?伯克利大学给你留下印象最深刻的东西是什么?

辛湜:大学是在加拿大多伦多大学读的。当时选择伯克利的原因主要有几个方面:

首先,我在选择学校的时候几个教授正要成立一个专门针对大数据的实验室(就是AMPLab),由几个来自不同学科的世界顶尖教授组成,比如说数据库(Michael Franklin),系统(Ion Stoica),机器学习(Michael Jordan),计算机网络(Scott Shenker),计算机架构(David Patterson, Randy Katz)等。世界上应该很难再找到一个类似的地方。

其次,Berkeley数据库和系统领域的研究项目基本上都会开源,对工业界有比较深的影响(BSD, PostgreSQL, Berkeley DB, TinyOS等等)。我个人希望我的研究想法可以超越论文的阶段,所以Berkeley这几点十分吸引我。

最后要说一点,就是Berkeley自然环境非常好,我第一次参观学校的时候住半山上,眺望了整个旧金山海湾和金门大桥。

CSDN:现在主要从事哪一方面的工作?

辛湜:我其实最主要是做Shark和Spark。在Tachyon方面我主要负责Shark和Tachyon的集成,让Shark可以原生的使用Tachyon里面“列”的概念。

Tachyon的主要作者HY也是一个中国人。如果有兴趣的话我可以介绍你们相互认识一下。(笔者正在准备采访HY,请关注后续的报道)

CSDN:在微博上看到你在很多地方做Spark和Shark的演讲,可以简单的介绍一下这两方面的内容吗?

辛湜:Spark是一个高效的分布式计算系统,相比Hadoop有以下几个优势:

  • 性能可以比Hadoop高100倍。
  • Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的十分之一或者一百分之一的长度。

Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。

CSDN:Tachyon现在开源了吗?

辛湜:现在已经开源了。可以在Github上找到。

CSDN:你在微博上说“时代杂志2006及2011年度风云人物奖获得者”,这个我有些疑惑?

辛湜:那是个玩笑, 2006年的时代杂志年度风云人物是“你”,包括了网络上的每一个人。2011年的年度风云人物是所有参与了反华尔街示威抗议的人。2011年我在示威场所观察了三个小时,当时在抗议加州政府对教育经费的削减。

CSDN:了解知道国内的“云计算大会”吗?CSDN已经举办了五届,希望你有机会来参加,也非常希望你能来云计算大会做演讲嘉宾,可以把更多的科技信息分享给大家。

辛湜:听过。有机会的话我也希望可以在会议上给大家介绍一下Berkeley开发的一些项目以及这些项目在工业界的应用。 (文/王鹏,审校/仲浩)




楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-5 13:15

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表