最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Hadoop之父Doug Cutting在清华的讲座记录

[复制链接]
跳转到指定楼层
楼主
发表于 2017-10-29 14:39:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
0x00 前言2014年,hadoop之父Doug Cutting在清华开了一次讲座,当时三个小伙伴一起翘班骑自行车到现场听了这场讲座,很认真地做了笔记。 现在翻出来回顾一下感觉还是有不少感触的,稍加整理分享出来。
0x01 讲座记录整个讲座约一个小时,两点半左右开始,前半个小时左右Doug Cutting 总共大概7张PPT,后半个小时互动。
Doug Cutting总共讲了大概7张PPT,每张PPT只有一个标题,正文是一张图片,内容主要讲的是自己的开源事业、Lucene、Hadoop等。
PPT One:Means For Change : Hardware提了moore定律,讲了处理器、存储这些硬件更新的速度很快。这是一个硬件基础。
PPT Two:Fuel For Change : Data这里讲了一个逻辑,引出来了Open Source的重要性。
首先提出来Software is eating the industry,软件飞速发展;由此会产生各种各样的数据,而且数据量非常大,价值非常高;因此需要有Tools来处理这些数据,继而引出了下一张PPT:OpenSource。
PPT Three:Seeds For Change :Open Source关于开源软件的好处大概讲了一下,没有讲特别多,大致上也是方便开放,有用故而用之。
其中提到他自己开始开源事业的一个想法,就是在做Lucene的时候,发现自己不适合搞Business,所以Give it away~~
这张ppt还提到三个重要的Component,没有听清是什么的三个组成部分,大概是整个计算机行业的?
三个分别是:Hardware、Data、Software
PPT Four:New DataStyle:Hadoop这张PPT引出来了Hadoop,Hadoop大概介绍了一下。提到了GFS,Hadoop的很多思想都是参考了GFS的。Google发表了论文,提出了它的这种理论,大家都很感兴趣,但是不是Google的原因,因此没法非常方便用。这时候Hadoop就出来了,OpenSource方便,易得。有其天然的亲民优势。
Doug Cutting提到自己去了Yahoo,因为Yahoo需要处理大量的数据,还有大量的硬件可以用,和自己很契合。
PPT Five:Style Catches on:Ecosystem介绍了Hive、Pig、Spark等,没过多的讲。
PPT Six:Victor Emerges:Enterprise Data Hub大致讲了自己在Cloudera工作,介绍了Enterprise Data Hub的重要。记得说了一句话: I am lucky in the right place in the right time.(语法感觉有点别扭)提到了这是Future tool。
PPT Seven:The Data Multi-Tool快结束了,说到了hadoop的一些存在意义,举了一个例子,这个例子正是PPT的图片,是个手机。大致意思是:手机可以干很多事,比如照相,但是照相的功能不如一些专业的相机。但是有一点可以确定,大家用手机照相的时间比相机多,为什么呢,因为手机一直在你身边,你什么时候都可以用,而且除了照相,我还可以把照片分享,总的来说,就是已经存在,而且方便。
Hadoop也类似,现在有很多的计算框架,Spark、Storm这类的。这种情况不必否认其他的存在,Hadoop大家会比较熟悉,而且应用很广泛,在你需要的时候,可能你就有一个Hadoop的集群环境,有些计算可能Spark性能更好,但是Hadoop也可以做,方便使用。
这让我想到了操作系统,未必是Windows最好,但是大家都习惯了,也就是够用了,再出现一个新的操作系统,除非你让我感觉有了你我就不想用Windows了,Windows已经够用了,不必非要把它换掉,类似道理。
0x02 现场问答最后是提问时间,大该记录了几个问题。
1.安全问题。Doug Cutting回答的大概意思是:技术解决 + Social Solution。
感觉这是个难题,最近这几年安全问题越加严重。
2.Relational Database 和 Nosql这个其实不是新问题了,Doug Cutting说的一句重点:Each has its uses
3.Spark,Storm的存在比如Spark是用Memory的Hadoop现在是HDFS,是否要向Spark学习一下呢
Doug Cutting的大概回答是,这是Ecosystem,每个Component都有其作用,各善其职即可,I am happy to see Spark。还有就是,这是开源软件,并不是一个公司控制了Hadoop另一个控制Spark,两个公司在竞争。因为是开源,最终的目的都是为大家所用。
现在的Hadoop和Spark的确是一个打的生态系统,不是竞争,是一种共生的感觉。
4.什么是BigdataDoug Cutting回答了很长一串,最后听出来重点是:Not the size,it’s the style。
喏,Bigdata是一种思想,一种处理方式上的体现。我是否可以理解为数据多少不重要,重要的是处理的方法?
5.Cloudera和HortonworksDoug Cutting也回答了一些客套的话,然后说的是:Happy competition。
0xFF 总结在翻之前笔记,一晃眼就三年了,感觉的确挺快的,那时候还是个学生。 三年时间变化也挺大,以前对大数据懵懵懂懂还不知道自己会不会走上这条路,现在已经在这个行业混迹了接近两年了。
感谢Doug Cutting这些大佬,感谢开源社区,创造了千千万万的就业机会。

作者:dantezhao  
个人主页:http://dantezhao.com


来源链接:http://www.jianshu.com/p/0659149f66e6
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-1 10:57

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表