最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

BI168社区-Spark亚太峰会圆满闭幕

[复制链接]
跳转到指定楼层
楼主
发表于 2014-12-6 23:06:02 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 乔帮主 于 2014-12-8 10:49 编辑

BI168社区-Spark亚太峰会圆满闭幕

特聘嘉宾:

陈亮  华为中软院大数据平台部负责人,2005年加入华为,成功主导了多个项目的开发,包括大数据Spark统一分析项目、用户行为分析项目、智能流量报表项目等。


郭理靖
京东开放云事业部总监,负责云鼎(IAAS),云擎(PAAS),云峰(移动云),JOS(京东开放服务:宙斯,云海,服务市场)。云海项目的实时计算系统是基于Spark-Streaming开发,新的实时指标计算需求经简单配制或写SQL就可测试上线,大大降低开发成本。



吴东
搜狐研究院北京研发中心总经理,负责搜狐集团北京研发中心云平台的设计、研发和实现。主导研发海量对象存储系统SCS,图片云服务等系统,并搭建了搜狐集团北京研发中心的spark平台。




彭毅
搜狐研究院—基础架构部负责人。2006年加入搜狐公司主要从事数据中心管理、硬件研究及新技术研究的相关工作。多年致力于硬件系统应用研究及数据中心运维的相关工作对服务器硬件、架构优化、数据中心相关管理有十分丰富的实战经验。





王家林
Spark亚太研究院首席专家,Spark源码级专家,完成了Spark的13不同版本的源码的研究,编写了国内第一本Spark书籍,开设了系统性的Spark课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。

文字直播

主持人:        很高兴能够待人本次亚太峰会的主持人,技术声言,正如刚才我们宣传片中所介绍的那样,随着云计算和大数据的不断发展,最活跃,最高效的通用计算平台,作为统一的大数据计算平台,他已经逐渐从技术领域走向了大叔的联合发起,有波纹试点共同发起,有中国云计算联盟、北京市软件协会、深圳市软件协会、杭州云计算协会,杭州高薪人才共同协办,面向云计算和开发者和技术爱好者,围绕们技术鹪鹩,旨在成为Spark他们是工信部电子可积委柳纯录,中国云计算应用联盟主席汤兵勇、中国云计算联盟秘书长李彦宝、北京市软件行业协会副秘书长郝征荣,行长李林,博文视点主编孙学应,首席专家王家林、同时也欢迎我们今天上午长的演讲嘉宾,易观智库副总裁李智,Intel关键工程师史鸣飞,亚信科技大数据平台许颖、开放云事业总监郭理靖,还有下午的十几位演讲嘉宾,这这里我就不一一介绍了。下面我们有请本届大会的名誉主席,汤兵勇会大会致开幕词,大家掌声有请。
汤兵勇:        尊敬的工信部电子科技委柳纯录副秘书长、各位专家,各位来宾大家早上好,首先我代表中国云计算应用联盟对2014Spark亚太峰会的召开表示热烈地祝贺,对各位专家以及代表前来参加本次会议的朋友表示热烈地欢迎!“大数据”作为数据分析的前沿技术,是新一代信息技术的集中反映,是一个具有无穷潜力的新兴科技产业领域。它不仅影响着国家治理模式、企业决策与流程重塑,而且还对人们的生产、生活、工作和学习方式产生重大变革。在云计算、移动互联网等技术变革的推动下,我国已经开始进入“大数据”时代,并率先在5特行业开启了大数据的起航之旅,大数据已经经济预警、市场营销、临床诊断、远程监控、药品研发、金融等领域发挥着重要作用。2011年11月工信部出台了《物联网“十二五”发展规划》,2012年9月,科技部发布《中国云科技发展“十二五”专项规划》,工信部也正在制定《云计算产业战略规划》。2012年7月国务院讨论通过《“十二五”国家战略性新兴产业发展规划》,其中明确提出“加强以海量数据处理软件等为代表的基础软件的开发”,这是我国首次提出发展大数据产业的国家规划,具有划时代的历史意义。目前大数据的发展属于高速发展阶段,我国虽然有多支产业资本注资大数据产业,但是还没有成长为大数据产业的主导企业。另外,大多数企业停留在对基础软件的研发上,而很少有对核心产品软件的开发与攻关,另外,由于缺乏技术型的初创企业,因此尚未形成多层次的大数据产业生态系统。在数据已经成为当今企业的核心竞争力的今天,拥有大数据并智慧地使用和运营数据成为企业不可缺少的成功要素。中国大数据市场从2009年开始发展至今,已经进入高速发展期。2016年中国大数据应用市场规模也有望达到百亿规模。大数据蕴藏的价值虽然巨大,价值密度却很低,往往需要对海量的数据进行挖掘分析才能得到真正的有用的信息,从而产生价值。随着大数据处理和应用需求急剧增长,同时也由于大数据处理的多样性和复杂一性,针对多元化的典型的大数据计算模式,学术界和业界不断研究推出新的或改进已有的计算模式和系统工具平台,Spark技术应运而生。Spark是当今大数据领域最活跃和最热门大数据通用计算平台,其成功地构建起了一体化、多元化的大数据处理体系。在任何规模的数据计算中,Spark在性能和扩展性上都更具优势。同时还保持与hadoop平台的兼容性。因此,随着系统的不断稳定和成熟,Spark有望成为新一代一体化多元化的大数据通用处理系统和平台,企业使用Spark可以带来时间和开销上的双节省。Spark技术的出现,无疑将会推动整个大数据行业的进一步发展成熟。Spark技术在国内的发展,仍然处于起步阶段,很高兴今天峰会,看到这么多关注大数据,关注大数据技术发展的企业、技术专家、技术爱好者。也非常高兴大家能把在大数据技术研究的成果、经验在这里进行分享。相信通过各方的推动,中国的大数据产业将更加快速发展,大数据技术将推动产业实现更多的商业价值。最后,预祝大会取得圆满成功!
主持人:        非常感谢汤兵勇主席刚才真挚的发言,云计算和大数据产业得到了政府的大力支持,逐渐从概念走向了落地,随之而来大家肯定会有很多的问题,面临着哪些新的机遇和挑战,大数据的挑战将走向何妨,下面我们将右倾易观智库的副总裁一一解答这些问题,右倾李智女士。
李智:        大家好我是易观李智,刚才看会议议程的时候,会议的议程真的是以技术为主的,我本身是做研究的,而清是做行业研究的,邀请到我来作为今天开场的,实际上我在跟我们公司,在跟我们公司技术团队沟通的时候,他们满乐于和我们做乐行业研究和分析的同事沟通,他们所做出来的大数据的东西,还是解决方案是怎么为我们所用的,包括我们怎么拿这些大数据服务客户的,尽管在座的各位都是做大数据技术的,更乐于看到当我们应用这些东西的,企业单点的问题,我愿意分享我们公司去做大数据的时候,从我们使用者的角度会去看到,可能会存在的一些问题和我们现在的一些解决方案,那就不罗嗦,解决我为什么会站在这里,我们看单大数据今天的中国市场看到的发展情况。那今天我们之所以不断地提到大数据,大局数已经成为今天很多人耳熟能详的词,大数据不再是关在技术们里面的东西,而是它成为每个企业,无论是不是大数据企业核心资产和驱动他的荷叶业务,我们怎么解释这个问题。实际上以往企业做决策的时候,使用到更多的小数据来解决他的决策问题,甚至在没有数据的情况,企业能做很多决策的东西,但是今天企业之所以把大数据作为一这样一个核心资产,是在于说,今天很多的决策,包括今天企业发展的很多流程,是使用到大数据来帮助去解决,而不是在在屋子里面派绦带派出来的问题,对于制作也的改变,以往的销量的决策,或者说生产量的一个决策,通过各式各样可能调研,但是是有限的样本的调演之,但是今天我们会看到,在数据驱动流程的这个体系之下,实际上到底怎么来制定未来一年的销量,实际上是一个数据反馈帮助支撑的,帮助企业不断地构建他的核心京城里而不备别人超越祸福之。今天大数据之所以这么重要,除了改变以往企业的决策和流程之外,数据也直接作为一个业务板块出现在很多的企业面前。两种方式:第一种今天出现以大数据作为产品和服务的公司,包括我们个易观智库,包括,都是以大数据作为直接的产品和服务,面向所有的企业和用户,基于这些无论是易观,可以做很多延伸的增值的东西,今天也是,大数据直接作为业务驱动的一部分,这个实际上是大数据今天走道台前非常重要的一个原因,但是我们也不得不说,今天大数据的部分仍然处于一个初级的阶段,企业互联网化,但是可能跟国际先进的国家和地区仍然存在差距,大数据在部署上面尤其中国市场上面,仍然会有一些投入都不组的问题,可能大数据在管理上面仍然存在一些挑战,实际上是企业管理层作出的,企业管理层去用数据来指导自己做决策,本身也是一个对中国传统的管理文化的挑战。当然,节是说组织结构和管理是社会层面的事情,其实技术环境也在不断地推动组织机构的变化,其实刚才主持人反复提到一些词汇,就是云计算、移动互联网,包括社交,包括物联网等等,移动互联网还是物联网,传感性部署在不同的场景之下,而社交网络实际是让我们的数据搜集和挖掘变得更加困难的一件事情,就是无望以往我们看到的数据都是结构化的,实际上现在板结构化的这样的数据类型会越来越多,实际上关注SKU,包括促销的一些变化等等。但是我们的客户会提出要求,现在许多用户在点上网站上涌霞乐趣他们非结构化的用户评论的需求,对于我们公司在利用大数故的时候提出了挑战,对于我们来说,确实是海量的,在挖掘的时候,我们现在基本上定结方向,朝着这个方向看数据是什么样的,在智能电视这个领域,或者寨智能电视这个产品上,用户对于产品提出的需求是怎么样的,现在有能力向小米构建那那样一个用户或者社区给他们的提意见,点上平台的一些评论去挖掘用户的需求,消费者的需求到底是怎么样的,但是我们定下这个方方向的,去做到底用户对于智能电视产品类型的需求是怎么样,大数据呈现出来的结果,跟我们小数据调研回来的结果没有什么区别,健康类方面是怎么样的,所谓的智能电视可是没有体现智能是怎么样的,小数据调研呈现出来的结果实际上是保持一致的话语,我们会发现,我们这个数据是翁的方向貌似还存在一行问题,技术环境我们可以抓回来所有的数据,对于我们来说,仍然存在一些挑战,技术环境准备好的情况下,但是更好地一点是说,以技术为核心的,至少技术在这一块已经帮助我们,像我们做大数据应用的企业,我们不用担心云计算数据存储的问题,可能在这一块是蛮不错的,我们可能需要更关注的是数据服务,就是面向消费者怎么用数据的方式,对于易观来说,怎么把数据作为作一个更好地解决方案和产品面向我们的用户。实际上在这个生态链是是不不断的丰富起来了,有案例去做。刚才更更多和说是发展的背景,用我们自己应用成熟度的模型,我们会看到,我们是说,2013年到2014年已经过了炒作的高峰,进入到一个世纪的落地的阶段,从易观从一个研究咨询公司进入大数据机构的原因,现在可能大数据市场进入高速发展起,除了技术准备,除了产品可能还不错之外,不断地验证和认可。刚刚企事业有提到说,现在大数据规模的总量,到2016是一个百亿两的可能,可能是一方面,今天大数据之所以得到各行各业的关注,其实在于大数据对于各行各业,超包括不中传统行业,包括互联网行业,可能没有办法从这一百亿中衡量出来的,我们也会通过这样一个取证的方式去看今天大数据市场不同的企业,现在是处于一个什么样的阶段,可能现在更重要的是去看到底大数据的商业模式有这一个什么严禁,去看竞争的时候,我们会数据存储和挖掘方面我们会觉得有一个特别大的变化,今天大家可能更关注的领域,我们看到的情况是在数据应用方面,到底大数据解决了哪些企业、哪些行业实际上的通电,怎么样能把水具更好地应用出来,可能这一块实际上是值得大家去关注的一个部分。数据残疾采集,数据存储,和数据挖掘,和数据应用,起来延伸出来的商业模式,一个是数据的存储和租用,其实我们今天会看到各式各样的互联网公司,相关的一些事情,是原来传统的IT企业之外,会涌现这样的公司,做数据存储和自用的事情,投资了十几互联等等。第二个模式是数据的增值服务,利用业务去做一些实际上的以往可能没有数据之前,很很难去达到的,典型的就是阿里金融,就是以往的数据可能没有办法更好地支持面向中小企业的金融业务的一个发展,包括这个数据不够支持,怎么评估,他承成带的能力等等,实际上现在很多互联网公司去获取到的数据,更好地记录下来,在降低风险的情况下,更好地去服务这些中小企业的金融需求。第三点是信息租售的业务,今天很多的数据产品为大家去所使用,为很多企业购买,这里面卖数据的不仅易观这样的公司,新浪微博也都把他的数据出售给做收视率检测这这样的公司,是什么样的情况等等。第四种是数据技术的服务,实际上我们看到,今天数据应用这个层面,我们会看到,各式各样的商业模式不断地发展,那我们刚刚是站在横向的角度去看各式各样数据的商业末日,我们也关注落地道不同地行业大数据是怎么样的应用,确实如这长图呈现出来的,像电商、金融大数据应用成熟度方面是比较高的,金融和电子商务在市场吸引力上也处于这个特别高的状态。在不同地行业上面,不都是对大数据是什么样的应用状态,当然这里面可能会去存在一些问题,包括我们对一些医疗机构,我们会发现,其实我们今天虽然会说大数据在医疗行业是非常有用有价值的,医疗信息化存在的短版,可能90%以上的有价值的大数据是被错过的,留下的数据都没有打通今天通常意义上说的大数据的健康管理和医疗服务,这里面实际上我们去梳理的大数据在钢各行各业可能用的服务。实际上是数据搜集和互联互通这个部分就存在满舵的问题,我们会觉得比较当的,但是向零售和电子商务是跑的比较前面的,但是之所以会把电商和零售分别来看,还是在于说,点上载本身搜集,其实是比较方便和已经做的比较好的,但零售行业可能还需要去做更多的线下的数据素化的问题,很多公司去做零售WIFI热点零售数据数字化的问题数据大数据行业应用方面的一些情况。刚才主持人特别提到,大数据的技术数据是什么样的,在大数据行业这个层面,趋势我们看到的是会什么样子的,我们在这里面可能会除了数据生态系统的负复合化程度加强,包括产业的核心要素的掌控者,大数据的所有放住宅这个市场的发展之外,可能还要看到一些在竞争层面可能会看到在数据源现在会有新的入口出现,实际上我们说大数据,更主要说大数据的所有权掌握在谁的受礼,所以在这里面,我们会看到说,现在各行各业都在通过各式各样的智能设备或许数据,那包括在数据分享商业智能层面都会存在一些不同的情况。在这里面我们可能看到大数据本身一些好的方面,我们也要看到这里面值得我们去关注的一些风险,像我刚才说的,数据的归属全很重要,数据掌握在手里有这样一个决和利用的基础,现在数据的归属权仍然不是一个清洗的状况,包括用户隐私,也说即使在骨骼这一块用户隐私方面做更多的努力,其实在中国市场,用户数据保护和用户安全有满舵的事情可以去做,在技术类这个层面上,解决存在着但是到底Spark是不是一个大数据的首选,我想后面的嘉宾会有一个更深刻的分享,我今天的分享到这,谢谢大家。
主持人:        刚才李总为大家分分析了很多大数据的趋势,相信大家都有很多的收获。那么2014年大数据市场将进入高速度的发展期,这就需要对海量数据挖掘分析才能得到真正有用的信息,对数据的光度和速度的更更高要求,分析技术的研发和创新,我们知道从Hadoop技术到现在的Spark,积极的贡献,内存技术是快速大数据的关键,支持分布式研究,我们原Tachyon系统和作为利好元,可以好远在国外,但他也热情两位国内非常著名的,为大家分享,下来我们英特尔的软件工程师史鸣飞,而另外一位技术专家,我们欢迎史鸣飞。
史鸣飞:        我来自英特尔公司,我们是谁,我来自英特尔的大数据团队,我们团队更多的致力于大数据的软件,在工业界的推广,我们的团队是国内最早参与Spark项目的和推广的团队,我们从2012年开始就进入Spark项目,还是的资项目,还没进入,我们在Spark以及相关的项目中间,庸庸超过10位贡献者,我们代码贡献排名前三的。下面是我今天要讲的主要内容,Tachyon,介绍Tachyon发展为什么会出现Tachyon,介绍Tachyon的基本架构,和Tachyon和现有的集成,我们在使用Tachyon经验,Tachyon当前的发展状况和Intel在Tachyon上的贡献。Tachyon出现的背景,就是为什么会出现Tachyon,为什么会有Tachyon的需求,内存为王这句话大家都听听过,村村的速度的提升远高于磁盘,他的速度的优势就会很明显,另外一方面,内存的价格在不断地降低,容量在不断地增长,就有了可能,另外一方面,基于现在的内存的基本框架还面临一些挑战,我会以Spark为离向大家做一些介绍。第一个问题是数据共享问题,多种计算框架或者多个运用,这不同的框架之间,共享的数据就是一个问题,在现有的框架上,他们是通过共享数据的,用SFL,是一个磁盘的50HDFS,他的速度是比较低的。第二个问题就是缓存数据丢失的问题,然后做快速的迭代的计算,现在所有的数据都缓存在Spark的空间里面,如果Spark的应用出了问题,或者Spark的框架导致程序退出,就会丢失,这是第二个问题。第三个问题就上面的内存,机遇内存的框架而言,这个问题尤为突出,GC的问题就会随着计算两的增大,变得越来越突出越来越明显。根根本的原因就是现有的系统缺乏独立管理的内容。接下来我像章四大家节杀一下Tachyon的基本设想,主要有两个方面:第一个方面是基于内存的的分布式系统,通过在存储层保存数据的实现容错。第一个特点是所有的数据仅保存一份在内存中,如果当没有存储,通过网络在远程的结点度曲,但是另外一方面,在远端的数据,所以他的速度还是可以容忍的,当数据的丢失的时候,然后大达到数据恢复。这是Tachyon在整个大数据的处理的软件站所处的位置,他的地层是,在伤残就是大家通用的Spark,SparkSQL,这是Tachyon的基本架构,大家看到这个架构会觉得,它其实是和HDFS的结构是相似的,数据大的大小,数据的位置,还有若干个Tachyonwork管理每个结点上的数据,还有在整个图的左右,大家可以看到选择一个最健康的,有限度最高的住MST,让我们回顾一下,第一个问题就是数据共享,由于现在有了Tachyon,所有的数据存储在数之间,就可以直接通过TASKS,第二个业绩就是缓存数据丢失的问题当应用退出的时候,这个问题也得到了解决。第三个问题是集成开销的问题,由于数据都是缓存到Tachyon中的,GC的开销也因而大大的降低,就是GC的开销也得到了解决。Tachyon与现有集成的。其实我觉得这个部分南京大学估讲的东西,其实Hadoop开发的比较早,他开发的Tachyon还没有开始,如果想在Hadoop上使用Tachyon,相对Tachyon作为Hadoop的一个,对通过Hadoop的配制进行修改,就可以直接使用Tachyon,其实他们是在同一个软件站中,他们已经和Tachyon深度的集成了,只需要对Spark和就可以直接的使用Tachyon。接下来我们会像大家介绍一下我们在使用Tachyon上的经验和碰到的应用实例。下面这个是我们团队自己开发的一个,找到一个系统,他的处理流程是这样的,流式的数据缓存在卡里,在Spark streaming之后,,那么接下来其他的计算框架,甚至像Spark,包括都可以直接读取做一些在线的分析,或者是交互性的查询都可以。我们另外一方面考虑了隶属的分析,处理指挥之后作为隶属数据,就可以做一个组合查询,从而满足用户不同的需求。接下来一个案例是我们一年前做的一个用户的案例。这个案例是一个N度极点问题,这个案例跟要解决的问题是计算一个图之间各个结点之间的相关度的问题,就是N度的一个相关性,我在这里并不想讲这个应用的算法和实现方式,我想讲Tachyon在这个应用中间,我们如何使用Tachyon做优化的,图并行的方式,一种是BAGEL五,首先是一个图计算框架,他的处理过程大概是这样的,首它是基于以边作为别分,他的计算流程基本是这样的,首先它会在每个结点应用,每个阶段会通过发给给结点的消息GRAPHX,他会把每一轮声称的数据发送给所有的结点的消息存储起来,随着迭代的增加,他的数据量会越来越大,他的GC会很明显,缓存在Tachyon里面,从而大家的缓解了GC的问题。OFFHEAP,搜集阶段发送给每个结点的消息,通过接收到消息和结点的数据生声称新的结点消息,将节点的数据同步给重复节点的过程,在声称一个新的充实的过程,每一论声称的图存储在Tachyon里面,缓解了GC的问题。第三个案例是远程数据缓存的案例,客户有很多个集群,有一个集群是专门做存储服务的,有点类似于的存储服务系统,它还有各个若干的运算集成,有点他们的需求是这样的,计算机学会通过存储服务读取原数据,他们的计算有可能需要多次访问远程的数据,我们给出的解决方案,就是他们通过一次读取远程的数据,缓存在Tachyon,本地的Tachyon的中的数据这样可以大大的提高他们的计算效率。总结:首先他的使用场景,第一个就我在第一个案例里面讲到的,中间的结果数据需要在不的计算框架,可以做到快速相应,对延迟的敏感,第三个就是内实际上比较大,他拥有长时代迭代的需求,可以带来GC带来的开销,可以把Tachyon缓存在本地,然后提高效力,Tachyon以文件的形式存储在,会有序列化和反序列化的开销,这个问题在接下来的版本中间就不会出现了,因为我们Intel在Tachyon做了一个层级的本地存储,可以把SSD和SD作为Tachyon的存储空间。Tachyon项目是2012年在开始的,UC,这位位是主要的发起人,中间这位是马蹄,他是Tachyon的作者。Tachyon的现状是这样的,最新发布的0.5.0,0.6.0,现在Tachyon在国内用的还不多,在国外已经有很多公司在用,现在有超过50家公司,来自20多个组织,现在有的Spark和直接运行在Tachyon上,作为的存储系统,Tachyon也会被集成到20。下面是来自隔夜节的支持。有牙齿,还有来自国内的两个大学,一个是青花大写一个是南京大学。桀黠里我讲Intel在Tachyon的贡献,Intel一共有三位贡献者,我们一共提交了超过110个计较,这些涉及重要的方面,多层级的本地存储,他通过将一些大量的快速的外设,像SSDSDD,引入到Tachyon中,当内存不够的时候,可以将不是那么热的数据缓存在外部的存储器中,重新方辉中做一个快速的访问,还有一些提到可用性和应用型的一些问题,像一些用户的配制这方面的问题,还有就是大量的的修补,让Tachyon变得更加健壮,更加可用,最后欢迎大家可以加入Tachyon社区,最开始可以使用他,发现他的问题,可以给它做贡献,让我们一起把Tachyon做的更加健壮,让Tachyon变得越来越好,谢谢。
主持人:        Spark和先驱,相信Tachyon在国内也会有更好的发展,重点围绕Spark一技术更大家交流,正如我们当时宣传片中介绍到的,现在淘宝、京东、土豆、百度、腾讯这些大家树脂的公司都部署了Spark,为大家分享在电信行业的应用案例,在大数据应用创新方面,更在Spark的新兴领域有更多的探索,我们有请许颖总监。
许颖:        大家好我是亚信科技平台部的负责人,我们怎么去看Spark技术,以及我们在电信行业的探索,我带来的分享的代入,走入人间的内存处理和实时分析,Spark平台技术的探讨,为什么是这样的,其实我们看这两年大数据非常火热,包括技术方面,有Spark,我们同事方面的Tachyon,应用方面我们看到搜索,像商品推荐,像广告,像章 我们讲的医疗领域的,包括银行增新的应用,亚信是做电信行业的,现在是做大数据的系统,同时也在进各个行业,我们看到有一个问题,是我们尤其是我们走道传统行业去看的时候,实际上始终会存在大数据分析领域,和数据分析领域,就是IT和业务缝隙的部分。那么数据分析里面,同时需要有业务的背景,需要有很强的数据分析的能力和数据挖掘的能力,IT是一个系统的实践者,是由业务分析人员驱动的,还是IT人员驱动的,我们做数据分析项目做了很多年,其实是有一些缝隙存在的,大家在互联网领域里,数据科学家,数据科学家的含义就是这个人既懂应用,又懂软件工程,我觉得其实这样的人是比较难找的,我稍微分享一下,在电信行业经常有的,我一个业务人员要做营销,想做一个数据的分析,我要一个过去三周平均每天同化市场半个小时的客户清单去研究一下,IT我还要去写程序,已经有做好的平均每天上午市场大约3分钟,我必须从地层数据做数据的工作,我们做代码,另外我的基础数据有很多,我要处理起来也要花两天的时间,那我就等两天吧,两天以后IT人员就把数据人员提交到业务人员那里,业务人员研究一下想要每天上午客户分时段的数据,IT人员是说我没有,他的数据又要开始处理,你再等一天吧,这个业务人员经常说没办法,我这个营销的机会已经错过了,这个是我们在很多传统企业里面经常发生的故事,我们看到IT和业务之间的缝隙是存在的,尤其是大数据的分析领域里。第一个是数据锄地的时效性和处理问题的,时效性的,我们以以往通常来讲,说我有一些基础的数据,我提供给你业务人员是一个轻度汇总的数据,累计变成一个客户每天的通话行为的,给你业务人员,通过一些各式各样的工具去做这样的分析,但是他带来一得一个问题是什么呢,就是这个时候不灵活,如果我没有灵活数据提供给你,如果业务人员的需求变化的时候就适应不了,向业务人员提供越明晰的数据的时候,这个数据处理比较复杂,好事比较长,我们希望的是一个怎样的系统呢,直接防盗内存里面去做,由业务人员能够基于内存的数据可以做这种分析,可这样他可以得到很快的相应的时间,如何去做这种实时的数据分析,但是通常来讲,我们都是高大上的技术,像以前的IBM的,这些技术是第一比较昂贵,第二他适合做的数据,做大数据量的数据处理的时候,实际上一些传统的内存智库就不行了,我们希望通过的平台是:第一是快,第二是业务人员可以自主的,地三就是灵活,然后我可以进行实时的处理,第二就是自主式子四的第二就是业务人员的学习成本不是很高,如果业务人员比较会可以用或者其他拖拽式的方式做这个分析,第三个就是灵活,易于集成不同的格式,业务人员想要格式的时候再要,还是说立宪的数据也好,无论是大数据,结构化数据都可以做,这是我们比较理想的分析的平台。Spark这个良好的特性,带来了非常好的解决方案,我们去看这个Spark这个平台带来的三大特性我认为是实际上构建我们事实7分析的基础。第一个就是扩扩展的,第二个就是SparkSQL可以处理各种的数据员,地三管个就是批量处理和流处理的机制。刚才我讲的三个特点里面,第一个是统一的,低成本的,已经支持多个数据源,内存旅居处理的话,分布式的内存处理的环境,这个SparkS刚才可以符合我们的要求,他其实不一定的,所以他是可以非常好可以支持HDFS,同时我也可以支持现在通过为也SparkAPI,其实因为Spark良好的开开放的系统,同时他又是开源的,我们很多做平台技术的人,拓展支持新的数据源。第二个特性就是SparkSQL,大家可能也有很多人使用,可以支持标准的SQL和,如果以前在Hadoop上构建的应用其实比较简单地可以依一直到里面,我们看到的特点,其实他在SQL里面做了,通过跟的结合,包括我存储在上的,我都可以加载成内存,同时我可以用SparkSQL统一做这个助理,这个是我们看看好的很好的特性。第三个就是Spark streaming,完美这种平衡,以前流计算最早的形式做生产性的系统用的很多了,Spark streaming这种技术,实际要求比较高的车场景,但是对于我们做大数据的海量分析的来说,有一定的延迟,实际上通过把实时的流数据转为小批量的做处理的,但是他可以适合做2-5苗的技术,通过SQL,我可以转换为一个IT的对象,做这样的处理,所以可以很方便的存储数据和更新数据。刚才我们讲了Spark看到的三大特性,其实为我们构建一个统一的数据实时分析平台奠定了很好的基础,我们设想的数据实时分析的平台,数据员是有跨很多的数据员,类似我们数据仓库做的模式,就是我的这个数据,一开始要通过防盗我的数据库里面,我可以说,我业务分析人员要做这个分析的时候,这个概念前几年在DDP的概念,这层的概念就是我数据物理存储在不同企业的生产系统或者他们生产的悲愤系统,可以通过逻辑的概念,通过一个我在物理上,客户的信息存放在不同的系统中,我在逻辑的数据层可以定义这样的概念,在由逻辑数据层去评屏蔽下面数据处理的差异,我们也利用这样的平台方案搭建物理存储和逻辑存储的磨合,刚才过掉的数据处理层,英文里有一个词,通过数据的不同的探索和组合,去做的,在这层上面,树实现数据的浏览,在数据处理层和下面数据的逻辑层和物理层之间是通过夜间借口,这个时候我业务分析人员去获取数据的时候,不是直接从自己的数据库上户区别,并且通过逻辑数据层的数据的音银蛇管理和数据检索找到数据里面来。第一个是逻辑数据和物理数据银蛇的关系,第二个就是数据在访问的时候,要通过在逻辑数据服务层我要做数据逻辑的奸简析,从地层的数据加载到内存,同时他有一个数据加载的过程,和基于内的实时大数据的计算,利用了Spark刚才我们讲的三个特性。第一个是基于内存,踏同时他可以分布式处理,通过不同的数据员,可以集成实时的数据和我们批量的数据,Spark搭建统一的数据平台。最后简单分析我下来我们利用,第一个是我们定心的客户标签体系,我们看到无论是互联网也好,还是银行也好,还是电信也好,大家都有客户标签或者客户属性的概念,我们在Spark上做了这样一个实践和测试,就是以前用传统数据库做的,这个客户标签一个客户有多种属性,对电信来说,是不是全球通品牌,是不是一个商务旅行者还是一个体育爱好者,我们以往实现的就通过一个客户的宽表,这个客户宽表多起来有两千多条记录,这个时候月标签,和日标签,那我们这个场景不是做客户营销用的,客户营销用的时候客户拿一个请之后,可以直接差到客户的信息,我们这个产品是给业务分析人员,是业务分析人员,这个业务分析人员去做我要,假设我要获取一个商务客户群体和体育爱好者焦急的时候,这个性能是比较差,当我们构建Spark撇太平台上,多维分析场景的对比,我们以往就是DB2,但是我用Spark台基本上也能到1秒,大概是90S,大概是22s,但是他的成本降低了非常的多,另外我们也做过这样的曾是,高并发的数据访问的,但是我们也可以看到,大概支持20-30个这样的平法林的时候,性能是有所衰减,是完全非常好的一个解决方案。第二个乘场景就是电信里面经常用信令分析的场景,我们的同化的带手机移动到百货的位置的时候,相应的百货商,是不是皮具的爱好者推送一条营销的信息,这是我们典型的场景,这个场景很大的特点就是数据量非常的大,美妙大概的请求数量大概有5万多条,8千万左右,业务需求是什么呢?其实用户每移动到一个位置上,因为我们这个时候是要接的电信的信令的数据,每开机一次,基站的位置都要输送信息,你要试实时的记录用户的信息,同时根据现在的信息和我要做营销做匹配,如果是访问用户群的时候,我要做基本的营销,这里面我们也许应用Spar streaming和Spark,有的数据通常来讲不是做一次业务逻辑就可以了,利用了,可以统一个流数据拷贝两份,这里面是我们当时的一个特点。第二个特点是我们客户的数据,还有客户的数据其实我们也利用了SparkSQL的内存表格的形式,我们把客户变成一个文件,加载到内存,这个时候访问带来一个好处就是由业务人员通过用SQL实现这个处理逻辑,而不用写复杂的代码,这是我们的一个场景,支持8千万用户,支持每秒5万的请求,大概20-30秒的访问。当然,如果说每条单条的,像银行做的余额提醒这样的就不适合。我们看到Spark就是因为他的统一的CU处理的处理,同时融合批处理和流处理,又是基于内存的,实际给业务分析人员提供了一个很好的基础的平台,其实在Spark领域内,还有很多的发展的空间,其实在SparkSQL的支持,已经性能方面有很多的优化空间,大亚信就是我们大数据团队致力于改进Spark的性能,贡献了提交了五六十个,其中也包括了很多特性,但是在SparkSQL上已经不支持了,还这些性能的优化,包括开装的支持,还有Spark streaming这一块,因为Spark streaming这一块是Spark做了很多的优化,因为在无论是传统的Spark的数据落一次磁盘,这个时候性能很差,Spark提供一种分布到内存,但是如果我在海量数据的时候,如果我2T的表做这个是的时候,一定是要有些数据要硬盘上,希望通过我们的努力能够让Spark streaming同时兼容内存处理和兼容Spark处理这两种机制,相信Spark作为一个技术一定会成为未来大数据一个非常主流的技术。谢谢大家!
主持人:        非常感谢许颖总监的分享,也希望未来亚信能够为我们国内的Spark学习者带来越来越多的实践分享,我们知道Spark和Hadoop完美间虫的,毫无疑问,已经之只有指向了通用大数据处理平台,TalkingData的研究部阎志涛总实践分享,这个话题也是由网友选择的最感兴趣的话题之一,另外两个话题是Spark streaming在京东的实践,以及Spark在百度的实践,我们先幽情阎志涛总进行分享。
阎志涛:        大家上午好,我是来自TalkingData的阎志涛,我是负责我们公司的整个数据平台研发的负责人,实际上我在今天上午分享过去我们一年多怎么去探索Spark,把他应用到我们整个数据平台的研发框架当中,这个实际上过一下就可以了,这是我们公司的简单的介绍,我们是一家移动互联网的公司,主要是服务移动互联网的开发者,我们也搜集了大量的数据,因此我们有对这些海量的数据的处理的需求,下面是我们的一些业务,围绕整个移动互联网的大数据的生态圈,不同的服务于有开发者,有企业,小金融银行的客户的产品和服务,在整个服务的过程中,很多的服务都来自啊整个大数据平台的分析、挖掘、统计的需求,实际很多的业务最终或多或少负责的工程师和整个工作有关。这就是我们整个部门面临的一些工作,一些实际上就是说,因为我们有提供移动的平台,有很多比方说我们的伙伴,他要率人,是筛出服务我们人权来,还有我们数据的报告部门,类似于漆面易观国际以前,我们会出一些数据报告,包括某些热点的洞察,他也会找到我们说,我过两天要出一个报告,我需要你们帮我提供一些数据的支持,我们需要支撑我们整个公司的数据的盈运营,我们对于数据的指标,还有实际上整个基于大数据的统计是一部分的需求,还有很重要的一部分需求就是数据挖掘,我们有算法工程师,他们需要一个平台,需要对我们所有的数据,进行优化向,然后对用户完成真正的洞察,这些或多或少的业务都会堆积到我们的面前,这么多的业务如何去满足他们,这个就带来一个技术的挑战。第一个就是大数据的OLAP,像这些会提供多维的分析,可以通过多个纬度进行交叉的分析,在我们这种数据体谅下,大数据分析是一个非常大的挑战,甚至几十个TB,多维的分析是一个大的差距,有很多数据管理的活动,我们有很多数据合作,有不同的来源,把这些数据如何很好的管理起来,同时也一个很好的接口曝露出去。另外一个就是数据挖掘了,因为数据挖掘跟普通的统计学的需求是有很大的差别,多次迭代,达到一个收敛,他对数据的需求第一个就要求你的数据像传统的方式,会严重的在这种多迭代的方情况下,不一定能够出一个很好的结果。我们的过去,刚刚开始成立我们这个平台的时候,大家走的路径可能都差不多,你们有Hadoop,我们很多统计学的需求,我们都可以通过完成,HIVE,我们自己也发现一个开源的,这种立宪任务一个资源任务的调度系统,有一个AZKATRAN做的过程中,我们发现很多问题,第一就是慢,醉枣我们出了一个平台,就是可以把线串起来,然后用HIVE提供给我们的业务人员,一天的数据在的时候,这个时候一天的数据跑的时候可能要跑个把小时,如果说想做一个月的,HIVE根本撑不住,我们九就想有什么办法解决呢,还有一些就是临时性的任务,我们某一个纬度没有整理好,这个时候又面临很多临时的工作,另外一个就是我们数据算法科学家想做一个算法,需要用整个计算平台完成,我们发现当时的架构,基本很难完成他们的要求。这个时候我们就发现了Spark。实际上我们真正关注Spark是在2013年初,基于一个RDB的,我们就开始跟随他,到2013年10月份的时候,我们就想开使用他,我们算法科学家我已经首部了我们,我们逐渐开如引入Spark这个平台,最开始在0.8.0上,最早我们用他的时候,最核心的一点就是他支持迭代运算比较好,可以放在内存当中,做迭代运算就不会有太多,然后用的过程中,我们发现的确是在很多场景,在应用型方面,如果你们很好地掌握,到2014年6月全面拥抱Spark,过去所做的那些计算任务,整个迁移的过程也是我们对我们计算平台的未来或者需求进行梳理的过程,到现在我们实际上开始应该说勾践基于Spark构大数据计算平,包括我们公司过去研发的成为都会融入在里面。选择他的原因,他的速度更快,他相对来讲,比有更好的性能和速度,他的生态系统比较好,因为从去年关注开始,我们今年参加Spark峰会,越来越多的开发关注他,不同的原来Hadoop里面的产品逐渐支持Spark,另外一个就是最原始的动力就是对数据挖掘更好的支持,作为一个围着数据传的公司我们数据挖掘是我们一个很核心的工作,再一个就是Spark的表达能力,远远高于传统的模型,而且任免还有支持Spark streaming。这实际上我们就是我们逐渐演变的大数据平台。地层是一个数据存储层,后面可能会介绍包括,还有一个就是原数据的管理,借鉴了传统的一些数据的理念,对于有一个大数据的平台,元数据的管理是很观关键的,然后这里面会把数据存储进行一个借口的分割,在上面其实有即时查询,有流式计算,有批次计算,还有离线计算,还有数据挖掘,再上面实际上是数据服务的接口,再上面就是我们公司的数据业务,左右还有管理和监控的工具在里面。回到数据存储层,这里面我们也是一个混合模式,我们数据源的来源来自我们自己收集以及合作伙伴交换的数据,甬道的最基础的东西还是HBOSE但是存在计算的时候还是有的问题,把我们大部分的数据开使PARQUET另外我们很多加工的结果,遇到Mongodb,主要是更确切的是支持主持我们的DMP整针对每个设备单条的存储,如果富服务于各个移动互联网广告的话,当然这些数据有可能被返回来,数据计算的基础,还有一个就是我们有一些基于其他的KV做了一些分装,主要还是为了一些高效的数据访问的分装,其实我们现在考虑用它一些常用的基础性的防盗Tachyon里面,让上面的一些共享和使用。这个就是元数据管理,也是逐渐在平台严禁的过程中,因为数据都是基于HCATALOG里面,但这里面发现一个很大的问题,整个公司数据业务部门,不同的技术部门,大家在对数据进行一些信息沟通的时候,就会有一些不对等,这个时候我们就发现需要一个愿数据的管理,我们基于二此分装,我们公司的数据在进入的时候,整个数据引入的时候有一个很好的管理,现在整个的平台,从计算到整个数据的消费,可能会通过获取元数据分析,数据的引入更方便,包括一些都可以依赖于他能够自动化的串联起来,这里面还可以对每个纬度数据进一步的规范化。借口层,地层我们有不同的存储,我们可能将来随着,因为现在做底层存储的开源也越来越多,不同的数据库这样,将来有合适的场景引入到我们这里面来,目前已经对他们进行统一的分装,这样的话,对于我们上层的这些计算的开发者来讲,不需要关心地下有哪些数据的存储,使用的时候更好地能够集中在数据本身,而不是了解底下的存储。即时车查询,SparkSQL现在的标准也不是很好,我们有很多查询不一定能在SparkSQL里面满足,我们考虑扩充他的一些功能,我们即时查询的需求,这里面流式计算,官到我们一个数据总线也好,实际上会防放到一个卡里面,做一些处理一些基础性的计算可以从这里面走。这个是我们公司自主开发的批次计算,他实际上主要是满足现在常用的统计性的需求,多为交叉,对于大数据来讲多维度的作为实际是一个非常好事的过程,从最做我们就有一个需求,实际上他本身没有技术的秘密,我们把索引的应用到里面来,我们BITMAP索引应用进来,然后现在我们也在持续的对我们BITMAP引擎更好地优化,采用更好地便捷化,而且有不错的进展。离线计算,有刚才那些统计计算未必能够满足的需求可以通过这边来,再一个就是数据问挖掘的工作,有SparkMLIB的技术在里面,我们的算法科学家有自己的算法,用很少的迭代就可以通过MR的算法,利用我们的数据集成达到0.9几的计算。数据服务的借口,有哪些业务指标满足他,所以我们会把所有的计算进一步的分装API或者,对于我们业务团队,这样能够减少我们整个数据技术部的每天的工作,借口管理本身是一个互联网公司很关键的我们也是基于开源做了很多自己的工作,能够把我们这些平台运作的时候有时是的报警,任务调度,我们前面提到,我们任务调度的系统,偏离线的调度,支持DAG。下一步的,因为我们公司还是一个围绕大数据转的公司,数据业务越来越多,回到平台的演变,我们会把R集成进来,我们现在的数据科学家,他动SQL,随着将来的业务的进一步发展,可能会越来越多的学统计的同事进来,并不会有很好的开发能力,我们需要从数据里面挖掘更多的价值,我们有底层的算法提供给他们,我们可以考虑把R和我们现在的算法集成,可以由一个比较好的人机交互的系统去用。把我们自己的一些现在已有的计算能力开放出来,最终我们想做一个大数据的平台,本身他是说对业务人员对整个数据科学家非常友好的平台,大家都可以在这个平台上,让数据产生价值,因为我们公司都在使用开源社区贡献的东西,开源社区当中,比如Spark。
主持人:        感谢阎志涛总的分享,已经更高的开发效率在国内得到越来越广泛的应用,尤其本次活动的发起者之一,Spark法国研究元的王家林老师来,王老师的分享会解答我们一个共同关心的话题,为什么Spark是大数据计算的最佳选择呢?有请王老师。
王家林:        谢谢主持,前面诸位嘉宾进行了非常精采的分享,我们在这里考虑的问题,为什么说Spark是大数据计算的最佳选择。其实我们就这个主题,我们主要思考粮店:第一就是大数据计算本身,第二基于Spark我们能构建一个什么样的平台,就是在Spark上我们能够进行更深度的开发。如果了解大数据的人我相信一定会思考一个问题,这个问题就是我们现在为什么这么需要大数据,我觉得可能很多人都没有想清楚这个问题,但如果说互联网企业,向百度、脱腾群,他们肯定是需要计算的,为什么2009年开始全世界大家都突然需要大数据,这里面的根源在于移动互联网,移动互联网数据爆发式的增长后,任何人没有权利去删除用户的数据的,雷军在前一段接受财富杂志采访的时候说:如果小米在两年之内不能充分的挖掘大数据的价值,小米公司会倒闭,其中有一点雷军指出,现在小米每年放在数据方面的存储费大约30亿人民币,而且他直接说在接下来一年我们增长5倍到10倍,所以移动互联网到来,就迫使做移动互联网的扩大数据,这就是投入产出的基本的商业模式,你可能会面临亏损和破产。那我们做大数据到底做哪些事情。这张图给我们的信息是非常明显的个。首先是,这边是AD-HOC进行因为他比较慢,我们就感觉,但真正的批处理的精髓在于及其学图计算,整个谷歌现在的Spark中是Spark内制的算法之一。关于社交,及其学习这可能是用永恒的东西,其实粮店,第一点我们需要对政府的信息进行个性化的分析,对政府进行精准的分服务,第二点我们不需要一个反映迟钝的智慧中心,以前使用Hadoop就向相当于一个人,十分钟甚至更长的时间,这就像一个反映迟钝的人一样,而且更糟糕的是,在我们Hadoop基本就不可用,向相当于一个人的痴呆状态一一样,我们需要一个智慧化的IT中心,我们对速度是有绝对的苛求的,这边实时流处理相信很多朋友都知道,在线的交互,我们数据流进来,图计算进行插叙,交互式的查询,可能会谈,企事业不限于这些,基本就是一个用户把他的业务逻辑输进来,所以总结一下,真个大数据其实三个方面的业务。第一方面就是实时流处这方面,第三方面就是及其学系图计算的,现在做大数据大部分公司,60%左右的公司,基本都SQL方面的,我相信随着时间的推移会不断地改善。既然我们谈Spark的时候,我们前面谈到Spark在一个激战上解决,那我们谈一定绕不开一个东西,就是Hadoop,Hadoop和Spark接触,A WINNING ,而计算,如果你没有历史负担的话,构建一个全新的大数据工薪,中心,如果满足不了你需求的时候,你就可以制定一个算法,机械机机器学算法。这边就是现在Spark的技术堆栈,那他用哪些功能解决所有的问题呢我们在这张图中非常清晰的看见,有SparkSQL,有MLLIB而这四个方面正好就是大数据处理的绝大多数内容,刚才我们嘉宾也提到,有一个R语言,Spark团队正在进行这个方面的工作。这里面有一个重要的特征,他们都是在Spark的RUNTIME上面的,他们都再一个技术堆栈上面的,就是搞数据挖掘的,Hadoop就是现在的,完成这几项的业务的服务,以Hadoop需要多个服务,多个团队,例如我们钢材实时流进入来的,实时进行SQL的查询,但是彼此的操作无法做到。这个优势是目前任何大数据平台都不可取代也无法对比的优势,能够成为一个最终统一大数据计算领域的根本原因之一。这个是它整个围绕他的一些生态系统,下面有很多,观念来看,额外提一个东西就是MLLIB,这是一个比较有特色的技术。这是Spark1.0前后的服务,为什么我们谈一下他的代码堆栈,这么多行的代码,这边SparkSQL不只三四千行,我在这里想重点强调的是他的代码量,所有做技术的朋友都明明白一个事情,如果一个技术能够更精确的解决一个问题,而你这个地方图计算多少代码,七万多行代码,也就是很好驾驭,人类在IT的历史进化中,更简化的方式处理更复杂的问题,而Spark正好提供了这样的需求。如果要深入Spark的内核,一个绝对绕不开的问题,所有都基于RDD,我们说的实时流,图计算,RDD然后就在SQL,也正是因为他有这样一个抽象,并且所有的功能围绕RDD,我们需要这样的一个东西,以前之所以大数据在很多部门推展不开以Hadoop以大数据的计算搞的太复杂了,不可驾驭了。我们需要一个东西,就相当于需要一个苹果手机,可以上网、打电话、打游戏,而Spark基于这个模式,就相当于一部苹果手机,他融合了人民对所有数据处理的需要,而且更美妙的是上网和音乐之间相互配合,他不是一个简简单单把几个农能放在一个SQL上,这个是其他平台做不到,当然现在有很多平台模仿Spark做设计,但是核心在全世界还是看Spark。所以所有的焦点都在RDD如果我们要了解他,必须知道RDD是什么,这个是我们从源码中帮助他们弄出来的一段内容,这边说RDD,什么叫RDD呢,第一九个就是数据集,加入我们有100T的数据,RDD首先代表数据集,第二点风片之后,我们对封片的数据进行计算,就是逻辑视图,他原先的存储了级别,第三点特别重要,也就是说,我们Spark中所有的东西,所有的计算就是产生一个新的RDD,这个RDD会对其他的RDD有依赖,我们处理大数据需要几个步骤,步骤之间如果有依赖关系我们就可以进行优化,而且以前我们还不是很难表述这个关系了,后面出来很多改善的东西。关键就是这三点,我们100T的数据怎么进封片,封片之后我们对每一片的数据到底应该怎么计算,这就是他的,然后就依赖最关键的技术就是第三点。那我们谈RDD有这些特征,RDD有哪些基本的内容,RDD远远不只这些,我们说RDD操作利用MAP我们跟大数据计算框架,我们谈大数据,谈Hadoop,这个东西到底怎么计算我们的数据,所以他的计算模式是一个很粗放的计算模式,不想Spark实现的这么精致,这样的精致就带来我们数据处理的多样性和算法的灵活性,这是我们从论文中抓取的,这是对数据一个又一个计算的状态的记录,但是他不进行执行,假设我们进行MAP之后,过滤之后我们有可能说进行操作等等之类的,这些都不发生计算,真正计算的时候必须产生,这个延迟执行带来一个非常好的事情就是我可以把很多计算步骤绘制成一张图,就是DAG图,然后对DAG图进行优化。这个地方是一个代码的事例,这就是你的数据,我们进行操作,我们每行数据是否包含继续进行的操作,包括SQL的错误,我们看到代码其实很简单的,相当于你开发本地的数据,其实假设你会起他语言的开发,你做Spark的开发完全没问题了,你会的语言上怎么运行。我们看这个代码,其实都是,不过不是CACHE后面,而这个代码的世纪执行的时候,进行计算,也就是说Spark的代码一个就是一个就是的计算过程,整个任务的调度。那就是智能提供了什么计算函数,例如说CACHE之类的,对数据进行计算。这张图其实背后对应的话就类似这张图大家看一下。我们刚刚不是从分布式系统读取数据吗?读取数据是很简单的事情,以存在,以逻辑视图的方式进行封片,因为有很多的操作,然后参与,然后保存到SDF上,大数据本身非常简单,简单到什么地步,大家看下面一张图。这就是整个大数据的概述,真的非常简单是吧?这边我们有很多的原材料,就是大数据的来源,我们对这个数据来源进行某种程度的加工之后,我这边只说了一个步骤,然后再最后可能有一个大数据的产品出来,这就是业务支撑和决策支撑层面的内容,这就是你的食物,跟做饭一样,你需要原材料,所以,你看这个东西,就应该像看这样一个东西熟悉一样的话,那蒙我觉得你对打数据的理解基本没有问题了,图计算之类的算法。所以以后想不明白大数据怎么会事的时候就想一想这样张图。至于Spark而言,我们有代码,这边就有一个级别的东西,他有调动活动,这个是文件数据的管理的,包括内存级别的一些东西,在这个工作人员具体执行的时候,这边说TASK,就有一个TASK去执行,一个任务就,而Spark是一个任务多个虚拟级。这个就是它整个的RUNTIME,我们说五百个机器协同工作,到底怎么协同工作,我相信很多人也是很困惑的,AKKA,就是发消息,让他有工作人员,带着循环机制的县城,主要就是通过AKKA中的,框架肯定是一个生命者,具体受信息然后进行处理,这跟我们平时的工作流程是相同,分布式怎么协调,其实很简单,Spark的心跳也是借助AKKA形成的,就是Spark为什么很稳定,消息处理为什么很稳定的一个重要的方面,为无论是本地和远程,他怎么完成他的屏蔽,这是他的整个的内容。你要运行的时候,他实际上是交给调度活动,第一就是,划分带给TASK,CACHE实际是Spark的一种,我觉得如果你做机器学系,这件事情就是内存运输,这个就是切入就是一个比较好的技巧。这边就是你构建的依赖关系,划分虫从不同的,水红色的部分是很多人之所以使用Spark的最主要的原因,一个RDD的物理视图就是这样的,这就是RDD的一个图,只不过这个图力度有点太粗了,这个F有一个,调度系统这个就不跟大家谈态度,Spark1.0的时候提出的,极大的减少了文件个数,如果你的小文件比较多,你的数据规模比较大可以用这方面的内容。Hadoop是基于磁盘的,Spark是基于内存的迭代,他的血统就是我们LINEAGE里面表达的血统。后面谈了几个子框架这些内容大家可以自己去浏览一下,最后我想了谈一个内容就是刚刚进行的Spark排序的测试,这个信息很重要,重要在什么地方,就可以帮你接触Spark的误区,这个排序是以前Hadoop排序,而Spark从206个节点,在190个节点,234分钟,然后这个Spark是3800个节点,超过7个小时,这说明一件事情,在任何规模的数据计算中,Spark是稳定的,是可靠的,而刚才说明一个问题,Spark可以胜任任意类型的数据计算,这种大数据中心对于任意种类的数据计算,任意规模的计算,目前来看Spark是首选,一个技术堆栈解决所有的大数据问题。这就是我今天跟大家分享的内容。
主持人:        感谢王老师的精彩分享。王老师的分享真的非常的生动,跟我一样对刚才那个汉堡包解剖大数据的图一样,机遇RDD中,SparkSQL,Spark streaming,之间,可以五凤的共享数据和操作,这不仅打造了Spark在打当今大数据领域其他不可皮肌的数据,首选计算平台,但是我们也看到,与Spark的火爆程度却是Spark优秀人才的严重缺失,为了最大宣传和推广Spark技术,我们峰会在今年9月份发起了第一届Spark开发大赛,作为本次峰会的特色活动,我们可以放松紧张的大脑进行本次大会的颁奖大会。李彦宝作为我们的开奖嘉宾。有请李秘书长。
李彦宝:        为了更好地宣传推广Spark技术,2014首届Spark开发者大赛在北京拉开帷幕,本次Spark大赛由联合发起,由我们中国云计算联盟,北京软写,重庆云计算协会协办,这次大赛覆盖了150多个高校,一一共有2348人参赛,也感谢我们幕後的专家评为,今天我们在这里公布一等奖的获奖名单,厦门大学代表对指导教师张德负服。大家的作品是扩散模型中K点子集的挖掘,在这里我们有请我们今天的颁奖嘉宾,有请工信部柳纯录副秘书长颁奖。在这里祝贺我们厦门大学代表对,因为Spark技术相对来说比较前沿一些,尤其在2013年、2014年才普及,从我们评为看他的技术已经很不错了。祝贺厦门大学代表队。感谢柳秘书长。并且我们这次获得1万元奖金,谢谢。
主持人:        非常感谢柳副秘书长在百忙中还支持我们峰会的工作,也嘱咐厦门大学获奖,需要你们在未来的研究道路上获得越来越多的成果。我们知道一个新技术的出现普及和应用以及人才的培养需要社会各方面的努力,同时一个新技术的出现,也为大学生以及创业者带来更多的机会,李力来跟大家分享大数据来临,大学生创业者的新机会。有请李老师。
李力:        今天非常高兴,有机会来这里学习,其实我作为一个大学生的话,我是从研究生接触大数据这一块,目前我们自己的团队以前是从事APP开始,也和Spark桀黠了不解之缘,现在自己已经在创业了,但是在刚开始的时候,我们是一个APP开发团队,现在发展的还算不错,团队中一些核心成员也在向BAT这方面的工作,一起创业做这一块。我作为一个大写生怎么接触Spark这个东西的,我是在两年前左右接触Spark这个东西,还是来源于我课题的需要,我读研要解决一个问题,是实验室刨给我们的,我们实验室是做一个模式识别的,做人连识别。要做一个海量的人面识别,这个事情就比较棘手了,我最开始对大数据这个东西是不懂的,请教我在王毅做大数据的朋友怎么去搞这个东西,这个是非常痛苦的过程,是一个非常迷盲的过程。然后经过我大概几个月的眼,我发现大数据这个Hadoop这个东西,并且我自己在自学,但是后来就跟刚才讲的体验一样的,发现Hadoop的东西不能满足我们的需求,有一个非常大的问题,在人面识别这个匹配的过程中有一个很重要的阶段,叫特征向量对比计算,需要很多迭代的过程中,所以说他Hadoop无法满足我们的需求的,后来我在偶然之间发现Spark这个东西,Spark这种基于内存并发式的计算是能满足我的需求的,并且也在一两年的时间去学习和开发这个国家,刚才王老师给我们看的一些图片,回想起自己一年多,一个人学习Hadoop包括学习Spark的那种感觉,你是很孤独的,但是你会觉得非常开心,虽然别人不懂你,你会发现在需过程中,你在实现以前牙根做不出来,你是非常兴奋和开开心的。今天在这里,刚才各位技术大流做这么多的分享,我也学奥很多,我想分享一下,我在一个高校,再一个985的尾巴,重庆大学不是尾巴的,所以我有一个感受就是孤独,说实话在高校里面,不管是本科海河还是研究生,能完Hadoop这种东西的老师和学生都是很少的,我要来参加因峰会了,他们说这个是什么东西,他说这么高大上,我说你连Hadoop都不知道,因都不知道怎们玩大数据,第二个问题就是我在查学校的时候跟很多同学一样,很迷盲,坚持学这个东西因我学出来以后不知道能做什么事情,我觉得这个是制约我们高校里面不去Hadoop和Spark,我自己再高大数据,知道对学生来说。第三个就是失望,接近十多二十年的技术大流来说,就是会有一个失望,如果我开发APP的话,我马上就科可以战展现给同学,这个东西和数据挖掘,并不能体体现出来,我做一个做技术我自己都说不清楚,我不能在同志之间炫耀,这是一个很重要的认同,这个是我们目前在高校中感干到学生学大数据的问题。包括今年开Spark大会我感到非常的兴奋,我根本想不到Spark这项技术会发展的如此迅速,我只着知道是亚马逊开始在要,国内阿里团队也在使用,我觉得在数据挖掘里面可能是一个未来,能够解决问题上去学习。第二方面我想谈一下展望,第一点我非常认可Spark现在乃至未来的大数据的超级明星,作为一个学生很大的体会学习这两年来,第二块还是眼光问题,说到Spark还是APP,包括安卓来说,在重庆大学学习大数据的时候,学校不会教你安卓开发因为做这个东西少,但是我们自己要去做,现在也是一样的,我觉得这个眼光很重要,三年前你去学APP,对于学生来说,如果你有三年的开发问题,那大数据也是一样,如果你在学校应用两到三年的大数据的应用,所以我觉得通过像Spark亚太峰会包括比赛这种形式,这种数据挖掘的普及也是非常必要的东西,高校人才撕毁的问题。第三块就是创业,我说一下重庆,因为我来北上光进行交流和沟通,我发现现在移动互联网特别的火,会学习移动互联网特别是是现在,那个时候移动互联网还是一个,但是现在你再去玩移动互联网,虽然思维是扩廓的,但是我觉得你通过大数据这块尝试创业的话,可能机会会更好,现在门门槛比较高,并且去发挥你的相信。最说一下Spark大数据的机会,首先谈一下BAT大山,在参加BAT比赛和接触中学到很多,从我个人而言的话剧及学生学大数据上很重要的就是在落地上面,我们如果是个研究生也好,是博士生也好,我很多时候是停留在学术层面,如果将我们这些学术层成果转化成商业兴的东西是很重要的东西,目前位置的话,我个人在做的一个事情就是我发现一个问题,全国大数据,但是在本地化的很多一些公司,一些传统企业,他想做大数据的话,比我重庆的,或者上海的,或者程度成都的成成都的数据里有行业的分析结果,而我们作为一个学生创业者我觉得这是我们很重要的关注东西。再一个就是实践,我们学生在做大数据这快所欠缺的,而目前位置的话,以前我学习大数据的知道看光官方稳当,也是我们非常好的学习的材料,并且把学习这个的技术门槛进一步降低了这是我从做学术到做产品一个转换。自己的公司目前的情况是这样,一个小公司,100多人,技术团队大概30多人左右,现在已经在开公司,但是我相信作为一个极客,我们都会有很多的梦想实现。谢谢。
主持人:非常感谢李总的分享加入到Spark的阵营中。我们都知道Hadoop已经在大数据领域奠定了基石地位,那么Spark和Hadoop将何去何从呢,大数据未来在将会怎么发展,一体化的大数据技术如何选择,这些都是当当下大家最关注的问题,现在我们一起来听听业界大卡的看点。本届峰会的主席汤兵勇为我们主主持今年的,首席架构师,Spark亚太研究员参与今天的讨论,有请各位嘉宾登台。
汤兵勇:各位嘉宾大家好,现在这个时段交给我们伍位我们穆的认任务也很重要,我们刚才提到一个很大的问题,怎么打造一个现在移动互联网所谓一体化、多元化的云计算大数据的怎么开展,我想在座的极为嘉宾,刚才TalkingData的阎志涛,和王老师,我们京东的过总,和高老师先简单的一个人介绍两三分钟,把自己本人的情况简要的介绍,以及对这个问题大的看法。
郭理靖:很高兴参加Spark的峰会,京东内部的建设,包括大数据方面的,也把我们京东内部给我们的合作伙伴和社会开放,我们在做开放的,把京东的数据项我们的专机和合作伙伴开放,我们也在寻求一些大数据的解决方案,因为我们参加的数据和用户数据非常巨大,我们Spark方面也是我们一致寻求Spark这样的工具,比如说,我觉得说,整个大数据在我们开发这快,比较重要的是我们的专家很想看到他的京东上面的实时表现,有多少用户下下单,做活动的时候,不可能等我把数据回收好,我今天搞的,你明天才告诉我结果,但是我我们以前没有特别好的办法,而且我们数据库,我们怎么把实时提供给他,这也是很困扰我们的一个问题。另外一个方面,就是我们在我们这边的应用就是我们有平台的开发,那些软件开发好后在平台上运行,必须拿到商家授权,说我的数据你可以用,如果说我们采取传统的Hadoop的模式,他可可去跑他的结果可能要半天,那用户就崩溃了,为什么我买一个软件为什么不可以马上给我们一个结果呢,因为购买软件Spark可能在10分钟20分钟可以,解决我们实际的一些问题,所以我们云平台,我们京东内部其实在6月份的,3月份的时候接触Spark,在6月份的广泛运用这个东西,这是Spark在我们京东的一两个小场景,我们还有很多技术是基于Spark的,这两个是我们云平台碰到的最大的通电得到的很大的解决。
汤兵勇:你先从现在的角度谈一谈。
高焕堂:我个人是两岸最早做这个的东西人的,去年退休的,退休的时候,日本是试图之,做产品的智慧留下来,所以就出版了一一本书思考软件设计,然后再日本就有一个叫的联盟,他专门做智能检测的,在台湾开始做智能的基地,这个基地就有一天到湖南的栎阳洞庭湖朋友,节就觉得我智能硬件设计,但是将检测在无尘室里面,岳阳又有海关,结果就这样走,走到硬件因为他每一个部件,比如手机里面有摄象头,从芯片,最大的晶圆厂,从经援一直到联想整个体系的关口都要做检测,我就下而且有写台湾才有这个设备,有些是日本才有这个设备,有些是岳阳有这个设备,而且运算速度要快,我回去就换Spark了,我是最新的王老师的粉丝,以前他是我的粉丝,现在我是他的粉丝,所以就走到,所以我就需要一个大数据中心,刚好岳阳市又很支持我,就给我特殊的电价,还有联通,户年连通总部也支持了,就洞庭湖创立一个大数据中心,所以我现在无意中走上了大数据,而且走上了工业4.0,而且我60岁了还突然跑到最前端。
汤兵勇:在座的代表听到我们刚才两位的介绍一定很兴奋,因为前面的嘉宾的主题报告的分享还是从技术层面,大多数都是从有技术背景出来的,我们最关心的就是技术怎么变成上午运作,今天我们的主题就是从技术走向视野,我想通过我们今天的峰会,从视野进一步走向更大范围的商业运用,应用和商务的角度来看,围绕刚才的问题,肯定我们离不开就是现在关心的,云计算大数据,移动互联这些词,也提到了云端和终端的关系,我们是不是再次请极为嘉宾从应用角度谈云计算到大数据的应用。从阎志涛总开始,不要从技术角度讲,我要从应用角度讲。
阎志涛:说到这个问题,我原来是在IBM朋友创立这家公司的时候说你过来吧,随着移动互联网的比较,2011年发展移动互联网和人的是什么关系,移动互联网能够收集到更多的数据,相对传统的互联网跟人的关系跟密切,而PC的时候你工作的时候或者娱乐的时候会用,所以这个数据的价值可能会更多,我们不九不管将来公司会做成什么样,我先进来,实际上确实是,可以说做到现在可能越觉得有感觉了,因为一开始还是摸索,一开始我们能做一些给移动应用开发者提供一些数据,到现在,尤其是今年,大数据这个概念提出来好几年了,到今年大数据要落地,实际上他怎么去落地,你能够让大数据给人解决什么问题,现在最直接的,就是我们现在在做的,帮助移动应用的开发者,因为这里面有很多数据的纬度,能够很好地洞察你们每个人的兴趣,广告是互联网里面一个业务模式,现在我会让你看你感兴趣的广告,不感学兴趣的广告就不用看了,从野外来讲,我们沟通最多的还是银行,实际上他们相对走的是更前一点,考虑怎么让数据参产生更多的价值,数据操作都用,现在他们也在考虑两大数据的架构,实际上我们进入到银行这个领域里面,数据广泛管理平台就是能够把各种数据打通,你数据打通之后就能够帮助他们做新的数据,引入更多第三方的数据,但是数据进去,这么多数据能够产生,数据能够利用起来,能够产生到银行里面去,能做开盘业务,能做更好的信誉风孔,这都是很有意思的事情,从我们公司将来会达到一个数据跨接,把数据流转起来,这是我自己一些比较粗浅的感受。
汤兵勇:非常好,王老师接着说。
王家林:从2009年我们做移动互联网已经是很早的事情了,以移动互联网大家要做什么,大家把数据搜集近来怎么办,肯定需要我们大数据去处理的,现在大家看到大数据处理的一些案例,比如一些所有的社交网络,广泛的运用大数据,可能会对一些交流网站,比如百合网在内的,进入的时候进行一个测试,你填好测试之后你适合深样的异性朋友,现在我们发现,越来越多的公司采用Spark为核心的大数据,当然如果大家没有自己的算法的话,可能要制定自己的算法。当你在看电影,针对你个性化的电影,所以其实包括现在在互联网金融,为我为我们我们这几年谈互联网金融,有了大数据,尤其是Spark这样的平台之后,进行精细的分析,包括你经常在什么地方活动,例如一个经常在三里屯活动的人和在南五环活动的人就不同了,所以我们为什么这几年互联网金融特别火,这背后的根源就跟大数据智能终端的成熟有很大的关心,IT要智能化尤其要依赖大数据,尤其向Spark这样优秀的平台,Spark算法实际上是一个非常理想。
汤兵勇:刚才两位换一个角度这方面应用的背景和前景,大家可以看到,这两年移动互联网的比较趋势是非常惊人了,2013年是移动互联网发展的最重要的一个转折点。会对今年的整个电商和社会的发展有更多的影响,其中有很重要的一个代表工具,就是微信这一块,郭总应该有一定的发言权,因为腾讯的马总很希望微信在社交和电商过程中产生更重要的价值,我看过一个文件讨论,微信已经使用非常广了,通过社交网络情况输入输出,我们也不断地得到大数据,我们的数据也不断地被别人所获取,在电商方面怎么体现,有希望寄托京东,我们借助今天这个机会,郭总稍微透露一点笑咪咪,跟我们谈谈这分方面的体会。
郭理靖:非常关心的,而且给资本市场带来很大的想象空间,为什么能带来很大的想象空间呢?所有天下卖东西,所有的商业都是一个买卖的行为,所百了,大家都想做精准的营销和精准的推荐,那个关系拉好的话就没非常容易,京东我们用最大的平台,我们拥有海量的,拥有海量的商品,我再讲一下,为什么我们光做大数据,为什么数据量会增长非常大,在2013年的时候我们统计了一下京东的数据量,2013比2012年增长乐得6倍,我们销售额也没有增长6倍,第一是因为移动互联网纪记录更多的信息,数据是可以用来做精准营销的,腾讯里面,到2014年跟2013年相比的仍产是增长6倍,就是说大家意识到数据的重要性,再回到微信和京东的话题上面,我们其实在内部做了很多的努力工作,我们跟微信的大数据有很深入的合作,微信拥有很多用户的行为,用户画像,他会把用户按照收入,各种喜好分为类别,我们会根据我们以前用户买这些商品的行为,分成不同的属性,但人的华信和商品的画像一结合的时候,我们可以看到微信入口整个的曝光两,一直在增长,节是我们可以透露的一个数据就是说,那些在微信里面绑定了京东的用户,近半年来的表现就是说他的购物的次数和金额都在上升,就是说我们用户画像和商品画像爆发出来的微粒,我们运用了各式各样的技术,但是Spark是我们很重要的一块,但是具体的数据和具体的细节不是很方便透露,但是我相信在大数据时代来临的时候,一个庞大的用户,精细的用户画像和精细的商品画像一定能够迸发出非常大的能量。
汤兵勇:因为我们每个人都是实际的消费者,我们都离不开点上这个大环境,移动互联网当然代表点上一个新的发展,点电商进入2.0、3.0一定不能回避大数据的重要性,电商的内涵也在不断地阎森,跟不同行业的产业链对接,刚才提到的京东的消费品,也在一想服装类的轻装类的,工业4.0就提到了精准制造,包括云制作的过程,刚才高老师提到的智慧测试云测试有关系,高老师再补充一点你的观点。
高焕堂:因为我长期在日本,和欧洲的西班牙等等,这些地方不像国内一直在追踪人的大数据,我比较专著在物的大数据,因为我看到我们中华民族曾经清朝的时候淑的很惨,不是在人上面,我认为船不坚炮不力,放在大数据决策上面,而且专著在物品的物上,为什么德国专著在物品上做工业4.0,在俄国看到对人的消费行为那么的热衷,我比较不一样的做法我比较专注在物品的检测上,我希望把制造中国,带领引导推动到质量中国,能够带领全世界的人类更安全、更幸福,包括车辆的安全,包括睡觉床铺的安全等等,我觉得这一块大家还不比较热衷,所以我兴趣可以交流。除了人之外还有物可以船坚炮利。
汤兵勇:刚才嘉宾从不同的角度,我个人也是这这样理解,这几个概念是相通的,我想概括一下,是不是这样理解,云计算和大数据是提供后台的数据处理是他最主要的功能,但是我们前台,前台就是我们移动互联网的终端,包括我们物联网的终端,这四个比较新的新技术的相互间的关联就是这样的关系,说的通俗一点云端和终端的关系,说的通俗一点就是前台和后台的关系,无论是在工业制造中间,还是我们商业中间,包括移动支持的互联网方面都是这样做的,因为我们站在中国云计算联盟的角度我们整合了全国四百多家从事云计算应用服务的企事业单位,这两年整合以后,在我们的院士带领下,工信部的柳纯录秘书长对我们的支持,我们月来越考虑到要和前端的移动终端和微时代的有机的结合,我们一方面在做对接,大家有兴趣的话也可以关注我们的网站,叫做中国云计算服务网,我们花了很大起立做这方面的工作,把我们现在最好的东西整合过来,我们下午也会和研究院加强合作共同推我们Spark技术的推广应用。这个技术讨论到现在,我们后后面的话题一定是必须的,我们提到这样的号召,自然有这样一种社会发展的需求,对我们一体化云计算数据的建立自然是非常重要的,这项技术的选择我们也认可了,Spark是我们目前最佳的技术选择,关键是如何进行实践和应用,时间关系我想为了更好地加强互动,给下面台下的代表提两个问题的时间,提跟我们刚才讨论的主题相关的问题,可以请我们在座的五位哪位回答都可以,有吗?
嘉宾提问:        我是做云计算和大数据职业教育的的,因为我们之前做的主要是安卓的移动开发,我想问王老师,Spark这个技术平台,我们学生掌握了,如果光掌握,能不能在这个平台上进行开发。
王家林:如果使用是可以的,但不建议这样,再过更长时间会成为Spark方面的高手,因为他自己的平台是用去写的,你肯定做在Spark里面去做,另外还有一点,我们做大大数据是做数据计算的,另外我估计可能您担心的一点,会了Z学是,函数编程去处理数据,你是在跟机器和数据沟通一样自然。
汤兵勇:谢谢王老师,还有那位有问题。
嘉宾提问:        感谢各位前辈精彩的交流,我是来自银行的,其实一直有有一个疑问,因为感觉银行并不是技术应用的前沿,但是我们银行有非常广阔的客户,也有非常强烈的需求,刚才阎志涛老师讲,有希望进入银行业,我想请教一下,对于银行如何利用这种最新技术来推广自己的业务有什么建议?
阎志涛:因为我原来一直在传统IT,我们很大一部分客户是来自银行,实际上我们最初的应收大部分是来自银行,关于银行信贷,银行在整个IT领域里面应用IT算卜辞不错的行业,其次就是银行,就我目前观察,包含四大国有行,五大行,加上这些股份制银行,大家更多的关注大数据技术,我有很多朋友从乙方到甲方,开始拥抱开源技术,这个技术并不是他们自己开源,现在一些国内的厂商,包括华为,亚信都在给银行提供这些解决方案,基本上就是说我可以把底层的技术,包括Spark技术布置到你们那边,我们就是他的数据平台,能够把你们的这些传统的数据资产,大家都认为数据是资产,管理起来,提供相对来讲偏业务能够使用的工具,去让你们的业务领域知识,能够在大数据落地,实际上从今年我们就开始做这方面的工作,而且跟招行签了一定的协议,实际上就是破与像阿里,包括京东,可能都跟银行能对手,破与互联网公司的经,银行也在逐渐的变化,银行业在拥抱开放的世界,逐渐的有些比较有前瞻性的银行开始使用开放式的架构,包括惠普的那些,采用拥抱这些开源的技术,我相信未来银行肯定是一样的,利用现在的大数据的一些技术,充分利用自己的数据,而且他们是对行行业数据对业外数据一个积极的消费者,包括招行跟我们探讨,移动互联网树立到我他们这里来,这样才能跟上时代的发展,实际上就是服务他们的客户,也就是我们大家。
汤兵勇:非常感谢,也谢谢阎志涛老师的回答,我想我们等下会后大家可以私下交流,在我们进行座谈交流的时候,我想参照某一个模式,用一句话对我们Spark未来的发展和应用谈谈自己的一个期望。
高焕堂:一我还是希望我们除了在追踪消费者之外,不要网巾在物品的物这一块有很大的大数据可以让你来应用。
汤兵勇:谢谢,郭总。
郭理靖:我希望在座的各位将来在Spark上面,用Spark挖掘自己数据的价值,给社会创造更多的价值。
王家林:规模多元化的方面,Spark是最佳选择,我们期待在Spark平台上,一方面解决自己各种业务需,其期待大家改造Spark框架或者贡献Spark代码。
阎志涛:因为现在是大数据的时代,去使用他和贡献出自己的力量,然后去完善它。
汤兵勇:也希望大家加强湖互联互通,共享共制,把Spark和大数据的应用推向一个新的阶段,谢谢大家,今天的会议到此结束。
主持人:在中国和亚太地区得到更加快速的发展,今天上午的演讲我们各位嘉宾从大数据的发展趋势,Spark的应用实践,Spark的内核探索都带来了精彩的分享,我们下午也为大家带来了很多精彩的分享,下午的演讲开始时间是1:30,我们分了三个论坛,论坛二的实时计算,欢迎大家聆听。

上些会场图片和大家分享, 接下来我们会分享峰会上大牛嘉宾们的干货PPT或视频,请大家跟帖互动。
先分享几张照片!

















来自群组: Spark精英汇

f.jpg (286.83 KB, 下载次数: 50)

f.jpg
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞1 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

沙发
发表于 2014-12-8 12:22:15 | 只看该作者
支持一下楼主!
板凳
发表于 2014-12-8 12:44:02 | 只看该作者
不错的大会
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-27 21:15

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表