最具影响力的数字化技术在线社区

乔帮主 发表于 2015-1-4 14:44:58

视频+21页PPT重磅发布:Mariana—腾讯深度学习平台的进展与应用

本帖最后由 乔帮主 于 2015-1-9 14:27 编辑

邹永强,腾讯数据平台部精准推荐中心深度学习方向负责人邹永强目前负责腾讯深度学习平台Mariana设计,开发与应用。已经成功支持微信语音识别,微信图像识别,正在开展广点通图文广告点击率预估提升工作。有丰富的自研分布式文件系统开发和数千台服务器运营经验,具备领导设计和开发大数据并行处理解决方案经验。拥有11项专利,涉及并行机器学习平台、分布式文件系统和分布式数据库。曾获PDCAT2008最佳论文奖和NPC2010最佳论文奖提名,近期研究工作发表于国际顶级学术会议 VLDB2014。邹永强2010年于中科院计算所获分布式系统方向博士学位。记者:您所在的公司,都曾使用过哪些大数据技术?您对这些技术满意的地方和不满意的地方分别有什么?邹永强:腾讯公司有多个部门在广泛使用多种大数据技术。以数据平台部为例,有TDW作为分布式数据仓库提供增强的Hive功能;有Gaia提供分布式资源管理;有HBase作为分布式数据库;有全内存的分布式key-value系统TDE;利用Storm完成流式计算;利用Spark完成机器学习任务;利用分布式消息系统完成可靠的消息分发;有Mariana提供深度学习的CPU集群框架和GPU并行框架。上述技术令人满意的地方在于生态系统造就了技术的快速发展,对支撑业务系统发展起到了重要作用,这些包括了开源社区和公司内同事的共同努力。腾讯也将TDW开源了,以将腾讯对Hive系的改进回馈社区。上述每项技术都有或多或少的问题,因为涉及的技术比较多,每个技术的问题不尽相同,我在此不一一列举。共性的问题是在支撑腾讯的数据规模时,已有系统难以提供足够的性能、可靠性和易用性支持,往往需要对系统进行深度定制和优化。记者:根据您的了解,目前类似的企业中,在数据方面,遇到的最大困难是什么?邹永强:目前数据方面的困难已不再是海量数据的存储和离线分析,而是数据的实时化处理,以及通过机器学习和深度学习提取出有业务价值的信息,从数据产生智能。以深度学习为例,对软件、硬件、开发者都有一些新困难:
[*]软件方面,急需深度学习方面的公共支撑的软件框架,以及算法库,帮助完成快速的模型训练和应用开发;
[*]硬件方面,深度学习往往是计算密集型,需要高计算密度的硬件设备,包括GPU、FPGA,以及其他的新型硬件;此外,由于深度学习做大规模并行计算的需求,导致对高性能网络的需求与日俱增;
[*]开发者方面,首先需要深刻理解深度学习的高性能计算系统和Hadoop等大数据处理系统的差异,前者计算密集,后者数据密集,由此带来的一系列硬件选择、软件系统设计、编程方式等显著差异。其次,深度学习的系统开发需要算法研究和系统研究的有机结合,需要算法和系统共同设计,共同改进,两者缺一不可。
记者:在大数据领域,目前还有哪些技术是您正在观察和研究的,为什么您看好这些技术?邹永强:从腾讯的数据平台部的情况看,目前关注的大数据技术集中在下述方面:
[*]数据存储和处理,包括了Hadoop、Hive、HBase,以及腾讯的Gaia等;
[*]实时计算,包括了Storm、Spark、Kafka,以及腾讯的分布式消息系统等;
[*]深度学习和机器学习,包括DistBelief、Adam、GraphLab,以及腾讯的Mariana等。
此外,对领域的诸多技术我们也在持续而广泛的关注。我个人看好技术的理由通常是有明确而重要的要解决的问题,有漂亮的设计与实现,有活跃的社区等。Mariana针对腾讯多种应用,打造了三套框架:1)Mariana DNN:深度神经网络的多GPU数据并行框架 ;2)Mariana CNN:深度卷积神经网络的多GPU并行框架 ;3)Mariana Cluster:深度神经网络的CPU集群框架。Mariana基于GPU集群进一步提升模型规模和训练性能。Mariana在微信语音识别、微信图像识别均已成功落地应用,在图文类效果广告点击率提升方面也取得初步应用。简介:2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。腾讯数据平台部精准推荐中心深度学习方向负责人邹永强发表了题为“Mariana:腾讯深度学习平台进展与应用”的主题演讲,他首先介绍了腾讯深度学习的应用需求。在谈到腾讯深度学习平台的挑战时候,在他看来主要包括:深度神经网络模型复杂,训练数据多,计算量大深度神经网络需要支持大模型 深度神经网络训练中超参数多,需要反复多次实验基于以上的挑战他们构建了腾讯深度学习平台Mariana,它的目标首先是通过并行加速计算;第二通过模型拆分支持大的模型;第三构建通用的框架简化代码的编写加速实验。对Mariana提出三大框架,第一个MarianaDNN,这是深度神经网络GPU运行的框架;第二个是MarianaCNN;第三个MarianaCluster,它们主要应用就是语音识别、图像识别和广告推荐。演讲视频:http://subject.csdn.net/flvplayer1.swf?vcastr_file=http://v1.csdn.hudong.com/CSDN_Live/269/2014/20141214-BDTC-zouyongqiang.flv&IsAutoPlay=1&IsContinue=0&LogoText=v.csdn.hudong.com&BufferTime=3
完整PPT下载: 链接: http://pan.baidu.com/s/1ntojVIh 密码: velg
Spark精英汇

peterlee110 发表于 2015-1-4 16:14:16

腾讯强大,深入学习

幸福的小猪 发表于 2015-1-6 10:29:49

学习中·············

jaldd 发表于 2015-1-6 13:29:12

学习学习。。。。。。

adamzyx 发表于 2015-1-6 22:35:14

谢谢分享,学习

TomTang 发表于 2015-3-4 14:04:15

谢谢分享,里面的内容对我获益良多

hellowhl 发表于 2015-3-12 15:21:28

非常感谢 正是我需要的

大小狮艾 发表于 2015-4-8 18:19:43

腾讯大数据应用的实践,值得学习

wyuan0908 发表于 2015-5-11 23:52:32

xialiai kan kan

wyuan0908 发表于 2015-5-11 23:52:53

好东西,下来看看
页: [1]
查看完整版本: 视频+21页PPT重磅发布:Mariana—腾讯深度学习平台的进展与应用