最具影响力的数字化技术在线社区

开启辅助访问合作方案投稿需求拼课切换到宽版

1 2 3 4 5

168大数据»社区 › 0F CDO学堂 › 资料中心 › 重磅！50页PPT揭秘腾讯大数据平台与推荐应用架构

发新帖

上一主题

下一主题

开启左侧

重磅！50页PPT揭秘腾讯大数据平台与推荐应用架构

电梯直达

跳转到指定楼层

楼主

发表于 2014-12-2 14:13:08 | 只看该作者 |只看大图回帖奖励

回帖奖励

|倒序浏览 |阅读模式

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

2014年10月25日，由eBay、CSDN共同举办的“大数据峰会”将在上海豫园万丽酒店举办。腾讯T4技术专家、数据平台部精准推荐中心总监李勇，以“腾讯大数据平台与推荐应用架构”作为峰会的结尾。

内容简介：

腾讯的月活跃用户8.3亿
微信月活跃用户4.4亿
QQ空间月活跃用户6.5亿
游戏月活跃用户过亿

如今腾讯的数据分析已经能做到始终“不落地”，即全部的实时处理。腾讯大数据平台有如下核心模块：TDW、TRC、TDBank、TPR和Gaia。简单来说，TDW用来做批量的离线计算，TRC负责做流式的实时计算，TPR负责精准推荐，TDBank则作为统一的数据采集入口，而底层的Gaia则负责整个集群的资源调度和管理。李勇还特别强调了数据平台体系化是应用基础，数据应用商业化是价值导向。

数据平台体系化是应用基础，数据应用商业化是价值导向。

腾讯深度学习平台的挑战

深度神经网络模型复杂，训练数据多，计算量大

模型复杂：人脑有100多亿个神经细胞，因此DNN的神经元和权重多
训练数据多：大量训练数据才能训练出复杂模型
 微信语音识别：数万个神经元，超过50,000,000参数，超过4,000,000,000样本，单机训练耗时以年计，流行的GPU卡需数周

深度神经网络需要支持大模型

 更深更宽的网络能获得更好的结果
 以图像识别为例，增加卷积层的filter数量，加大模型深度等，可获得更好的模型质量

 深度神经网络训练中超参数多，需要反复多次实验

 非线性模型：代价函数非凸，容易收敛到局部最优解
 敏感的超参数：模型结构、输入数据处理方式、权重初始化方案、参数配置、激活函数选择、权重优化方法等
数学基础研究稍显不足，倚重技巧和经验

腾讯深度学习平台Mariana

 腾讯有广泛的深度学习应用需求，其挑战如下

 模型复杂，训练数据多，计算量大
 需要支持大模型
训练中超参数多，需要反复多次实验

 Mariana腾讯深度学习平台提供三个框架解决上述问题

 Mariana DNN: 深度神经网络的GPU数据并行框架
 Mariana CNN: 深度卷积神经网络的GPU数据并行和模型并行框架
Mariana Cluster: 深度神经网络的CPU集群框架

 Mariana已支持了训练加速、大模型和方便的训练作业

 微信语音识别6 GPU做到4.6倍加速比
微信图像识别4 GPU做到2.5倍加速比，并支持大模型

 Mariana已成功应用到微信语音识别和微信图像识别，并在广点通广告推荐的点击率预估中积极尝试

演讲视频查看>>>

大数据平台, 推荐应用架构, 腾讯

楼主热帖

分享到: QQ好友和群 QQ空间 腾讯微博 腾讯朋友

收藏0 转播分享 淘帖0 赞0 踩0

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解，与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家，该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意，并添加本文出处。
4.本站所收集的部分公开资料来源于网络，转载目的在于传递价值及用于交流学习，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务，本站概不负责，亦不负任何法律责任。
6.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源，若标注有误或遗漏而侵犯到任何版权问题，请尽快告知，本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

回复

使用道具举报

发新帖

站长推荐 /1



与数十万数据精英亲密接触



关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号 ) |申请友情链接

GMT+8, 2024-4-27 05:07

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表