最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Spark深入视频产业 优化大数据处理

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-31 22:13:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
移动化、大屏化和多元化的发展趋势,让视频网站的竞争日益白热化。在这其中,视频网站的后台技术也成了一个看不见“硝烟”的战场。

在2013年艾美奖颁奖典礼上,Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名,并最终斩获最佳导演和最佳选角两项大奖。Netflix网站根据用户数据发现,一部影片如果同时满足这几个要素,就可能大卖——BBC同名剧、导演大卫·芬奇、老戏骨凯文·史派西。于是有了大火的《纸牌屋》。

移动化、大屏化和多元化的发展趋势,让视频网站的竞争日益白热化。在这其中,视频网站的后台技术也成了一个看不见“硝烟”的战场。

在2013年艾美奖颁奖典礼上,Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名,并最终斩获最佳导演和最佳选角两项大奖。Netflix网站根据用户数据发现,一部影片如果同时满足这几个要素,就可能大卖——BBC同名剧、导演大卫·芬奇、老戏骨凯文·史派西。于是有了大火的《纸牌屋》。

《纸牌屋》的成功背后,大数据到底起到了多大的作用,可能很难用具体的数字来确认。但是可以肯定的是,当前视频网站的发展,已经离不开大数据技术的推动,视频网站自身已经成为这股大潮中的弄潮儿。

优酷土豆集团(下称优酷)专注于视频领域,是中国网络视频行业领军企业之一。优酷从2009年就开始采用hadoop大数据平台,最初只是10多个节点的规模,2013年整个集群节点达到了300个,每天处理数据量达到200TB。

优酷首席技术官姚健曾经表示,对优酷而言,通过用户的每次播放流程,优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块,对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。

“对优酷来说,从网站页面设计、内容推荐到广告投放,都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示,优酷通过对各种数据进行分析处理后,不但能够为广告主呈现出用户行为特征,提供广告投放价值的分析,而且在用户体验优化方面都有很大的帮助。

优酷大数据团队大数据平台架构师傅杰表示,一直以来,优酷都在使用MapReduce和Hive来处理大数据,特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中,优酷发现有一些场景其实并不适合MapReduce,处理效率不尽如人意。

随着优酷业务发展的不断壮大,分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时,处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果,等待时间之长已经有些令人不能忍受。最终,在英特尔公司的帮助下,优酷将Spark引入到了自身的大数据计算框架中,作为整个Hadoop集群的补充。其效果还是相当令人满意的,以图计算为例,相同的数据量,在以往的平台上需要80多分钟,在4节点的Spark集群上,用时只需要5分钟左右。

Spark是一个通用的并行计算框架,由伯克利大学的AMP实验室开发,已经成为继Hadoop之后又一大热门开源项目。相比于Hadoop,Spark的优势在于:

1.     Spark的中间数据放在内存中,对于迭代运算效率比较高:弹性分布式数据集(RDD)作为原始数据的抽象,和一些数据保存在内存中缓存供以后使用。省去了MapReduce大量的磁盘IO操作。这对于迭代比较常见的机器学习算法来说,提升效率比较大。

2.   Spark比Hadoop更通用:Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活。

《纸牌屋》的成功背后,大数据到底起到了多大的作用,可能很难用具体的数字来确认。但是可以肯定的是,当前视频网站的发展,已经离不开大数据技术的推动,视频网站自身已经成为这股大潮中的弄潮儿。

优酷土豆集团(下称优酷)专注于视频领域,是中国网络视频行业领军企业之一。优酷从2009年就开始采用Hadoop大数据平台,最初只是10多个节点的规模,2013年整个集群节点达到了300个,每天处理数据量达到200TB。

优酷首席技术官姚健曾经表示,对优酷而言,通过用户的每次播放流程,优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块,对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。

“对优酷来说,从网站页面设计、内容推荐到广告投放,都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示,优酷通过对各种数据进行分析处理后,不但能够为广告主呈现出用户行为特征,提供广告投放价值的分析,而且在用户体验优化方面都有很大的帮助。

优酷大数据团队大数据平台架构师傅杰表示,一直以来,优酷都在使用MapReduce和Hive来处理大数据,特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中,优酷发现有一些场景其实并不适合MapReduce,处理效率不尽如人意。

随着优酷业务发展的不断壮大,分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时,处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果,等待时间之长已经有些令人不能忍受。最终,在英特尔公司的帮助下,优酷将Spark引入到了自身的大数据计算框架中,作为整个Hadoop集群的补充。其效果还是相当令人满意的,以图计算为例,相同的数据量,在以往的平台上需要80多分钟,在4节点的Spark集群上,用时只需要5分钟左右。
Spark是一个通用的并行计算框架,由伯克利大学的AMP实验室开发,已经成为继Hadoop之后又一大热门开源项目。相比于Hadoop,Spark的优势在于:

1. Spark的中间数据放在内存中,对于迭代运算效率比较高:弹性分布式数据集(RDD)作为原始数据的抽象,和一些数据保存在内存中缓存供以后使用。省去了MapReduce大量的磁盘IO操作。这对于迭代比较常见的机器学习算法来说,提升效率比较大。

2. Spark比Hadoop更通用:Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活。



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

沙发
发表于 2014-11-24 11:42:09 | 只看该作者
能否对视频进行索引。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-6 13:32

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表