Spark深入视频产业优化大数据处理

发表于 2014-10-31 22:13:52

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

移动化、大屏化和多元化的发展趋势，让视频网站的竞争日益白热化。在这其中，视频网站的后台技术也成了一个看不见“硝烟”的战场。

在2013年艾美奖颁奖典礼上，Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名，并最终斩获最佳导演和最佳选角两项大奖。Netflix网站根据用户数据发现，一部影片如果同时满足这几个要素，就可能大卖——BBC同名剧、导演大卫·芬奇、老戏骨凯文·史派西。于是有了大火的《纸牌屋》。

移动化、大屏化和多元化的发展趋势，让视频网站的竞争日益白热化。在这其中，视频网站的后台技术也成了一个看不见“硝烟”的战场。

在2013年艾美奖颁奖典礼上，Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名，并最终斩获最佳导演和最佳选角两项大奖。Netflix网站根据用户数据发现，一部影片如果同时满足这几个要素，就可能大卖——BBC同名剧、导演大卫·芬奇、老戏骨凯文·史派西。于是有了大火的《纸牌屋》。

《纸牌屋》的成功背后，大数据到底起到了多大的作用，可能很难用具体的数字来确认。但是可以肯定的是，当前视频网站的发展，已经离不开大数据技术的推动，视频网站自身已经成为这股大潮中的弄潮儿。

优酷土豆集团（下称优酷）专注于视频领域，是中国网络视频行业领军企业之一。优酷从2009年就开始采用hadoop大数据平台，最初只是10多个节点的规模，2013年整个集群节点达到了300个，每天处理数据量达到200TB。

优酷首席技术官姚健曾经表示，对优酷而言，通过用户的每次播放流程，优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块，对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升，都起到了关键作用。

“对优酷来说，从网站页面设计、内容推荐到广告投放，都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示，优酷通过对各种数据进行分析处理后，不但能够为广告主呈现出用户行为特征，提供广告投放价值的分析，而且在用户体验优化方面都有很大的帮助。

优酷大数据团队大数据平台架构师傅杰表示，一直以来，优酷都在使用MapReduce和Hive来处理大数据，特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中，优酷发现有一些场景其实并不适合MapReduce，处理效率不尽如人意。

随着优酷业务发展的不断壮大，分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时，处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果，等待时间之长已经有些令人不能忍受。最终，在英特尔公司的帮助下，优酷将Spark引入到了自身的大数据计算框架中，作为整个Hadoop集群的补充。其效果还是相当令人满意的，以图计算为例，相同的数据量，在以往的平台上需要80多分钟，在4节点的Spark集群上，用时只需要5分钟左右。

Spark是一个通用的并行计算框架，由伯克利大学的AMP实验室开发，已经成为继Hadoop之后又一大热门开源项目。相比于Hadoop，Spark的优势在于：

1. Spark的中间数据放在内存中，对于迭代运算效率比较高：弹性分布式数据集（RDD）作为原始数据的抽象，和一些数据保存在内存中缓存供以后使用。省去了MapReduce大量的磁盘IO操作。这对于迭代比较常见的机器学习算法来说，提升效率比较大。

2. Spark比Hadoop更通用：Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，他们把这些操作称为Transformations。这些多种多样的数据集操作类型，给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的分区等。可以说编程模型比Hadoop更灵活。

《纸牌屋》的成功背后，大数据到底起到了多大的作用，可能很难用具体的数字来确认。但是可以肯定的是，当前视频网站的发展，已经离不开大数据技术的推动，视频网站自身已经成为这股大潮中的弄潮儿。

优酷土豆集团(下称优酷)专注于视频领域，是中国网络视频行业领军企业之一。优酷从2009年就开始采用Hadoop大数据平台，最初只是10多个节点的规模，2013年整个集群节点达到了300个，每天处理数据量达到200TB。

优酷首席技术官姚健曾经表示，对优酷而言，通过用户的每次播放流程，优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块，对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升，都起到了关键作用。

“对优酷来说，从网站页面设计、内容推荐到广告投放，都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示，优酷通过对各种数据进行分析处理后，不但能够为广告主呈现出用户行为特征，提供广告投放价值的分析，而且在用户体验优化方面都有很大的帮助。

优酷大数据团队大数据平台架构师傅杰表示，一直以来，优酷都在使用MapReduce和Hive来处理大数据，特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中，优酷发现有一些场景其实并不适合MapReduce，处理效率不尽如人意。

随着优酷业务发展的不断壮大，分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时，处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果，等待时间之长已经有些令人不能忍受。最终，在英特尔公司的帮助下，优酷将Spark引入到了自身的大数据计算框架中，作为整个Hadoop集群的补充。其效果还是相当令人满意的，以图计算为例，相同的数据量，在以往的平台上需要80多分钟，在4节点的Spark集群上，用时只需要5分钟左右。

Spark是一个通用的并行计算框架，由伯克利大学的AMP实验室开发，已经成为继Hadoop之后又一大热门开源项目。相比于Hadoop，Spark的优势在于：

1. Spark的中间数据放在内存中，对于迭代运算效率比较高：弹性分布式数据集(RDD)作为原始数据的抽象，和一些数据保存在内存中缓存供以后使用。省去了MapReduce大量的磁盘IO操作。这对于迭代比较常见的机器学习算法来说，提升效率比较大。

2. Spark比Hadoop更通用：Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，他们把这些操作称为Transformations。这些多种多样的数据集操作类型，给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的分区等。可以说编程模型比Hadoop更灵活。

from：http://www.raincent.com/content-85-2939-1.html

发表于 2014-11-24 11:42:09

能否对视频进行索引。

帐号		自动登录	找回密码
密码			立即注册

Spark深入视频产业 优化大数据处理

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1

Spark深入视频产业优化大数据处理