最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

22张PPT让你了解影视大数据的来源、方法论和应用案例

[复制链接]
跳转到指定楼层
楼主
发表于 2015-1-18 18:16:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
《影视大数据》是RONG系列论坛第一场——大数据与新闻传播专场论坛中的议题,主讲人为艾漫智汇科技有限公司首席技术官郭锐先生。
主题:数据研究院RONG系列论坛--大数据与新闻传播
时间:2014年12月26日
地点:新闻与传播学院204会议室
主办单位:清华大学数据科学研究院、清华大学新闻与传播学院
赞助单位:贵阳日报传媒集团旗下"数据观"

内容摘要:
第一,北京艾漫智汇科技有限公司大数据的来源和方法论。
第二,北京艾漫智汇科技有限公司做影视大数据的案例。
第三,郭锐自己的一些观点。

演讲正文:
这是一个好的时代,在这个时代需要我们从事大数据研究、从事产业开发的能够齐心协力去从各个领域找到一个能让大数据从云端、从学术、从概念到落地的途径。今年是我入学二十周年,我也是计算机系的校友,是李老师的师弟。今天非常高兴结合我在计算机方面学习的知识,应用到一个跨界的领域——电影、电视行业的应用。

下面我讲一下艾漫智汇是如何做影视大数据的。我们的数据来源主要是来源于互联网,数据主要是从论坛、新闻、博客、贴吧、纸媒的电子版、微博。首要的工具是各种各样的爬虫,需要适应不同类型的网站,有通用的、定向的。现在可以通过微信用搜狗进行搜索了,我们也用了搜狗微信公众帐号搜索的数据来源。我们涉及的包括电影、电视、音乐、艺人等等在文化产业领域里面各种研究的对象。在这里面我们会对这些对象进行底层的分门别类的整理。论坛下面的数字是我们覆盖的媒体的数量,新闻站点有3200多家,微博主要是新浪微博,纸媒主要指纸媒的电子版。我们针对各个产业的对象为索引,对他们进行持续的、不间断的抓取和底下数据流持续的分析、挖掘,最后出来我们的结果。

这是我们平台整体的技术架构。大体上可以分成三个层面:底层的数据处理层、数据挖掘层、业务应用层。
为什么大家做的结果都不一样呢?我认为很大一部分就是从数据来源开始,大家用的就不是一个数据来源,或者大家没有办法得到一个统一的数据来源。大家也是用不同的抽样方式,标准也缺乏统一。无论是做研究还是做产业,遇到的困扰都是我们缺乏一个持续的、稳定的、可靠的数据来源。我们前面讲的数据来源,我们是要不断做纠正、整理、反馈的。我们本着科学严肃的态度做数据的抓取和整理。但是不可避免会遇到一些数据上的不纯净,或者是数据的干扰、数据的噪音,从大的产业来讲,阻碍中国大数据产业发展的很重要的因素就是数据来源不透明、不规范。国人缺乏共享意识。  美国为什么大数据走在一个非常健康的产业道路上呢,就是因为他从国家层面提倡公开透明共享的大数据精神。现在中国在社会和政治经济产业发展的情况下,越来越向开放透明的方向在走。这是一个非常利好的趋势。
建立了爬虫体系以后,我们还有各种各样的数据清洗,我们整体的数据都是来自于文本,文本挖掘是最主要的挖掘方式,文本抽取格式化,对于一些网页要做转码,对于下载的网络数据要进行资料的存储、清洗、过滤,找到最基本的用户关系。数据监控层面要做到数据的监控机制,保证我们的数据能够7乘24小时不间断的继续下去。当数据获取到足够量的时候,我们才能进行挖掘,因为做文本挖掘的时候,没有足够量的数据,你挖出来的东西是不准确的,也不会得到有价值的信息。
数据挖掘主要针对口碑挖掘、事件传播分析、舆情预警,对于我们研究对象我们会建立一个知识图谱。具体到电影行业,哪些艺人参与过哪些电影,这个艺人的别名是什么,上下文提及的关系是什么。特别是在娱乐的行业,比如是文章,这就是一个很大的歧义的人,也可能是文章这个名词,也可能是这个人。包括成龙。有一部电影叫《楼》,还有一部电影叫《风暴》,这些跟常用词在一起,歧义非常大,我们要进行识别之后,建立一个稳定关系对象。每一篇文章过来都要进行对象识别,进行指数计算以后,会出现一系列的指标。还有文章去虫、聚类,这些都是我们挖掘好的技术模块。
我们做的领域只是大数据分析平台一个垂直领域之一。我们可以在这个领域之上,再加上一些新的数据来源和新的领域知识库,其实我们可以切换作其他领域的。未来我们也可能会做其他一些领域。目前我们还是专注于影视。在业务层,通过对于这些对象的挖掘结果,我们可以传递到业务层面,或者我们有对外提供正式商业服务的SAAS的服务,用户可以登陆进来看到每一天电影的状态,明星艺人的动态。
现在我们提供的业务范围和我们的指数是息息相关的。这是经过我们对行业的理解,加上对数据挖掘的结果提取出来的指数。
媒体关注度是反应媒体对于我们娱乐对象的整体曝光的情况,比如说一个电影或者一个艺人,他在纸媒上、在互联网新闻、在网络视频中曝光的到底是什么样的程度,对于我们来说,他经过了去虫、实体识别。百度指数是关健词为主。在百度上搜《风暴》,可能是反腐风暴、热带风暴,在我们这里就是各个媒体来源的加权系数。我们的计算还是挺公开的,我们对客户都会说每个指数是怎么计算的,怎么加权的,最后得到一个媒体的关注度。
公众影响力是跟媒体关注度相对应的。前一个反应的是对象公关层面做的怎么样,它的影响做的怎么样,在媒体的传播做的怎么样。后一个公众影响力反应的是从普通大众的言论,他提及这部电影的情况。来源是来自于web2.0,社区、博客的评论。我们包括豆瓣的评论、时光的评论、每个视频网站的视频下面的评论。
观影期待指数,这是进一步的数据挖掘,表达的是网友愿意看这个电影的指数。
好评率,从12年开始,电影或者是演员的好评是如何变化的,我们可以很明显的看到经过那个事件变化是怎么样的。比如说文章经过出轨门事件,他的好评率是下降的。一个电影会有画面、声音的好评率。一个艺人会有外貌、人气、艺德、演技等等细分纬度的好评率。
五大门户首页曝光量。现在我们曝光量已经大大扩展,已经可以对50家左右媒体和500家左右纸媒的媒体每隔五分钟不间断的扫描,可以得到每个对象会在媒体上出现的次数,他的曝光、停留时长。

我们现在服务对象主要是影视版权方、电视视频网站、营销或者代理机构。他们是上下游的关系,最上游的是影视版权方,我们会从商业立项和版权售卖等等方面给他们支持。对于电视台、媒体、视频网站来讲,他会有版权购买决策,腾讯是我们重要的合作伙伴,他的自制剧、自制综艺节目,他也是希望对商业立项的时候有一个数据支持。对象营销来讲,我们认为是大数据目前最能够立竿见影的一个方面。对于营销效果的评估、营销策略的制订是我们业务最大的部分。

下面简单讲一下我们做的案例。每个人分析大数据的角度不同。大家分析的角度,他最终用这个数据来干吗,会有不同的认识,导致分析的结果不一样。我们为这两个客户在做案例的时候,他们很多情况下会借助社交媒体或者是新媒体做营销、宣传。或者前期做样本分析,或者是立项时候决策的支持,他们会更加依赖,他们能够接受你的样本或者你的数据来源主要来自于社交媒体,我们目前比较靠谱的社交媒体来源就是新浪微博,因为微信相对比较封闭。
电影有一个类型片的属性特点,青春片或者艺术片或者现实题材片,在这些题材背后,他们覆盖的受众是有天壤之别的。比如说《小时代》的导演郭敬明也是新生代的作家,他转型做导演。《深海挑战》是大导演卡梅隆做了3D的海洋的纪录片。他们背后的受众会有什么不同。

按照我们分析的结果,《小时代》女性受众78%。南方省份比较多。71%的好评来自于90后。很多都是90后的女生相约一起看《小时代》,而且她们是看《小时代》的系列片。她们的属性:娱乐、音乐、电影、时尚是他们关注的主要类别。他们关注的品牌,有一些奢侈品或者是大牌的品牌。电商方面比较喜欢美丽说、蘑菇街。APP喜欢用美图秀秀、啪啪,喜欢听韩流音乐。这都说明《小时代》是电信的拍给少女看的青春题材的片子。

《深海挑战》是截然不同的,观众是男性为绝大多数,70、80后是主力人群。
我们在影片内容方面提供决策的建议和支撑。我们为《小时代》提供全程的决策服务,我们给他演员的选角色、排片、营销做了一系列的辅助。《北京爱情故事》我们在他剧本构思的后期,受邀请为他进行了数据分析。

《小时代》1和2的时候,有一个演员叫李悦铭,李悦铭是一个比较重要的角色,是里面杨幂扮演的女主角的男友。但是他的负面口碑是非常大的,在负面排行榜里面他领先其他很多。在他的各种分析里面有很多非常尖锐的,比如说丑绝人寰。最后3、4里面李悦铭这个演员就被替换掉了。
  我们还会提供持续的口碑跟踪,他整体给人的公关形象。这至少在一定成为上改变原来电影主要是导演根据他的个人喜好选角的状况。我们的数据库里面有几万名艺人的基础资料,他的作品、他几年以来的口碑跟踪。这些都会给导演和剧组进行挑选演员时候进行支持。

在《北爱》案例的时候,我们跟他在剧本制作阶段的时候进行了数据分析,那个时候他们比较困惑的是大家到底怎么谈论他。我们针对北京、爱情,主要在微博上抓取,通过视频网站。《北爱》在电视剧每一集播出的时候有很多评论,之后我们发现提及比较大的话题,第一是房子与爱情。第二,爱情如何保鲜。这些话题为剧组人物角色定型、角色筛选提供了有力的支持。最后在电影里面第一个桥段就是房子与婚姻的纠结。在播出后好评率最高的桥段是刘嘉玲和梁家辉扮演的一段中年夫妇面对爱情危机的故事。通过这些话题,我们为剧组提供了剧本方面决策支持。

电影营销的支持,你面向什么人在什么时间,通过什么渠道以什么内容触达对方,能够给他产生心灵共鸣的方式,达到你营销的方式和目的。在电影行业我们会针对他的数据分析和我们给他决策建议。

《小时代》的受众就是90后宅基腐小女生,她们对90后的小帅哥比较感兴趣,现在叫小鲜肉。顾源,也就是柯振动扮演的角色,他洗澡的桥段,提及上的排名在第二,网友评论中到处充斥着对于他外貌、肌肉的评论。我们给发行方的建议是把裸上身作为一个重要元素放在电影宣传的平面。所以他们在第二、第三部开始,以这个为体错做了大量物料的内容。传播的反响和口碑提及率都是非常好的。

在各种媒体之间他是怎么传播的,在哪个时间段从一个新闻站点传播到另外一个新闻站点,它的传播路径是什么样的。我们经过分析以后,会提供一个传播效率的指数。被转载的次数和原始稿的次数作为比较。现在虽然社交媒体越来越重要,但是传统的门户网站和大的官方网站还是有非常大的影响力。这些影响力可以被充分利用。我们应该结合各种互联网媒体、新媒体、传统媒体一起来做事件的追踪,对于每个阶段传播效率的跟踪。
大数据对影片发行策略的支持。你应该在什么样的城市作为重点票仓城市。我们给出建议的城市跟最后《小时代》统计的票仓诚实的重合度在85%以上。

媒体关注度和观影期待会给营销方指导。这个点,高的媒体关注度,但是观影期待很低。他可能花了很多精力,很多的代价,使得他的传播效率在媒体中还是非常高的。但是观众对他并不买单,引起他的观影期待的愿望并不多。这是说他的营销效果是事倍功半的。另外一个点是低的媒体关注,但是观影期待很高。我们认为这个效果还是不错的,他起到了事半功倍的效果。共同被关注的影片是什么,哪些营销内容引起了他的关注。这个点是《小时代》发布蔡依林的MV,下面这个点是杨幂现身的新闻,数据显示蔡依林对现在90后女生来说有点老了,她们更喜欢杨幂。

下面讲一下我从事影视大数据研究之后探讨的心得。我们认为大数据将成为一个核心竞争力。从我们实际经验和我们和客户交流的结果来看,电影营销应该会最先应用到大数据。如果应用到大数据,会起到立竿见影的作用。最先能够检验他的效果。我们的用户会成为主导我们产品最重要的来源,他们会成为真正的上帝。通过大数据可以让我们知道他们的上帝在想什么。因为互联网、因为社交媒体在90后不断兴起,成为一种非常普遍的生活方式,所以他们会越来越多的在社交媒体上表达观点。通过大数据可以为90后量身定制产品,借助互联网产品,影视剧从艺术品变成产品。在影视剧全周期大数据都会产生作用,好莱坞也给我们良好的借鉴。  可以借助大数据实现艺术创作向工业流程的升级。

希望整合与开放,希望越来越多的数据源让我们厂商获得。也希望与越来越多的学术机构有良好的合作,在整合、融合、合作方面进行创新,能够推动大数据产业的发展。我们也希望能够为中国影视产业做出一些微薄的贡献。谢谢大家!





楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-18 07:28

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表