168大数据

标题: 可视化分析2015年中国内地电影总票房Top25 [打印本页]

作者: 168主编    时间: 2016-1-28 21:05
标题: 可视化分析2015年中国内地电影总票房Top25


注:本文案例数据来自于艺恩电影营销智库
作者:温水根    本文链接:http://www.xueqing.cc/cms/article/115
从网页抓取数据
方法一:使用XML包中的readHTMLTable函数抓取网页表格数据。
方法二:如果用的是chrome浏览器,可以安装一个名叫Table Capture的插件,自动抓取网页表格数据。通过粘贴板或者导入到google的电子表格并下载到本地后,将数据加载到R
本文使用方法一。在windows中,得到的数据会出现中文列变量名乱码(对列变量重新命名就好了,linux不会)。
附:
排名:  影片名                              类型     总票房(万)  平均票价 场均人次    国家及地区   上映日期
1       1.捉妖记                               魔幻       243952          37             42            中国         2015-07-162      
2.速度与激情7                      动作       242655          39             42        美国/日本    2015-04-123      
3.港囧                                   喜剧       161336          33             40            中国          2015-09-254      
4.复仇者联盟2:奥创纪元   科幻       146438          40             29           美国           2015-05-125      
5.夏洛特烦恼                        喜剧       144145          32             34           中国           2015-09-306     
6.侏罗纪世界                         动作       142066          38             33           美国           2015-06-10

清洗并整理数据
可视化结果
现在,我们得到了一个25行8列的电影票房数据框。先查看下结构:
下面用ggplot2来可视化电影票房情况

从下面的条形图可以看到观众最喜欢的三大电影类型依次是动作、科幻、喜剧。


via:雪晴数据网








欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2