马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
注:本文案例数据来自于艺恩电影营销智库 从网页抓取数据 方法一:使用XML包中的readHTMLTable函数抓取网页表格数据。 方法二:如果用的是chrome浏览器,可以安装一个名叫Table Capture的插件,自动抓取网页表格数据。通过粘贴板或者导入到google的电子表格并下载到本地后,将数据加载到R 本文使用方法一。在windows中,得到的数据会出现中文列变量名乱码(对列变量重新命名就好了,linux不会)。 附: 排名: 影片名 类型 总票房(万) 平均票价 场均人次 国家及地区 上映日期
1 1.捉妖记 魔幻 243952 37 42 中国 2015-07-162
2.速度与激情7 动作 242655 39 42 美国/日本 2015-04-123
3.港囧 喜剧 161336 33 40 中国 2015-09-254
4.复仇者联盟2:奥创纪元 科幻 146438 40 29 美国 2015-05-125
5.夏洛特烦恼 喜剧 144145 32 34 中国 2015-09-306
6.侏罗纪世界 动作 142066 38 33 美国 2015-06-10
清洗并整理数据
可视化结果 现在,我们得到了一个25行8列的电影票房数据框。先查看下结构: 下面用ggplot2来可视化电影票房情况
从下面的条形图可以看到观众最喜欢的三大电影类型依次是动作、科幻、喜剧。
via:雪晴数据网
|