最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[Kylin] 如何用Apache kylin分析亚马逊产品评价

[复制链接]
跳转到指定楼层
楼主
发表于 2018-11-9 10:16:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
摘要
在“用Apache Spark分析8000万亚马逊产品评分评价”中,Max Woolf利用Python,R及Apache Spark分析了亚马逊数据集。
本文将介绍如何利用Apache Kylin和Tableau来轻松生成即席查询报表并查看其响应时间。
软硬件要求
所需软件:
  • Kylin 1.6或以上
  • BI工具,你可以使用任何你喜爱的BI工具,Tableau Desktop将是本文使用的BI工具。
  • 可选项:如果你没办法直接访问hadoop集群,可以用Docker来装载一个Hadoop系统 (我装载了没有问题)
克隆以下文件包
关于亚马逊产品评价数据集
这个数据集提供了两种文件:
评价文件:包含购买完产品后客户给产品的打分,从0到5颗星,并写产品评价。
元数据文件:包含产品的完整描述:产品名称,产品品牌,产品图片,产品分类等。
这些文件中的亚马逊产品通过asin唯一识别码进行关联。
我们使用如下两个文件:
元数据文件是一个gz压缩的json文件,包含940万的产品数据。(大小:3.4GB/10.5GB)
产品评价文件是一个未压缩的CSV文件,包含8260万的评价数据。
将数据下载下来(未压缩)并存在DataDownloaded文件夹,如图所示:
注释1: 下载大文件需要写邮件提交申请。
注释2: 产品评价文件可以用subset部分的一个较小文件替代。
准备数据集
我们需要把这两个原始文件加载到Hive表中,执行这个命令的python脚本如下
python processItem.pypython processMetadata.py
随后你会在DataProcessed文件夹中生成两个新文件,如图所示:
将数据复制到Hive并创建表
如果你在使用Docker
编辑脚本/01-ImportData.sh并指定ID Docker镜像
ContainerID=’58b’
执行以下脚本: 复制数据到Docker容器并创建Hive表
./Scripts/01-ImportData.sh
如果你没有使用Docker:
手动复制DataProcessed文件夹中的数据到你的集群gateway,编辑脚本/02-CreateTB.sql 并指定路径。
set hivevarathFiles=/Amazon_Review;
连接你的集群并执行:
hive -f 02-CreateTB.sql
构建Cube
1. 创建新项目
点击并输入一个项目名称
  • 导入数据源
点击
选择需要导入的表 (按住Ctrl多选)
  • 创建数据模型
点击
指定一个事实表
指定一个维度表
指定一个维度字段
指定一个计算字段
  • 定义Cube
点击
选择之前定义的Amazon_Review的数据模型
定义其中两个维度为Normal
定义计算字段
在配置文件中覆盖:
开始构建:>
处理8000万行数据,在一台笔记本上用了30分钟:
用BI工具连接Cube
用Tableau连接Cube生成报表

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-7 00:20

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表