[Hive] hive join 优化

[复制链接]

电梯直达

楼主

发表于 2018-12-27 17:13:21 | 只看该作者回帖奖励

|倒序浏览 |阅读模式

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

common join : 即reducer join，瓶颈在shuffle阶段，会产生较大的网络io；

map join：即把小表放前面，扫描后放入每个节点的内存，在map阶段进行匹配；

开启map join：

set hive.auto.convert.join = true;

hive.mapjoin.smalltable.filesize 默认值是25mb

执行时任务信息：

当两个表都很大时，采用cluster sort join：

懒的敲了：

实现：

优点：

采用hint实现： explain select /*+mapjoin(b)*/ a.test1,b.provincecode, a.test3, a.test4, a.test5 from test_libc_x a join (select * from tbl_zone) b on (a.test2=b.provincename);

验证：执行计划中出现字样：

楼主热帖

分享到: QQ好友和群 QQ空间 腾讯微博 腾讯朋友

收藏0 转播分享 淘帖0 赞0 踩0

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解，与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家，该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意，并添加本文出处。
4.本站所收集的部分公开资料来源于网络，转载目的在于传递价值及用于交流学习，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务，本站概不负责，亦不负任何法律责任。
6.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源，若标注有误或遗漏而侵犯到任何版权问题，请尽快告知，本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

使用道具举报