spark 系列教程（四十）：RDD 编程二次排序、mapjoin

[复制链接]

电梯直达

楼主

发表于 2018-3-16 13:48:43 | 只看该作者回帖奖励

|倒序浏览 |阅读模式

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

1.二次排序#

自定义比较类用于key

用Spark rdd实现二次排序

程序结果

借助之前封装的orcutil，把结果保存为ORC格式的文件，注意输出hadoop格式时要将rdd转成pairrdd

程序运行结果

楼主热帖

分享到: QQ好友和群 QQ空间 腾讯微博 腾讯朋友

收藏0 转播分享 淘帖0 赞0 踩0

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解，与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家，该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意，并添加本文出处。
4.本站所收集的部分公开资料来源于网络，转载目的在于传递价值及用于交流学习，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务，本站概不负责，亦不负任何法律责任。
6.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源，若标注有误或遗漏而侵犯到任何版权问题，请尽快告知，本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

使用道具举报