168大数据
标题:
关于RDD中的数据筛选的疑问
[打印本页]
作者:
mclubing
时间:
2015-9-17 11:30
标题:
关于RDD中的数据筛选的疑问
现在有日志类似于:
Put6924_2088512533769245_2662847396497_4301d9a4d50ae995ca45cae4c870da1c14422470037472015-09-15 00:10:03f:gmt_occur1442247003503
按照,operation, rowkey, version(long), modify_time, column_name, column_value组成
我每15min获取一个分区的记录.
怎么才能在我的rdd中保留字段相同的max(version)的记录?其他的废弃掉
欢迎光临 168大数据 (http://www.bi168.cn/)
Powered by Discuz! X3.2