168大数据

标题: 关于RDD中的数据筛选的疑问 [打印本页]

作者: mclubing    时间: 2015-9-17 11:30
标题: 关于RDD中的数据筛选的疑问
现在有日志类似于:
Put6924_2088512533769245_2662847396497_4301d9a4d50ae995ca45cae4c870da1c14422470037472015-09-15 00:10:03f:gmt_occur1442247003503
按照,operation, rowkey, version(long), modify_time,  column_name, column_value组成
我每15min获取一个分区的记录.
怎么才能在我的rdd中保留字段相同的max(version)的记录?其他的废弃掉






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2