马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
现在有日志类似于:
Put6924_2088512533769245_2662847396497_4301d9a4d50ae995ca45cae4c870da1c14422470037472015-09-15 00:10:03f:gmt_occur1442247003503
按照,operation, rowkey, version(long), modify_time, column_name, column_value组成
我每15min获取一个分区的记录.
怎么才能在我的rdd中保留字段相同的max(version)的记录?其他的废弃掉
|