最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

【干货】黄震春:下一代遥感数据基础设施-大数据的挑战与应对

[复制链接]
跳转到指定楼层
楼主
发表于 2015-12-5 18:01:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本讲座选自清华大学计算机系副研究员黄震春博士于2015年11月26日在 RONG v2.0---图形图像处理与大数据技术论坛上所做的题为《下一代遥感数据基础设施:大数据的挑战与应对》的演讲。

现在天上的卫星分辨率基本上已经到了亚米级别。地面上相距不到一米的两个东西,在天上他能给你分出两个像素来。这种卫星还不是以前我们想象的需要花特别多钱的,很多微小的卫星就可以做到这一点,意味着我们对地球的观测能力已经到了一个相当高的程度。但是这个数据量也大到了非常可怕的程度。这里面有几个数据,气象卫星中,从十米级的到亚米级的GEOEYE卫星,GEOEYE卫星要把地球表面都观测一次的话,数据量能达到50PB。

这个数据量还不仅此而已,这个涨势来源于几个因素:

第一,分辨率在提高,十多年前我们鼓捣这些东西的时候,我们手里面拿到比较高分辨率的数据是美国Landsat—5、7。Landsat—5平均每年的数据量为24TB。现在我们随便拿一个国产型2002年的资源三号,一天的数据量就能达到13个TB。资源三跟GOI相比分辨率还稍微低了那么一点点,GOI现在一天的数据量相当于那个年代一年的数据量。

第二,卫星数量的增加也是非常可怕的事情。十年前、二十年前我们做遥感反演的时候,能选择的卫星也就是那几颗,最多的是MODIS,拿它做干旱、火灾预警。现在我们可用的卫星数量、可用的传感器数量基本上已经上了一个数量级。这种分辨率上的提高、卫星数量增加、传感器数量增加的趋势使得遥感数据量呈现爆发性的增长。增长的速度不说比英特网的数据量大,也差不太多。

第三,我们发现了一种方法把非遥感的数据也在遥感应用里面用进来。这也是最近在遥感领域里面比较热门的话题。这一下数据量更大了。不光数据量大了,数据种类也多了,而且引入了一系列更严重的问题。

从对地观测科学角度来讲,传统的对地观测科学应用基本上都是公益性质的应用。这些应用都是由政府公益组织的,主要是由政府来发起、控制、面对的也都是一些高大上的,灾害、全国的粮食估产,都是平常百姓一听就躲老远的事。而且它的各种合作也都是政府组织之间的,哪怕是所谓的私营机构的,当然在中国没有,美国有一些私营机构,例如Digital Global,他们绝大部分的数据也是被政府买走了;换句话说就是为政府服务的领域,为政府服务必然带有一系列的政府影子在里面,于是在技术应用上,一般来讲会很谨慎。这是它很重要的一个特点。

这种最传统的公益性的遥感应用现在也面临着几个问题,一个分辨率提高了,一个分辨率变成亚米级了,从公里级、到米级到亚米级,你能用的方法就不一样了。我到海面上去,卫星照在海面上,公里级什么都照不出来,最多照到一个岛。十米级看到船了,亚米级看到的全部是海浪,不同分辨率适用的方法是不一样的。第二,问题规模,以前我们还没有太注意这事,后来琢磨到这个事的时候把我吓一跳。现在有很多问题以前都是局域的,我对北京市做估产,对粮食主要产区做估产。现在一张嘴,我就要对全球的地表做一下分类,而且这种分类有时候还不能在一个季节里分,一个季节里面的四季变化分不出来,还得几个季节一并分析。这个数据量一下就会差得非常多,而且不光是数据量差得多,遥感的反演很多是属于经验性的,在这个地方定标定出来就是它,可是在其他地方是不是不一定。不同的区域可能得用不同的模型、不同的参数,怎么解决?有没有一个模型对全世界都好使,对不同分辨率都好使?这些都是现在要解决的问题。

还有一个公益应用是非常大的不足,对地观测领域有时候被称为3S,从3S产值的比,可以看出遥感几乎是被忽略了,这就意味着最大的推动力即商业推动力对遥感来讲是没有的,这也是为什么遥感领域是进步得相对比较慢的原因。

十来年前开始有一些变化,刚开始Google Earth出来的时候大家把它当做一个玩具,地球一出来的时候把它一转,愿意看到哪看到哪。但是这代表遥感影像不再是专家学者们兜里独掌的东西,任何一个人想要获得就可以获得。遥感影像开始成为人们生活中能接触到的东西,与此同时,一些技术上没有什么特别的遥感应用也开始出现了。比如说这个图,他用的是高分辨率卫星,卫星没事转一圈,就观测那几个区域的数据,观测油罐,油罐里有多少油看得清清楚楚。他监测几个最大的储油罐的油量,再利用一些模型推断接下来OPEC产油的产量是多少,进一步推断国际石油价格是什么样。你如果知道明天石油是涨还是降的话,期货市场上的收益就都是你的了。

还有一个例子是半导体市场,例如Apple还有三星,这样的N个公司都是由富士康代工,富士康是半导体器件流转过程中重要的一环。我监测富士康公司一天有多少辆车进去,多少辆车出来。一个车大概能装多少东西我们知道。如果这样的话,你的产量是不是我就能知道?你富士康这种巨无霸产量的高低,是不是就对整个电子市场的价格波动非常明显?这些看着跟遥感一点关系没有的东西,我们都可以用遥感的方法解决它。这就是一些商业上的应用,商业应用的东西对遥感来讲是一个非常重要的市场。它带来的是对遥感应用的新需求。

对地观测从科学角度来讲就引起了一系列的挑战。比如说在成本上,我们现在要求的不一定非得是那么高精度的定量。我可能就是要这两个差,你定量不定量我无所谓,你的绝对值对不对无所谓,我要的就是他俩的差。我干吗非得要增加系统,我一堆人在那儿看。
曾经出过这样一个事情,MF370丢了之后,有关方面把大量的高分辨率遥感图象分享出去,你有兴趣的可以拉出来一幅找,你觉得这是什么东西,你圈一下,圈一个结果上去了,那边专业的人复查一下。这看起来是很土鳖的一个办法,但是当线下干这个活的人多的时候,比任何一种自动化的方法都要有用。

传统遥感图像定标,有了遥感图像,只能是专人到这个地方拿着专业的仪器定标。我定出来了,在你家门口还好,这要是远的地方你还得坐十几个小时飞机。这个地方我可能有相应的一大堆照片,不一定是我照的,而可能是我从各种社交网络上获取到的照片,因为我们现在大部分的照片都是带有经纬度的。 我们可以将它们搜集起来做一系列的处理,也可以人为解译,把信息搜集出来,这也是一个办法,一下省了很多工作量。基于公众的遥感应用现在越来越成为一个遥感可能会往其发展的方向。它也给遥感科学提出了很多新的问题。

从数据科学的角度来讲,原来遥感数据我们认为是一幅一幅的图象。但是从更深入的角度去考虑,遥感数据本身观测的是地球,地球客观就存在在这儿。换句话说,遥感数据是客观事物的本质反应,它应该是客观的,而不应该是一幅一幅的图片。他反的是地球在时间、空间上都是连续存在的。不应该是图上只有这两个像素,我就说这个地球只有公里级的像素。你没有照出来不等于它没有。从数据上来讲,是因为你的数据精度不够,而不是不应该存在这个数据。除此之外, 这个数据还有其他的维度,比如说是不同波段,或者是波段加加减减产生的不同的属性值。这些都反映了人们对地球的认知,它组成了一个时空无缝的高纬的遥感空间。我怎么样利用稀疏的观测数据重建这个空间。这也是我们现在要面临的问题。

还有一个混淆的概念,即数据的可行性和数据的质量。我们一直说大数据,拿到之后我要清洗,把不好用的数据清洗掉,这个数据为什么不好用?两个原因,一个原因是这个数据不可信,或者这个数据本来就是假的,或者故意给你弄错的。还有一种可能是这个数据不是那么准,不是那么好。对这两类数据,我们应该区别对待。可信性不好的数据是要被剔除的,另外一方面,数据质量不好的,我可能不需要剔除,而是用一些包容性更好的算法把应有的信息提取出来。比如说一个图像下来了,我只能很模糊地发现它是什么,而不能确定它是什么,但是我至少可以确定它不是什么,这也是一种信息。


下面这个是技术上的,技术上面临的问题是遥感观测,整个流程里面它并不是很平衡的。可能会算得快,但是数据服务慢。我们试图解决这些问题。我们要解决的问题是要让这个木桶的木板尽量都高起来。

我们要建立的目标是全球协同数据基础设施,我们要解决的不再是一个局部的问题,而是一个全球尺度的问题,必然带来的是数据全球分布的局面。数据在全球分布,可能面临着不同的数据结构和不同的数据政策,我们怎么去解决它。同时,还要在全球级别实现分布式的处理和协同工作。比如说我们可能需要的是把来自不同数据源的数据组成一个虚拟的全局目录,并且实现全球的分布式数据服务。这涉及到一系列的技术。比如说存储需要进行优化,服务方式需要进行优化,现在遥感数据一传整个文件就走了,为什么不能只传一个波段,为什么不能加工一下再传?这些都是能做到的,但是现在数据基础设施并没有这么做,这就带来了一系列的问题。

处理与计算一体的结构,尽可能把计算和处理放在一起,尽可能让计算发生在数据附近,我在数据附近找一个计算代理,这就涉及到怎么找到合适的计算代理,怎么让计算代理这个地方能够应用你的遥感应用。这又涉及到一系列IT领域的问题。

整理:李施茗
校对:方硕

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-30 19:41

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表