大数据时代对地观测卫星的发展现状与趋势论文
一、前言
对地观测是人类利用卫星、飞船、航天飞机、飞机以及近空间飞行器等空间平台和地面、地下的各种传感器设备获取观测数据,结合各个学科的专业知识,对地面物体和地理过程进行监测和预测的科学活动,其目的是更加深刻和科学地揭示人类社会活动所依赖的地球环境和人地环境的规律和变化,增强人类对地球的利用和适应能力。对地观测研究工作具有非常明显的信息学特征。因此,除了地球科学方法论外,信息科学方法论也对对地观测科学活动有非常重要的指导意义。对地观测研究很大程度上是围绕着“信号—数据—信息—知识”的数字化信息过程来展开的,并构成了“信息获取—信息传输—信息存储—信息加工—信息挖掘—信息呈现”的数据全生命周期。
从信息科学的角度来看,对地观测领域知识发现的方法主要是确定模型分析方法。在遥感技术的发展初期,观测数据量较小,用于数据挖掘分析的理论和模型也不够成熟,因此更多是依靠专业人员的目视判读进行信息解译和勾绘制图,然后再利用其他学科的知识对获得的信息进行修正。这种方法显然不能满足日益增大的观测数据量和日益复杂的应用模式需求。在数据量不断增大、信息提取精度不断提高的情况下,依赖于计算机处理的数据分析新模式出现了。遥感信息反演的定量化成为对地观测信息深度应用的趋势,这种能力也随着计算机处理能力的提升不断提高,逐步满足了 MB(220 字节)、GB(230 字节)、TB(240字节)甚至部分 PB(250 字节)量级的数据分析和信息挖掘工作,从应用上解决了较大地理尺度上的复杂地学问题。提升计算机的处理速度和存储设备的规模已经成为解决观测数据量增大和信息模型复杂化所带来的问题的一个很好的途径。进入 21 世纪以后,对地观测技术又呈现出很多新的发展趋势,其中大数据的出现给对地观测的研究带来了全新的挑战和发展机遇。近年来,随着对地观测需求的增加和技术的进步,各种类型传感器获取数据的能力不断提高,使得国内外以专业化、行业化为特征的各类数据中心迅速崛起,对地观测领域成为数据密集型计算的一个典型应用。整个对地观测系统流程突出体现了“需求牵引—知识驱动”的概念和原则,形成了以社会需求为先导来发展对地观测卫星、传感器、平台、数据传输、信息处理、应用模型及相应科学理论的发展模式。
二、对地观测领域的大数据现象
在对地观测领域,各类分辨率的卫星产生的遥感信息无疑属于大数据。以我国遥感卫星为例,2008 年发射的风云三号 A 星搭载着 20 通道的中分辨率光谱成像仪和 10 通道的可见光近红外扫描辐射计,实现了对整个地球进行连续观测,随后与 2010 年和 2013 年发射的风云三号 B 星和 C 星组网,对地球开展每天 6 次的观测。卫星观测数据切割成 5 分钟段的数据文件,又将 250m 和 1000m 中分辨率光谱成像仪的数据分别存放,每天产生的数据文件和数据量均非常巨大。要管理、处理和分发这些全球数据需要运用“大数据”的方式,而且需要大量的数据科学家开展基础研究工作,研究算法,从数据中实时提取地球参数信息,进而为科研、业务的数据信息需求服务。这一事实充分说明了从海量遥感数据的获取、存储、提取与分发、数值处理,到数据挖掘和知识发现,对地观测活动的整个生命周期体现了大数据的“4V”特性:数据体量大 (volume)、数据来源和类型繁多(variety)、数据的真实性难以保证(veracity)、数据增加和变化的速度快(velocity)。
国际上,美国和欧洲处理和分发中分辨率数据较中国稍早几年,美国处理 MODIS 数据和产品的方式、欧洲处理 ENVISAT/MERIS 数据和产品的方式可为我们借鉴。由于美国没有 MODIS 的后续卫星计划,数据的供给将随着传感器的失效而终止。欧洲的 ENVISAT/MERIS 于 2012 年失效,只能提供 2002-2012 年间的数据。中国风云气象卫星规划已持续到 2020 年,因而,在未来几年,中国的风云卫星中分辨率遥感数据在国际上将是重要的数据源,向全球用户提供优质的数据和产品,将是中国数据科学家肩上的重任。
1. 观测平台和传感器的数据获取
遥感数据获取是由载有成像传感器的遥感飞行平台来完成的。遥感飞行平台的发展体现在:①先进的卫星对地观测系统,包括大型的综合卫星平台与小卫星星座;②先进的集成高—中—低空飞行作业的航空遥感平台;③全面一体化的对地观测综合系统。未来的传感器搭载平台将是由相辅相成的高中低轨道上的大小卫星平台和高中低航空平台组成的,天地一体化、全球性、立体和多维的观测体系。与此同时,对地观测传感器的数据获取能力将向着“三高”(高空间分辨率、高光谱分辨率和高时相分辨率)和全天候方向发展。遥感平台和传感器的技术进步使得获取的数据量大幅度增大。比如刚刚退役的 Landsat -5 卫星在其29 年的在轨工作期间,平均每年获取 8.6 万景影像,每天获取 67GB 的观测数据。而 2012 年发射的资源 3 号卫星,每天的观测数据获取量可以达到 10TB 以上。类似的传感器现在已经大量部署在卫星、飞机等飞行平台上,未来 10 年全球天、空、地空间中部署的百万计传感器每天获取的观测数据将超过 10PB。
2.天- 空- 地一体化的对地观测数据网络传输
巨大的观测能力需要通过覆盖天-空-地的高速数据传输网来实现对地观测平台和全球地面接收站网络之间的数据传递。这种传输能力要通过一个由光缆、地面微波、蜂窝移动通信和低、中以及静止轨道的卫星通信系统组成的、服务于全球的、无缝隙覆盖的、全球一体化的高速天-空-地对地观测数据传输网络实现。现在,单个传感器的信号下传速率已经突破了 Gbit/s。
3. 海量数据的快速处理
标准遥感产品的快速生成需要高吞吐量、高精度及自动化的分布式数据处理能力,以满足规模化、业务化的标准产品生产的要求。标准产品快速处理的突出特点是即时性和大吞吐量,兼有数据密集、计算密集的性质。海量遥感数据的处理需要利用庞大的网络计算资源,通过并行计算、分布式处理以及集群计算技术来实现网络化大数据量处理及多机分布式并行处理,以满足应用的需求。我们可以利用网格技术把分散在不同地理位置的计算机组织成一个“虚拟的超级计算机”,来提供高性能和高吞吐量的计算环境,为完成计算密集型任务提供有力的手段;同时充分利用网络上多种闲置计算设备的处理能力,完成传统计算模式下不能完成的各种大数据量的计算任务,从而保证标准产品的快速处理和生成。
4. 下一代空间数据设施
下一代空间数据设施建设将以全球尺度问题求解和多样化实体数据设施建设为前提,基于传统空间数据设施和联邦数据设施,通过松耦合形式建立一种非中心化、虚拟化、按需服务化和全球化的数据服务体系。分布在世界各地的各种对地观测数据中心,将在下一代空间数据设施的连接下,面向特定专题,与高性能的信息化设施结合,动态形成大量专业化的虚拟数据设施。这些设施不仅可以汇聚和提供超大规模的数据,还具备对数据进行深度加工和挖掘的计算能力。地球观测组织(GEO)所推动建立的全球综合地球观测系统(GEOSS)就是一种下一代空间数据设施,这种设施管理和处理的都是超大规模的对地观测数据和空间数据。
5. 数字地球与未来地球
作为和对地观测衔接的科学框架,数字地球是一个广泛的以信息高速公路和空间基础设施为依托的概念,其核心思想是用数字化手段整体性解决地球的各种科学问题,并最大限度地利用信息资源。未来的数字地球不再局限于进行地学数据的表达和呈现,而将成为一种对地球的各种学科的数据和模型进行综合分析的平台。同时,由国际科学理事会(ICSU)和国际社会科学理事会(ISSC) 共同发起的“未来地球”计划将多学科交叉研究推向更加重要的位置。不论数字地球还是未来地球,其多学科的高度数据复杂性是非常显著的信息特征。和常规的单学科研究不同,在这种综合研究场景中,信息技术要面对的是多学科复杂数据类型之间的数据建模、数据发现和数据整合问题。