论文笔记 Deep learning in multimodal remote sensing data ...
初读印象comment:: 遥感领域图像融合综述,给出了新手教程、数据集和代码,讨论了未来发展方向
机构:中国科学院等
论文地址:Deep learning in multimodal remote sensing data fusion: A comprehensive review
摘要
随着遥感(RS)技术的飞速发展,大量具有相当复杂异质性的地球观测(EO)数据随处可见,这为研究人员提供了以全新方式解决当前地球科学应用的机会。 近年来,随着地球观测数据的联合利用,多模态遥感数据融合研究取得了巨大进展,但这些发展起来的传统算法由于缺乏对强异构数据的综合分析和解释能力,不可避免地遇到了性能瓶颈。 因此,这种不可忽视的限制进一步引起了对具有强大处理能力的替代工具的强烈需求。 深度学习(DL)作为一项前沿技术,由于其在数据表示和重建方面的出色能力,在众多计算机视觉任务中取得了显着突破。 自然地,它已经成功地应用于多模态遥感数据融合领域,与传统方法相比有了很大的改进。 本调查旨在对基于 DL 的多模态 RS 数据融合进行系统概述。 更具体地说,首先给出了有关该主题的一些基本知识。 随后,进行了文献调查以分析该领域的趋势。 然后根据要融合的数据模态,即空间光谱、时空、光探测和测距-光学、合成孔径雷达-光学和 RS-Geospatial 大数据融合。 此外,为了多模态遥感数据融合的发展,我们收集和总结了一些有价值的资源。 最后,强调了剩余的挑战和潜在的未来方向。
introduction
由于在观测地球环境方面的优势,遥感在各种地球观测任务中发挥着越来越重要的作用(Hong et al., 2021b; Zhang et al., 2019a)。 随着多模式 RS 数据的可用性不断增长,研究人员可以轻松访问适合手头应用程序的数据。 尽管大量的多模态数据变得唾手可得,但每一种模态都很难捕捉到一个或几个特定的属性(存在缺陷),因此无法完整地描述观察到的场景,这对后续应用造成了很大的限制。 自然地,多模态RS数据融合是打破单模态数据引发的困境的可行方法。 通过整合从多模态数据中提取的互补信息,可以在许多任务中做出更稳健和可靠的决策,例如变化检测、LULC 分类等。 与多源和多时态 RS 不同,“模态”一词一直是一个缺乏明确统一的定义。 在本文中,我们试图在先前工作的基础上给出详细的定义(Gómez-Chova et al., 2015; Dalla Mura et al., 2015)。 原则上,RS 数据的特征有两个主要因素,即传感器的技术规格和实际采集条件。 具体来说,前者决定了产品的内部特性,例如成像机制和分辨率。 而后者控制外部属性,例如采集时间、观察角度和安装平台。 因此,上述因素有助于对捕获场景的描述,可以描述为“模态”。 显然,多模态遥感数据融合包括多源遥感数据融合和多时相遥感数据融合。 一些典型的 RS 模态包括 Pan、MS、HS、LiDAR、SAR、红外、夜光和卫星视频数据。 最近,GBD 作为 RS 家族的新成员,在 EO 任务中引起了越来越多的关注。 为了整合这些模态提供的互补信息,传统方法通过基于特定领域知识设计手工特征并利用粗略融合策略进行了深入研究,这不可避免地损害了融合性能,尤其是对于异构数据(Hong 等人,2021a) ). 由于人工智能的发展,深度学习通过以自动方式自适应地实现特征提取和融合,在建模输入和输出数据之间的复杂关系方面显示出巨大的潜力。 根据要融合的模态和相应的任务,基于 DL 的多模态RS 数据融合可以概括为一个统一的框架(见图 1)。 因此,这篇综述将重点关注每个融合子域中提出的方法,并简要介绍每种模式和相关任务。![[截屏2023-02-24 13.42.48.png#center|图1 基于DL的多模态遥感数据融合框架]] 目前,已有一些关于多模态数据融合的文献综述,根据不同的模态融合总结在表2中。 现有的评论要么不太关注 DL 的方向,要么只涵盖多模态 RS 数据融合中的几个子领域,缺乏对该主题的全面和系统的描述。 我们调查的目的是全面回顾基于 DL 的多模态 RS 数据融合中的热门领域,并进一步促进和促进这一新兴领域的相关研究。 更具体地说,第 2 节收集和分析了与该主题相关的文献,然后是第 3 节,该节详细阐述了多模态 RS 数据融合中的代表性子领域。 在第 4 节中,给出了一些有关教程、数据集和代码的有用资源。 最后,第 5 节提供了有关挑战和前景的评论。为了方便读者,本文中使用的主要缩写如表 1 所示。 ![[截屏2023-02-24 14.13.39.png#center|表1 本文使用的缩写]]
文献分析
数据检索和收集
Web of Science 和 CiteSpace (Chen, 2006) 被选为主要的分析工具。 以表3中的Query 1为例,使用高级检索从Web of Science核心合集中初步返回691个结果: TS=(''remote sensing'') AND TS=(''deep learning'') AND TS =(''融合'')。 在仅考虑“文章”文献类型后,将 2015 年至 2022 年发表的 598 篇论文纳入后续分析。 ![[截屏2023-02-24 14.15.41.png#center|表3 web of science数据检索结果]]
统计分析和结果
每年发表文章的统计分析
2015-2022 年相关论文发表趋势如图 2 所示。条形图表明,随着发表数量的稳步增长,人们越来越关注这个新兴领域。 另一方面,折线图的上升趋势与条形图中的上升趋势一致,表明深度学习技术在多模态遥感数据融合领域发挥着越来越重要的作用。(折线图表示使用深度学习的遥感数据融合在总体遥感数据融合中的占比) ![[截屏2023-02-24 14.20.45.png#center|图2 相关论文发表趋势]]
发表文章的国家和期刊分析
图3(a)和图3(b)分别展示了前10个国家和期刊发表论文比例的两个饼图。 可以看出,前10位的国家约占总产出的90%,构成了该方向的主要支柱。更具体地说,中国在该领域做出了重大贡献,占所有出版物的一半以上,其次 美国占10%左右。 此外,Remote Sensing、IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING 和 IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 约占全部出版物的一半,其中 Remote Sensing 排名第一。 ![[截屏2023-02-24 14.35.27.png#center|图3 发表文章的国家和期刊]]
文献中关键词的统计分析
图 4 显示了在收集的文章中出现的关键词,字体越大,频率越高。 如图所示,CNN广泛应用于基于DL的多模态RS数据融合领域。 此外,分类、云去除和目标检测成为融合过程中的主要任务,其中MS、HS、LiDAR和SAR是主要使用的数据。 ![[截屏2023-02-24 14.36.58.png#center|图4 关键词统计分析]]
A review of DL-based multimodal remote sensing data fusion methods
本文将现有方法分为两大类,即同质融合和异质融合。 具体来说,均质融合是指全色锐化、HS全色锐化、HS-MS融合和时空融合,而异构融合包括LiDARoptical、SAR-optical、RS-GBD融合。 由于上述子领域发展较为多样,因此采用不同的标准来介绍各个子领域,如图5所示。为了方便读者,我们还列出了各个方向的一些经典文献。
Homogeneous fusion
均匀融合,包括时空融合(即全色锐化、HS全色锐化和HS-MS融合)和时空融合,主要致力于解决光学图像中由于成像机制而导致的空间光谱和时空分辨率的权衡。 本节将介绍这些领域中提出的典型方法。
全色锐化
全色锐化是指融合 MS 和 Pan 以生成高空间分辨率的 MS 图像。 一般来说,AE、CNN 和 GAN 是基于 DL 的全色锐化的常用网络架构。• 监督方法众所周知,监督方法通过将观察结果与参考文献联系起来执行全色锐化。 通常,输入数据需要通过对原始数据进行空间下采样来模拟。 黄等。 (2015) 提出了第一个处理全色锐化问题的基于 DL 的方法,其中采用稀疏去噪 AE 来学习全色域中的变换,然后将观察到的 MS 输入到预训练的 AE 中以生成最终输出。 在这一里程碑式的工作之后,相继提出了许多将全色锐化视为图像超分辨率问题的方法(Azarang and Ghassemian, 2017; Xing et al., 2018)。 除了AE结构,CNN也被广泛使用,可以分为三大类,即单分支、多分支和混合网络。 属于第一组的方法只是将输入全色数据和 上采样 MS 或其预处理版本 连接成一个新组件作为网络的输入。 例如,马西等人。 (2016) 通过采用 SRCNN 架构提出了第一个基于 CNN 的具有三个卷积层的全色锐化方法。 后来,许多受此开创性工作启发的方法被提出,其中常用残差学习和密集连接(Wei et al., 2017; Yang et al., 2017; Scarpa et al., 2018; Yuan et al., 2018) ; 彭等, 2020; 傅等, 2020; 雷等, 2021). 然而,简单地将预插值的 MS 与 Pan 叠加作为网络的输入,不仅会忽略单个特征,还会增加额外的计算负担。 因此,多分支网络不是平等对待两种模态,而是应用不同的子网络来分别提取特定于模态的特征(Shao 和 Cai,2018;Zhang 等,2019b;Liu 等,2020a;Chen 等 al., 2021; Zhang and Ma, 2021; Xing et al., 2020; Yang et al., 2022a). 基于混合网络的方法通过采用传统方法的概念,即基于 DI 的方法(He 等人,2019a;Deng 等人,2020)和基于 VO 的方法(Shen 等人)的概念,为全色锐化提供了前沿的解决方案 al., 2019; Cao et al., 2021; Tian et al., 2021),因此有效地融合了两个领域的优势。 与 CNN 不同,基于 GAN 的方法通过在生成器和鉴别器网络之间建立对抗博弈,将全色锐化视为图像生成问题。 第一种基于 GAN 的全色锐化方法设计了一个双分支生成器网络 (Liu et al., 2020b),然后探索不同的损失函数和新的网络结构以提取更具辨别力的特征 (Shao et al., 2019; Ozcelik et al ., 2020 年;Gastineau 等人,2022 年)。 ViT 最近因其捕获远程信息的能力而被引入全色锐化 (Zhou et al., 2021a, 2022a)。
• 无监督方法与尺度相关的问题可能出现在监督方法中,因为它们通常以较低的分辨率进行训练。 然而,无监督方法以原始规模实施训练和测试过程,无需模拟参考。 因此,关键在于通过设计适当的损失函数来精确建立输入数据与融合产物之间的关系,即退化的融合结果应分别在空间域和光谱域中与输入 Pan 和 MS 相同。 例如,马等人。 (2020) 利用空间对抗损失来表示隐藏在生成器输出中的空间信息。 此外,其他广泛使用的损失函数包括梯度损失(Seo et al., 2020)、感知损失(Zhou et al., 2020)和非参考损失(Zhou et al., 2021b; Luo et al., 2020) ).
HS全色锐化
与全色锐化类似,HS 全色锐化旨在将 HS 中的光谱信息与 Pan 中的空间信息相结合,以生成具有高空间分辨率的 HS 图像。• 监督方法监督方法旨在学习从输入到目标数据的转换,这些数据在现实世界中是不存在的,因此通常进行模拟实验。 具体来说,一对低空间分辨率 HS 和低光谱分辨率 MS 分别通过空间和光谱降解观察到的 HS 来生成。 通过这样做,两个模拟图像被视为网络的输入,原始 HS 作为参考。 与 pansharpening 的那些先驱作品一样,CNN 和 GAN 自然适用于 HS pansharpening 任务。 郑等。 (2020) 提出了一种基于单分支 CNN 的方法,其中级联多个通道空间注意块以自适应地提取信息特征。 受代表性工作的启发,通过添加与空间相关的约束来优化 HS 上采样的过程,进一步增强了 DHP (Bandara et al., 2022)。 为了恢复隐藏在输入中的缺失信息,残差式网络广泛用于双分支 HS 全色锐化网络。 特别是,他等人。 (2019b) 清楚地展示了跳跃连接在训练效率方面的优势。 也有巨大的努力旨在解决特定问题,例如光谱保真度(He et al., 2020; Guan and Lam, 2021)、任意分辨率增强的全色锐化(He et al., 2021b)和任意光谱带( Qu 等人,2022a)。 混合网络,例如 DI 嵌入方法 (Dong et al., 2021c) 和 VO嵌入方法 (Xie et al., 2020),可以自适应地学习传统方法需要显式建模的空间细节和深度先验。 此外,董等人。 (2021d) 直接将迭代优化算法展开到端到端网络中,其中退化模型被认为是利用先验信息。 遵循 pansharpening 中提出的想法,GAN 成功地应用于具有各种鉴别器设计的 HS pansharpening。 谢等人给出的一个典型例子。 (2021) 利用空间鉴别器来限制输入 Pan 与生成输出的频谱下采样版本之间的差异,其中生成器网络在高频下进行训练。 其他常用的鉴别器包括光谱鉴别器 (Dong et al., 2021b) 和空间光谱鉴别器 (Dong et al., 2021a)。 Transformer 还在 Bandara 和 Patel (2022) 的 HS 全色锐化中找到了应用,其中模态特定的特征提取器旨在捕获纹理细节,用于后续的光谱细节融合。• 无监督方法 与全色锐化相比,无监督HS 全色锐化研究很少。 一个可能的原因是输入的 Pan 和 MS 具有相似的光谱覆盖范围,而 Pan 和 HS 在光谱范围内存在很大差异,这导致难以保留空间信息。 Nie 等人的初步工作。 (2022) 利用梯度和高频损失对空间关系进行建模,其中首先通过比率估计策略生成初始化图像。
HS-MS增强
Pansharpening 相关工作可以看作是 HSMS 融合的特例,旨在通过融合成对的 HS-MS 图像来获得具有高空间分辨率的 HS 产品。 因此,可以转移许多基于 DL 的全色锐化方法,以通过必要的修改来解决 HS-MS 融合问题。 在此之后,将根据全色锐化中的相同分类介绍典型方法。 • 监督方法监督HS-MS 融合遵循与HS 全色锐化相同的方案,即用MS 替换输入Pan。 提出了具有经典结构的单分支 HS-MS 融合方法,例如 3-D CNN (Palsson et al., 2017)、残差网络 (Han and Chen, 2019)、密集连接网络 (Han et al., 2018) ) 和三分量网络 (Zhang et al., 2021a) 等。与这些直接将 HS 上采样到与 MS 相同分辨率的单分支工作相比,多分支方法采用替代策略来缓解这个问题,即通过 通过反卷积或像素洗牌操作逐渐对 HS 进行上采样,将从 MS 提取的空间信息注入相应的尺度(Xu et al., 2020a; Han et al., 2019; Zhou et al., 2019)。 最近,可解释网络与传统模型相结合在这项任务上显示出巨大潜力,例如将 DI 模型结合到网络中以自适应地学习详细图像(Sun 等人,2021;Lu 等人,2021),或设计网络以自动学习 观察模型 (Wang et al., 2021b, 2019) 和深度先验 (Dian et al., 2018; Wang et al., 2021a) 为后续融合做准备。 深度展开方法也用于 HS-MS 融合,通过将迭代优化过程展开到网络训练步骤中,有效地将基于 DL 和 VO 的方法联系起来(Shen et al., 2022; Xie et al., 2022, 2019; Wei 等人,2020 年;杨等人,2022b)。 除了流行的 CNN 模型,Xiao 等人。 (2021) 通过将退化模型嵌入到生成器中,引入了一种基于物理的 GAN 方法,其中退化模型生成的输出被输入到鉴别器中,以进一步增强空间光谱。 还为 HSMS 融合引入了 Transformer(Hu 等人,2021a),其中将结构化嵌入矩阵发送到 Transformer 编码器以学习残差图。 • 无监督方法 无监督HS-MS融合方法只需要一对HSMS图像作为网络的输入,当网络优化完成后即可得到融合后的HS。 这些方法大致包括两类,即基于编码解码的方法和基于生成约束的方法。 前一类假设目标图像可以由两个矩阵的乘积表示,每个矩阵代表一个明确的物理意义,其中AE通常用于对上述过程进行建模。 第一项工作由 Qu 等人提出。 (2018),其中解码器的权重由两个 AE 共享。 沿着这条线,最近提出了几种具有相似想法的成功方法(Zheng et al., 2021; Yao et al., 2020; Liu et al., 2022b)。 后者旨在通过精心设计的生成器以初始化图像作为输入直接生成目标图像。 为了获得更好的重建,需要额外的信息和约束来指导网络训练。 更具体地说,输入图像可以是手头的 MS 图像 (Fu et al., 2019; Han et al., 2019a; Li et al., 2022),随机张量 (Uezato et al., 2020; Liu et al., 2021b),以及专门学习的代码 (Zhang et al., 2021b, 2020b)。
时空融合
除了空间-光谱分辨率的权衡之外,还存在时空域的权衡,即现有卫星平台在同一区域拍摄的空间分辨率高的图像通常间隔时间较长,反之亦然。 这极大地阻碍了变化检测等实际应用。 因此,时空融合旨在通过融合一对或多对粗略/精细图像(例如,MODIS-Landsat 对)和预测时间的粗略空间分辨率图像来生成具有精细空间分辨率的时间密集产品。 本节介绍一些预测地表变量的典型方法,例如反射率、LST、NDVI 等。 绝大多数基于 DL 的方法都是针对反射率图像设计的,其中 CNN 在所有模型中占主导地位。 受超分辨率问题的启发,Song 等人。 (2018) 提出了开创性的工作,其中学习了非线性映射和超分辨率网络来生成预测图像。 然而,由于缺乏对时间信息的探索,将时空融合简单地视为超分辨率问题不可避免地会损害性能,因此提出了许多同时利用时空域基础信息的方法(Tan et al., 2018, 2019;Li 等人,2020a)。 特别是,刘等人。 (2019) 通过将时间信息纳入损失函数,利用训练过程中的时间依赖性和时间一致性,从而获得显着改进。 与 CNN 相比,有一些基于 GAN 的方法旨在通过优化最小-最大问题来生成输出。 张等。 (2021c) 提出了一种基于深度学习的端到端可训练网络来解决时空融合问题,其中设计了一个两阶段框架来逐渐恢复预测图像。 然而,所有讨论的方法都需要至少三张图像作为预测阶段的输入,这在实践中可能不容易满足。 因此,Tan 等人。 (2022) 提出了一种基于条件 GAN 的方法,其中嵌入了归一化技术,以消除对输入图像数量的限制。
Heterogeneous fusion
与基于像素级融合的旨在生成具有高光谱、空间或时间分辨率的结果的同构融合不同,异构融合主要是指在 LiDAR-optical、SAR-optical、RS-GBD 等方面的集成。 这些数据的成像机制完全不同,特征级和决策级被广泛采用。
LiDAR-optical fusion
LiDAR-光学融合可应用于许多任务,例如配准、全色锐化、目标提取、森林生物量估计(Zhang 和 Lin,2017)。 由于很难对所有方面进行全面和详细的介绍,我们只关注一个特定领域,即 HS-LiDAR 数据融合在 LULC 分类中的应用,并给出一些在其他任务中使用的例子。HS数据凭借其丰富的光谱信息被广泛应用于分类任务,但在光谱信息不足以区分目标的情况下,性能不可避免地遇到瓶颈(Hong et al., 2020a)。 幸运的是,LiDAR 系统能够获取 3-D 空间几何,这弥补了 HS 的不足,因此联合利用 HS 和 LiDAR 数据识别材料成为近年来的热点。 Ghamisi 等人。 (2017) 开创了第一个基于 DL 的 HS-LiDAR 融合网络,其中输入数据的特征由 EP 提取,然后通过两种融合策略集成,用于随后的基于 DL 的分类器。 虽然与传统方法相比取得了很大的改进,但特征提取和特征融合的方式简单粗暴,在一定程度上限制了进一步的改进。 受此里程碑的启发,许多先进的方法被提出,旨在改进这两个关键步骤。 对于特征提取,陈等人给出了一个典型的例子。 (2017) 利用双分支网络分别提取光谱-空间-高程特征,然后使用全连接层整合这些异构特征以进行最终分类。 其他特别设计的特征提取网络包括三分支网络 (Li et al., 2018)、双隧道网络 (Xu et al., 2018; Zhao et al., 2020) 和编码器-解码器翻译网络 ( Zhang 等人,2020a)。 对于特征融合,Feng 等人。 (2019) 将 Squeeze-and-Excitation 网络纳入融合步骤以自适应地实现特征校准。 还提出了其他新颖的融合策略,例如交叉注意模块(Mohla 等人,2020)、基于重建的网络(Hong 等人,2022)、特征决策组合融合网络(Hang 等人, 2020) 和图融合网络 (Du et al., 2021)。 Hang 等人没有直接利用 HS-LiDAR 数据进行分类。 (2022) 提出了一种新的策略来处理 HS 分类中训练样本有限的问题。 具体来说,首先利用成对的 HS-LiDAR 数据提取有用的特征,然后设计微调策略将这些特征转移到有限样本的 HS 分类中。 LiDAR-光融合方面的研究人员也关注目标提取,如建筑物、道路、不透水表面等。Huang et al。 (2019) 提出了一个嵌入了门控特征标记单元的编码器-解码器网络来识别建筑物和非建筑物区域。 Parajuli 等人还提出了提取道路和不透水表面的算法。 (2018) 和 Sun 等人。 (2019),分别。 最近,Han 等人。 (2022) 提出了第一个基于 DL 的多模态分解网络,其中squeeze-excitation注意力模块从 LiDAR 中提取的高度信息用于指导 HS 中的分解过程。
SAR-optical fusion
与光学图像不同,SAR系统旨在采集地物的后向散射信号,既能反映RADAR系统参数信息,又能体现观测场景的物理和几何特征(Liu et al., 2021a)。 虽然 SAR 数据可以为光学图像提供补充知识,但它很容易产生斑点噪声,这可能会严重限制其实际应用潜力。 合成孔径雷达和光学数据的联合使用成为实现更好地了解和分析感兴趣目标的可行解决方案。根据融合在哪个层次进行,我们可以将SAR-光学数据融合分为像素级、特征级和决策级三类。 尽管SAR与光学数据在成像机制上存在较大差距,但借助SAR图像通过像素级融合合成具有丰富纹理和结构信息的光学产品是可行的。 在这种情况下,配准变得极其重要,许多基于深度学习的 SAR 和光学数据配准方法被提出,例如孪生 CNN(Zhang 等人,2019c)和自学习和可迁移网络(Wang 等人,2018) ). 在获得一对共配准的 SAR 光学数据后,许多原本设计用于全色锐化的传统方法被扩展到 SAR 光学像素级融合。 孔等。 (2021) 提出了一个基于 GAN 的网络,包含一个 U 形生成器和一个卷积鉴别器,其中考虑了广泛的损失以完全消除散斑噪声并保留丰富的结构信息。 此外,光学图像很容易受到大气条件的影响,云层会严重损害光谱和空间信息。 幸运的是,由于不受天气条件的影响,SAR 几乎对这些因素不敏感。 因此,许多基于像素级的方法旨在借助同一区域的辅助 SAR 数据,从相应的云损坏光学图像生成无云光学图像(Gao 等人,2020 年;Grohnfeldt 等人, 2018)。 其中,Meraner 等人。 (2020) 采用简单的残差结构直接学习从输入数据对到无云目标的映射,即使在场景被厚云覆盖的情况下也能证明其优越性。 最近,李等人。 (2022b) 提出了第一个 SAR-光学时空融合方法,借助 Transformer 恢复多云地区的植被 NDVI。除了像素级融合之外,使用 SAR 光学数据的 LULC 分类等应用的高级融合也引起了相当大的兴趣。 胡等。 (2017) 提出了第一个基于 DL 的 HS-SAR 数据融合网络,其中使用简单而有效的双分支架构分别提取异构特征以进行最终的卷积融合。 然而,在不考虑信息冗余的情况下,这种直接的特征提取的效率仍然有限。 因此,设计了一种受稀疏约束约束的新型 BN 技术,以减少不必要的特征并使网络更好地泛化 (Li et al., 2022a)。 与此同时,Wang 等人。 (2022b) 提出了一个交叉注意辅助模块来实现特征融合,同时捕获输入数据的远程依赖性。 除了上述任务外,SAR-光融合还被应用于变化检测(Li et al., 2021)、生物量估计(Shao et al., 2017)等。
RS-GBD fusion
GBD 包含来自社交媒体、地理信息系统、手机等的广泛来源,这极大地有助于了解我们的生活环境。 更具体地说,RS 表现出从全球视角捕捉大尺度地球表面物理属性的强大能力。 另一方面,GBD提供的信息与人类行为高度相关,给出了丰富的社会经济描述,作为RS的补充。 值得注意的是,GBD 和 RS 在数据结构上存在很大差距,因此当前广泛用于提取模态特定特征的流行双分支网络不能直接用于 GBD 和 RS 数据的融合。 本节根据融合过程中使用的GBD类别,整理了一些RS-GBD融合的成功例子,如街景影像、POI、车辆轨迹数据等。 POI指的是可以抽象成一个点的物体 ,例如剧院、公共汽车站和房屋。 与RS数据不同,每个POI一般包含名称、坐标等一些地理信息,这些信息可以很容易地通过OpenStreetMap等电子地图获取。 由于每个 POI 的属性与功能设施密切相关,因此 POI 和 RS 之间的集成为城市功能区分类任务提供了新的机会。 最近,Lu 等人。 (2022) 提出了一种统一的基于 DL 的方法来联合利用 POI 和 RS 的特征。 具体来说,首先将POI转换为距离热图以满足CNN的输入要求,然后分别使用两个模块进行特征提取和空间关系探索。 还提出了其他具有不同结构的相关算法,例如深度多尺度网络 (Xu et al., 2020b; Bao et al., 2020) 和双分支网络 (Fan et al., 2021)。 除了上述城市功能区划分任务外,人口测绘也得到了POI的巨大帮助。 例如,Cheng 等人。 (2021) 首先将包括 POI、道路网络和 RS 图像在内的多模态数据转换为高维张量表示作为网络的输入,然后采用双流模型为人口提取空间和属性特征 估计。 除了 POI 之外,街景图像是另一个重要的数据源,可以从社交媒体(例如 Twitter、Instagram 和微博)和街景车(例如 Google、百度和高德)收集。 与 RS 数据不同,它从人类的角度给出了沿街道网络的细粒度图片,因此提供了关于我们周围环境的多样化和互补的描述(Lefèvre 等人,2017 年)。 Srivastava 等人给出了一个典型的例子。 (2019) 利用 RS 和谷歌街景数据实现城市土地利用分类。 更具体地说,使用双分支结构化网络分别从两种模态中提取特征,然后将这些特征堆叠成新特征以供以后分类。 值得一提的是,作者提出了一种新颖的解决方案来处理测试阶段缺少一种模态数据的棘手情况。 由于监督分类器的标签样本始终是一项昂贵且耗时的任务,Chi 等人。 (2017) 提出了一种借助社交媒体照片和深度学习来降低标记成本的新型系统,成功实现了 RS 图像分类。此外,其他种类的 GBD 在融合任务中也备受关注。 各种与市民相关的数据,例如出租车轨迹、时间序列电力和用户访问数据,被用于识别城市功能区(Qian et al., 2020; Cao et al., 2020; Yao et al., 2022)。 此外,刘等人。 (2022c) 设计了两个 AE,分别从轨迹和 RS 数据中提取模态特定和跨模态表示,在道路提取方面实现了显着的性能提升。 Mantsis 等人。 (2022) 使用与雪相关的推特和 Sentinel-1 图像来实现雪深估计。 他等人。 (2021a) 采用双分支网络从 RS 和腾讯用户密度中提取信息,以估计混合土地利用的比例。
list of resources
随着大量多模态遥感数据的可用,基于深度学习的技术在数据融合方面取得了相当大的突破。 大量使用各种多模态数据的深度学习模型和相关算法如雨后春笋般涌现,这给从事基于深度学习的多模态遥感数据融合研究的人们提供了无尽的灵感。 为了该领域的发展和交流,我们收集和总结了一些相关资源,包括初学者教程、文献中使用的可用多模态 RS 数据以及作者提供的开源代码。
tutorial
我们进一步为愿意从事 DL 相关 RS 任务的初学者提供了一些资料和参考,如表 4 所列。RS 类别中的参考资料可以让读者快速全面地了解 RS 的特性、原理和应用 与 RS 不同的方式。 DL 中的材料介绍了一些广泛使用的模型,这些模型构成了几乎所有基于 DL 的算法的支柱。 接下来,我们推荐了RS&AI中的5篇经典参考文献,旨在展示DL在RS中的一些成功应用。 通过上述教程及其引用,读者可以对相关背景有一个基本的了解,为进一步的研究做准备。 ![[截屏2023-02-25 23.08.07.png#center|表4 遥感图像融合领域新手教程]]
Available multimodal RS data
为了全面评估现有算法并为实际应用选择合适的模型,可用的多模态 RS 数据集是整个融合过程不可或缺的环节。 得益于IEEE地球科学与遥感学会数据融合技术委员会(DFTC),自2006年以来每年举办一次数据融合竞赛,为研究人员提供了宝贵的多模态遥感数据集,促进了数据融合领域的发展。 如今,这些可用的数据集已广泛用于方法评估的文献中。 更多信息可以在 Dalla Mura 等人中找到。 (2015) 和 Kahraman 和 Bacher (2021),它们提供了这些数据集及其应用的详细摘要。 因此,在本节中,我们收集了表 5 中的可用数据集,但 DFTC 提供的上述数据集除外,为 RS 社区做出了贡献。 ![[截屏2023-02-25 23.09.24.png#center|表5 遥感图像领域可用数据集]]
Open-source codes in DL-based multimodal RS data fusion
对于已经具备该领域一些背景知识并准备设计自己的算法的研究人员来说,开源代码可以为他们提供巨大的帮助。 在这种情况下,我们从 GitHub 和作者主页搜索可用代码并将其总结在表 6 中,以便对不同方法进行比较。
problems and prospects
最近在基于 DL 的多模态 RS 数据融合方面取得了很大进展。 然而,仍然存在一些问题有待解决。 本节旨在指出快速发展的领域当前面临的挑战,并展望未来的发展方向。
From well-registered to non-registered
图像配准是许多 RS 任务的基本先决条件,例如数据融合和变化检测。 由于两种模态之间的配准精度对图像融合具有不可忽视的影响,因此高精度对齐待融合数据成为融合过程之前极其重要的一步,特别是对于像素级融合。 由于同时配备Pan和MS传感器的平台较多,在相同的大气环境下,同一采集时间很容易获得成对的Pan-MS图像,大大降低了配准难度。 相反,在相同情况下,要获得成对的HS-Pan或HS-MS图像是相当困难的,因此与Pan-MS相比,数据配准成为一项至关重要的任务。 然而,通过假设输入数据完美地共同配准来设计高级融合算法并因此忽略了这种预处理的重要性,已经给予了很多关注。 只有少数基于 DL 的融合工作通过联合实现图像配准和融合来关注多任务。 最近,郑等人。 (2022) 尝试在端到端无监督融合网络中实现配准和融合任务,其中输入是一对未配准的 HS-MS 数据。 将来,建议更多地关注注册步骤并将此预处理纳入融合过程。
From image-oriented to application-oriented quality assessment
输出产品的质量评估是整个融合过程中不可或缺的一部分。 高级融合的评价,即特征级和决策级,通常取决于后续应用的性能,如分类、目标检测和变化检测。 然而,像素级融合的评估通常是通过计算空间和光谱域的相关指标来实现的,它可以分为两类,即有参考质量和无参考质量。 对于第一类,在融合产品和参考图像之间计算一些广泛使用的指标,如 SSIM、SAM 和 ERGAS。 然而,现有的指标不足以全面、公平地展示和比较各种方法,这不可避免地阻碍了用户为实际应用选择合适的方法。 最近,朱等人。 (2022) 提出了一种新的时空产品质量评估框架,它不仅考虑了空间和光谱误差,还考虑了输入数据和地表的特征。 另一方面,参考图像在实践中很可能不容易获得,因此迫切需要设计一个不需要参考图像的索引。 刘等人。 (2015)通过使用更符合人类视觉系统的高斯尺度空间提出了全色锐化的非参考指标。 此外,一些研究人员采用面向应用的评估指标来判断全色锐化方法的性能,例如,Qu 等人。 (2017) 通过比较全色锐化输出中的异常检测性能来评估全色锐化方法。 通常,更希望使用与应用程序相关的指标来评估不同的算法,因为融合的目的是结合互补信息以在特定应用程序中做出更好的决策。 因此,基于深度学习的融合方法将与应用相关的指标纳入其损失函数,以引导网络学习更适合后续应用的代表性输出是一种很好的方式。
From two-modality to multi-modality
随着机载和星载平台上多个传感器的快速发展,模式的可用性变得更加多样化。 目前,大多数基于深度学习的融合算法仅针对双模态设计,限制了多模态的应用能力。 因此,如何有效利用更多模态数据并充分发挥其潜力并进一步突破性能瓶颈是多模态数据融合任务中的一个挑战。 更重要的是,随着越来越多的模态数据可以轻松访问,未来的研究可以考虑开发一个统一的基于 DL 的框架,该框架可以处理任意数量的模态作为输入。
From multimodal to crossmodal learning
尽管具有不同特征的多模态数据有助于我们对世界的理解,但在实际场景中更有可能缺少某些模态数据。 例如,SAR 和 MS 数据在全球范围内可用。 相比之下,由于传感器的限制,HS数据更难收集,这可能导致某些地区的数据短缺。 因此,如何将隐藏在多模态数据区域的信息转移到一种模态缺失的场景中,是跨模态学习要解决的一个典型问题。 Hong 等人提出了一种基于 DL 的代表性方法来解决这一实际问题。 (2020b),其中在训练阶段使用有限数量的 HS-MS 或 HS-SAR 对,以在仅由一种模态数据(即 MS 或 SAR)覆盖的区域中实现大规模分类任务。 在未来,相信在 RS 大数据和 DL 的影响下,这个关键领域将在 RS 融合社区中受到更多关注。
From single-platform to cross-platform
目前的观测平台已经扩展到地基、机载和天基领域,为用户提供了无穷无尽的跨平台数据。 特别是,无人机因其高机动性而在 RS 社区中受到越来越多的关注,在许多任务中显示出巨大的潜力(Wu 等人,2021b)。 虽然来自跨平台的图像使我们能够以新的视角观察地球环境,但这些数据不仅在空间尺度上表现出完全不同的特征,而且在获取时间上也存在差异,这成为了不可忽视的障碍。 融合程序。 因此,如何突破不同平台之间存在的壁垒,实现有效的信息交互是未来需要研究的方向。
From black-box to interpretable DL
尽管深度学习近年来取得了许多突破,但它经常被指责为一种莫名其妙的黑盒学习过程。 与具有明确物理和数学含义的传统方法不同,基于深度学习的方法提取难以解释的高级特征。 如第 3.1.1 节所述,许多模型驱动的基于 DL 的方法相继被提出来设计一个完全可解释的网络,每个模块呈现一个特定的操作。 模型驱动和数据驱动方法的结合为理解黑盒网络中的工作流提出了新的观点,也指出了使黑盒透明的解决方案。 然而,该解决方案仅限于空间光谱融合领域,难以应用于特征级和决策级融合。 因此,高层次融合还停留在研究人员非常关注特征提取和特征融合的阶段,而没有充分了解网络真正学习的内容。 然而,了解每个隐藏层学习的特征有助于设计更有效的网络结构来挖掘判别特征,从而提高高级任务的性能。
conclusion
不断增长的多模态 RS 数据对 EO 任务既是挑战也是机遇。 通过共同利用它们的互补特性,近年来取得了重大突破。 特别是,人工智能相关技术由于其在特征提取方面的优越性,已经显示出其优于传统方法的优势。 在上述 RS 大数据和尖端工具的推动下,基于 DL 的多模态 RS 数据融合成为 RS 社区的重要课题。 因此,这篇综述对这个快速发展的领域进行了全面的介绍,包括文献分析、RS融合中几个流行子领域的系统总结、可用资源列表以及未来发展前景。 具体来说,我们专注于第二部分,即不同融合子域中基于 DL 的方法,并在使用的模型、任务和数据类型方面进行了详细研究。 最后,我们欣喜地发现,DL 已应用于多模态 RS 数据融合的各个角落,并在近年来取得了巨大而有前途的成就,这为研究人员在未来进行深入研究提供了更多信心。
页:
[1]