SAMDFuse：一种具有语义感知能力的多尺度鲁棒融合网络，用于合成孔径雷达（SAR）和光学图像的融合处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》：SAMDFuse: Semantic-Aware Multi-scale Degradation-robust Fusion network for SAR and optical images

【字体：大中小】 时间：2026年05月11日 来源：ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING 12.2

编辑推荐：

　　王若曦 | 李茵荷 | 张恩华 | 陈婉妮 | 王凯志上海交通大学集成电路学院，上海，200240，中国 **摘要** 合成孔径雷达（SAR）与光学图像的鲁棒融合对于提高下游任务的性能至关重要，例如土地分类和目标监测。然而，现有的融合框架在抑制SAR图像中固有的斑

　　王若曦 | 李茵荷 | 张恩华 | 陈婉妮 | 王凯志
上海交通大学集成电路学院，上海，200240，中国

**摘要**
合成孔径雷达（SAR）与光学图像的鲁棒融合对于提高下游任务的性能至关重要，例如土地分类和目标监测。然而，现有的融合框架在抑制SAR图像中固有的斑点噪声方面的能力有限，且缺乏有效机制来处理光学图像中的退化因素，如云层遮挡。此外，大多数当前的融合算法更注重视觉增强，对下游任务的帮助有限。为了解决这些问题，我们提出了一种抗退化且具有语义意识的SAR-光学图像融合网络，该网络具有三个主要贡献：
1. 设计了一种带有稀疏特征提取模块（SFEM）层的编码器架构。SFEM将稀疏自注意力（SSA）与混合尺度前馈网络（HSFN）结合，以抑制斑点噪声并增强稳定的跨模态判别特征。
2. 通过模拟真实的云层遮挡，开发了一种抗退化的数据增强策略，促使网络学习互补的跨模态信息，并在复杂条件下提高其泛化能力。
3. 语义引导融合模块（SGFMs）将多尺度语义特征注入解码器，使融合结果在保持光谱和结构一致性的同时，更好地支持下游的语义分割。
在WHU-OPT-SAR数据集上的实验表明，所提出的方法优于FusionMamba和VSFF等现有方法，实现了0.968的结构相似性指数（SSIM）、0.498的视觉信息保真度融合（VIFF）和52.82的平均交并比（mIoU）。在额外的数据集上也观察到了持续的改进，同时在严重退化情况下仍保持了结构鲁棒性和语义一致性。该项目可在以下链接获取：
https://github.com/christie6133/SAMDFuse

**引言**
光学传感器和合成孔径雷达（SAR）传感器是地球观测中最常用的两种模式，为遥感（RS）分析提供了互补的视角。光学传感器捕获多个光谱带的反射太阳辐射，为图像解释提供了丰富的光谱信息和详细的空间纹理（Kulkarni和Rege，2020）。然而，如图1所示，光学图像容易受到光照变化和大气干扰的影响，云层覆盖或雾霾会严重降低甚至遮挡地表观测。相比之下，SAR是一种主动式微波传感器，能够在全天候条件下进行成像（除非在大雨期间），并提供具有丰富空间细节的结构和几何信息。然而，SAR图像缺乏光谱内容，并且受到斑点噪声的固有影响，这降低了其可解释性。值得注意的是，如图2所示，由于光谱响应相似，某些特征在光学图像中无法区分。然而，通过利用它们不同的散射特征，这些特征在SAR图像中可以有效区分。因此，光学和SAR图像提供了关于同一区域的互补信息，通过多模态图像融合可以显著提高图像解释的准确性和鲁棒性（Ye等人，2024）。尽管它们具有很强的互补性，但由于两种成像机制之间的巨大跨模态差异，以及SAR图像中的斑点噪声和光学观测中的云层污染，SAR-光学融合仍然具有挑战性。

传统的SAR和光学图像融合方法主要依赖于数学变换来重新组织多源信息。其核心思想是分离、替换或重组空间和光谱成分，以整合两种模式的互补特性（Wang等人，2023）。尽管最近的研究结合了先进的融合策略，在斑点抑制和结构保留方面取得了一些改进，但大多数传统的SAR-光学融合方法仍然依赖于跨模态统计相似性的隐含假设。例如，基于多尺度分解的方法结合PCNN融合规则（W. Li等人，2023）和显著性驱动的总变分约束模型（Ye等人，2024）展示了有希望的性能提升。然而，这些方法通常需要预处理步骤，如强度归一化或灰度匹配，这可能会扭曲SAR图像的固有统计特性，并限制跨模态互补性的有效利用。此外，传统的融合架构缺乏有效机制来处理光学RS场景中的云层遮挡问题。它们的特征融合策略也相对粗糙，对于特定模式的成像差异适应性不足，这通常会导致结构扭曲、细节丢失，甚至在处理复杂或退化的数据（例如被云层覆盖或受噪声污染的数据）时产生人工特征。

随着深度学习的兴起，提出了各种基于学习的融合模型来克服传统方法在特征表示和融合策略设计方面的局限性。卷积神经网络（CNNs）、Transformer、自编码器、生成对抗网络（GANs）和扩散模型在端到端框架内展示了学习特定模式特征和自适应优化融合策略的强大能力（Kalamkar等人，2023）。这些方法在红外-可见光融合、医学图像融合等相关任务中取得了有希望的结果（Zhang等人，2021）。然而，SAR-光学融合与这些设置有根本不同，具有更大的跨模态差异和更复杂的退化模式。因此，现有的基于学习的融合模型难以泛化，往往无法在这个领域产生稳定的结果。

更具体地说，大多数现有的基于深度学习的多模态图像融合方法假设输入图像是干净、稳定且无退化的（Zhao等人，2023a），而这在实际情况中很少成立。如图3所示，SAR图像中的固有斑点噪声和光学图像中的云层遮挡是两种典型的退化形式。这些退化在光学图像中引入了不同程度的观测不确定性。在轻度污染的区域（例如薄云或雾霾），光学观测可能仍包含部分结构信息，尽管它被类似噪声的干扰所破坏。在重度遮挡的区域（例如密云），光学信息变得不可靠或完全缺失。从融合的角度来看，这种情况不应被视为重建问题，而应视为考虑可靠性的信息选择，即将不可靠的观测结果抑制，并强调来自另一种模式的互补线索。

目前，这在架构和优化层面都带来了挑战。首先，在架构层面，卷积特征提取模块倾向于最大限度地保留局部高响应区域，但缺乏专门的退化抑制机制，导致网络误将斑点引起的高频波动或云层引起的高强度区域解释为有意义的结构。在实际融合场景中，目标不是重建一种模式中物理上缺失的信息，而是抑制不可靠的观测结果并保留来自更可靠模式的互补信息。其次，在优化层面，主流的无监督融合损失强调像素强度或梯度幅度的“最大保留”。虽然这种设计在理想条件下有效，但在退化场景中会强化噪声模式而非真实的结构信息。例如，光学图像中的明亮云层区域可能会被错误地保留，而SAR图像中的斑点噪声可能会被误解释为纹理细节，最终导致人工特征的增强和退化区域内真实信息的丢失。表1中的统计结果进一步验证了这一观察：SAR图像的平均梯度幅度显著高于光学图像，而光学图像的平均强度明显更高。这些特定模式的偏差表明，在当前的损失函数设计下，融合模型容易受到斑点噪声和云层引起的亮度变化的影响，导致在退化区域产生偏置响应和特征保留不正确。

为了解决在退化RS场景中观察到的这些问题，我们认为需要在网络架构设计、融合目标和训练策略方面进行协调改进。在架构层面，现有方法常常将斑点引起的波动或云层引起的明亮区域误解为有效的结构信息，这表明缺乏明确的退化感知建模。此外，主流融合损失是手动定义的，与下游语义理解任务的对齐不足，限制了它们在融合输出中强制语义一致性的能力。最后，当前的训练数据集缺乏系统构建的退化样本，阻止模型学习在真实退化条件下仍然可靠的表示。

基于以上讨论，为了解决现有融合方法的局限性，我们引入了SAMDFuse（基于语义的多尺度抗退化融合），这是一种为退化补偿和语义意识设计的多尺度融合网络。该模型采用双编码器架构，具有对称的四阶段稀疏特征提取模块（SFEM）骨干。在每个尺度上，SFEM块在多尺度下采样过程中优先聚合空间连贯的结构响应，使网络能够区分有意义的地形特征和无关的斑点模式。此外，采用了一种抗退化的数据增强策略来系统地增强对光学图像中云层遮挡的鲁棒性。另外，引入了一个分层适应融合方案来模拟跨模态一致性和互补性：浅层特征强调结构一致性，而深层特征关注语义互补性。最后，语义预测分支和语义引导融合模块（SGFMs）将多尺度语义线索注入解码器，减少了对手工制作融合损失的依赖，并提高了融合结果的语义可解释性。

本研究的主要贡献总结如下：
1. 开发了一种抗退化的SAR-光学融合框架，该框架进行分层多尺度融合，以在保持语义一致性的同时保留结构细节。
2. 引入了一种抗退化的特征学习策略，以提高在实际RS退化条件下的鲁棒性。具体来说，SFEM抑制SAR图像中的斑点引起的波动，而云层模拟数据增强策略在训练过程中模拟不同程度的云层遮挡的光学观测。
3. 设计了一种语义引导的融合机制，将融合从视觉驱动的目标转变为任务驱动的表示学习。通过提出的SGFMs和语义预测分支，将多尺度语义线索注入解码器，提高融合结果的可解释性及其与下游语义解释任务的一致性。

总体而言，本研究提出了一个统一的融合框架，共同解决了结构鲁棒性、模式互补性和语义意识问题，为退化条件下的多模态RS图像融合提供了新的视角和范式。

**部分摘录**
传统的SAR和光学图像融合方法通常依赖于数学变换来重新组织空间和光谱成分。这些方法可以大致分为成分替换（CS）（Harris等人，1990；Pohl和Van Genderen，1998）、多尺度分解（MSD）（Pandit和Bhiwani，2015）、混合方法（Chibani，2006；Mercer等人，2005）以及基于模型的框架（Zhang和Yu，2010；Zhouping，2015）。具体来说，CS方法（例如IHS、PCA）

联系信箱：

粤ICP备09063491号

热点排行