利用光学图像和SAR图像进行自我监督预训练，以提取洪水淹没范围

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Self-Supervised Pretraining via optical and SAR images for Flood Inundation Extent Extraction

【字体：大中小】 时间：2026年03月18日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出基于光学图像掩码建模与光学-SAR对比学习的跨域自监督预训练框架，结合跨时注意力机制change detection网络，有效提取洪水淹没范围，实验表明优于现有方法。

作者：龚世文、郑阳、王德豪、徐琳娜、刘琼、张旭翔

华中科技大学电子信息与通信学院，中国湖北武汉，430074

摘要

变化检测技术在洪水淹没范围提取中发挥着重要作用。在这些方法中，自监督学习是最新的也是最具代表性的方法。在本文中，我们提出了一种基于光学图像掩码建模和光学SAR对比学习的跨模态自监督预训练框架。光学图像是经过水增强处理的多波段融合图像。该预训练框架利用两种模态之间的互补信息来提取与水相关的特征表示，而无需标注数据。然后，我们将预训练模型灵活地应用于不同类型的遥感图像的洪水淹没范围提取任务。由于洪水淹没范围提取任务需要我们在双时相遥感图像之间进行信息交互，我们提出了一个基于跨时相注意力的变化检测网络，以有效捕捉由洪水淹没引起的时序变化。在三个公开数据集上的实验表明，所提出的方法优于其他最先进的方法。

引言

洪水是全球最常见的破坏性自然灾害之一[1]。仅在2021年，全球就发生了206次重大洪水事件，影响了超过2920万人，造成4000人死亡，并导致直接经济损失746亿美元[2]。洪水灾害的特点是突发性强、蔓延迅速且覆盖范围广。传统的地面调查方法存在覆盖范围有限和响应延迟等局限性，难以满足大规模洪水监测的需求[3]、[4]。相比之下，卫星遥感技术作为一种不可或缺的工具，凭借其广泛的覆盖范围、长期观测和定期监测的优势，在洪水监测中发挥了重要作用[5]。洪水监测的关键在于提取洪水淹没的范围。利用变化检测技术结合洪水前后的图像来提取洪水淹没范围是最有效的策略之一[6]、[7]。

变化检测方法可以提取洪水前后图像中的空间和时间变化信息，从而获得洪水淹没的范围[8]。由于深度学习架构在利用图像特征方面具有强大的能力，因此在变化检测和洪水淹没范围提取领域受到了越来越多的关注。许多基于卷积神经网络（CNN）的变化检测方法已被应用于洪水淹没范围提取任务[9]、[10]、[11]。例如，Daudt等人[12]提出了两种基于全卷积早期融合（FC-EF）模型的孪生全卷积架构。第一种称为FC-Siam-conc，它在解码阶段连接两个流中的跳跃连接以融合多尺度特征；第二种称为FC-Siam-diff，它利用双流跳跃连接的绝对差异来突出变化信息。Liu等人[13]提出了一个双任务约束的深度孪生卷积网络（DTCDSCN），该网络同时进行变化检测和语义分割，有效增强了变化特征的区分能力。此外，Konapala等人[14]提出了一个端到端的U形网络，用于预测洪水事件前后光学图像和合成孔径雷达（SAR）图像之间的洪水淹没范围。He等人[15]提出了一个新的全连接深度卷积神经网络，该网络支持异构图像以提取洪水淹没范围。这些基于CNN的CD方法通过补丁卷积来提取局部时空特征。

最近，基于自注意力的强大全局特征建模能力，视觉变换器（ViT）在变化检测领域占据了主导地位，并在洪水淹没范围提取领域引起了关注。例如，Cheng等人[16]开发的双时相图像变换器（BIT）利用自注意力机制来聚合来自类似ResNet的骨干网络输出的空间时间特征。Bandara等人[17]提出了一个基于变换器的孪生变化检测框架（ChangeFormer），该框架采用分层变换器骨干网络来捕捉多尺度长距离细节。Zhang等人[18]提出了一个结合Swin Transformer和U-Net的纯变换器网络，以提取时空中的长期全局信息。此外，Saleh等人[19]开发了一个轻量级的SAR变换器网络，该网络具有维度注意力机制，能够更有效地捕捉洪水引起的变化，同时减少计算开销。Du等人[20]提出了一个自适应窗口和上下文感知的注意力网络，实现了高精度的基于SAR的洪水变化检测。

尽管这些方法取得了显著进展，但在洪水淹没范围提取的实际应用中仍存在挑战。一个关键问题是数据的普适性不足，因为大多数方法主要是为高质量且无云的光学图像设计的。虽然光学图像提供了丰富的语义细节，但它们通常伴随着云层或降雨，尤其是在极端天气条件下，这限制了它们在非时间关键应用中的使用[21]、[22]、[23]。相比之下，SAR几乎不受天气条件的影响，使其在应急响应中不可或缺[24]、[25]。鉴于这些考虑，迫切需要开发一个能够处理光学和SAR图像的通用模型，以应用于更广泛的洪水淹没范围提取场景。另一个关键问题是依赖大量的标注数据，因为这些方法需要足够的训练样本来确保深度学习网络的训练性能。然而，数据标注需要大量的时间和劳动力成本，这在面对突发洪水灾害时容易导致样本短缺。因此，迫切需要开发一个能够在有限样本的情况下从光学和SAR图像中提取深度特征的通用模型。

最近，自监督学习（SSL）在许多遥感处理领域引起了广泛关注。SSL可以在未经标注的数据上执行预训练模型，以学习通用特征表示，并可以将预训练模型灵活地应用于各种下游任务[26]、[27]、[28]。现有研究表明，自监督学习在变化检测任务中取得了显著的成功。例如，Zhang等人[29]提出了一种结合对比学习和掩码预测的预训练框架，使用RGB图像和高程图像，简称RECE。这个预训练模型在光学图像的传统变化检测任务中表现良好，如土地覆盖和建筑物变化检测。此外，Feng等人[30]引入了一种基于Barlow Twins自监督对比学习算法的跨模态变化检测方法。该方法从未经标注的光学和SAR双时相遥感图像中学习洪水淹没区域的视觉特征表示。这种经典的对比SSL模型为洪水淹没范围提取提供了新的方向。然而，这种对比跨模态方法主要强调全局语义一致性，而缺乏对局部空间结构的显式建模。在高度异构的光学-SAR跨模态场景中，这种局限性尤为明显，因为成像机制的显著差异阻碍了精细洪水相关变化和水边细节的有效捕捉。

受上述思想的启发，我们在本工作中推进了跨模态自监督预训练的融合趋势。我们设计了一种基于光学图像掩码建模和光学SAR对比学习的新型自监督预训练方法，用于洪水淹没范围提取，简称MRCL。整个框架包括两个阶段：跨模态自监督预训练和洪水淹没范围提取。在预训练阶段，使用了视觉变换器（ViT）骨干网络[31]，其全局自注意力机制有效地模拟了洪水淹没区域中的长距离依赖性。为了在将预训练模型转移到下游洪水淹没提取任务之前增强水体表示，我们设计了一种水增强多波段融合策略（WEMBF）来构建增强水的光学图像。然后将融合图像进行掩码图像建模，并与SAR图像结合，构建一个跨模态对比预训练框架。该框架通过ViT对掩码图像执行重建任务，使模型能够捕捉局部细节和全局语义结构。同时，它在跨模态图像上执行对比学习任务，使模型能够利用互补特征来提高特征提取性能。预训练完成后，将骨干网络转移到下游洪水淹没范围提取任务，其中设计了一个具有孪生结构的变化检测网络，以并行提取洪水前后图像的特征。该网络采用跨时相注意力模块（CTA）来强调变化特征。由于我们分别为光学和SAR图像预训练了独立的骨干网络，因此可以根据实际可用的图像在下游任务部署时灵活选择和转移适当的骨干网络。该网络引入了统一的感知解析网络（Uper-Net）[32]作为解码器，生成高精度的洪水淹没地图。

主要贡献总结如下：

我们提出了一种基于ViT的跨模态自监督预训练框架，该框架结合了光学掩码重建和光学SAR对比学习，以实现向光学或SAR图像的鲁棒特征表示转移。
我们设计了一种用于光学图像的水增强多波段融合策略，可以在没有标注数据的情况下指导预训练框架增强水体表示。
我们构建了一个基于跨时相注意力的变化检测网络，用于洪水淹没范围提取，可以增强洪水淹没区域的变化特征。

方法

我们的方法可以分为两部分：跨模态自监督预训练和将模型转移到洪水淹没范围提取任务。整个框架如图1所示。

实验数据集

本研究使用公开的S1S2-Water数据集进行预训练，并使用三个公开的变化检测数据集进行洪水淹没范围提取。

S1S2-Water数据集 [42]。该数据集是一个全球跨模态地表水分割基准，包含Sentinel-1（SAR）和Sentinel-2（光学）图像。它覆盖了29个国家的65个区域，面积约为65万平方公里，包括18种主要土地覆盖类型。数据收集时间为2018年5月21日至11月26日

结论

在本文中，我们提出了一种名为MRCL的洪水淹没范围提取方法。通过融合NDWI、NIR和绿波段，MRCL方法专注于与水相关的特征表示。通过结合光学掩码重建和光学SAR对比学习任务设计跨模态自监督预训练框架，MRCL方法可以在没有标注数据的情况下学习通用的与水相关的特征表示

CRediT作者贡献声明

刘琼：监督、资源管理、项目协调、资金获取。 徐琳娜：监督、资源管理、资金获取。 王德豪：调查、数据管理、概念化。 郑阳：可视化、验证、软件开发、方法论。 龚世文：撰写初稿、软件开发、方法论、调查、正式分析。 张旭翔：撰写修订稿、监督、资金获取。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

本工作部分得到了国家自然科学基金（项目编号62071438）的支持。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：张旭翔报告称获得了国家自然科学基金的支持。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

龚世文目前正在华中科技大学电子信息与通信学院攻读博士学位。他的研究专注于3D视觉和点云处理，旨在开发从稀疏、噪声大和不完整的实际数据中重建高保真3D模型的鲁棒算法。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验数据集

结论

CRediT作者贡献声明

利益冲突声明

利益冲突声明

热点排行

新闻专题