洪水是全球最常见的破坏性自然灾害之一[1]。仅在2021年,全球就发生了206次重大洪水事件,影响了超过2920万人,造成4000人死亡,并导致直接经济损失746亿美元[2]。洪水灾害的特点是突发性强、蔓延迅速且覆盖范围广。传统的地面调查方法存在覆盖范围有限和响应延迟等局限性,难以满足大规模洪水监测的需求[3]、[4]。相比之下,卫星遥感技术作为一种不可或缺的工具,凭借其广泛的覆盖范围、长期观测和定期监测的优势,在洪水监测中发挥了重要作用[5]。洪水监测的关键在于提取洪水淹没的范围。利用变化检测技术结合洪水前后的图像来提取洪水淹没范围是最有效的策略之一[6]、[7]。
变化检测方法可以提取洪水前后图像中的空间和时间变化信息,从而获得洪水淹没的范围[8]。由于深度学习架构在利用图像特征方面具有强大的能力,因此在变化检测和洪水淹没范围提取领域受到了越来越多的关注。许多基于卷积神经网络(CNN)的变化检测方法已被应用于洪水淹没范围提取任务[9]、[10]、[11]。例如,Daudt等人[12]提出了两种基于全卷积早期融合(FC-EF)模型的孪生全卷积架构。第一种称为FC-Siam-conc,它在解码阶段连接两个流中的跳跃连接以融合多尺度特征;第二种称为FC-Siam-diff,它利用双流跳跃连接的绝对差异来突出变化信息。Liu等人[13]提出了一个双任务约束的深度孪生卷积网络(DTCDSCN),该网络同时进行变化检测和语义分割,有效增强了变化特征的区分能力。此外,Konapala等人[14]提出了一个端到端的U形网络,用于预测洪水事件前后光学图像和合成孔径雷达(SAR)图像之间的洪水淹没范围。He等人[15]提出了一个新的全连接深度卷积神经网络,该网络支持异构图像以提取洪水淹没范围。这些基于CNN的CD方法通过补丁卷积来提取局部时空特征。
最近,基于自注意力的强大全局特征建模能力,视觉变换器(ViT)在变化检测领域占据了主导地位,并在洪水淹没范围提取领域引起了关注。例如,Cheng等人[16]开发的双时相图像变换器(BIT)利用自注意力机制来聚合来自类似ResNet的骨干网络输出的空间时间特征。Bandara等人[17]提出了一个基于变换器的孪生变化检测框架(ChangeFormer),该框架采用分层变换器骨干网络来捕捉多尺度长距离细节。Zhang等人[18]提出了一个结合Swin Transformer和U-Net的纯变换器网络,以提取时空中的长期全局信息。此外,Saleh等人[19]开发了一个轻量级的SAR变换器网络,该网络具有维度注意力机制,能够更有效地捕捉洪水引起的变化,同时减少计算开销。Du等人[20]提出了一个自适应窗口和上下文感知的注意力网络,实现了高精度的基于SAR的洪水变化检测。
尽管这些方法取得了显著进展,但在洪水淹没范围提取的实际应用中仍存在挑战。一个关键问题是数据的普适性不足,因为大多数方法主要是为高质量且无云的光学图像设计的。虽然光学图像提供了丰富的语义细节,但它们通常伴随着云层或降雨,尤其是在极端天气条件下,这限制了它们在非时间关键应用中的使用[21]、[22]、[23]。相比之下,SAR几乎不受天气条件的影响,使其在应急响应中不可或缺[24]、[25]。鉴于这些考虑,迫切需要开发一个能够处理光学和SAR图像的通用模型,以应用于更广泛的洪水淹没范围提取场景。另一个关键问题是依赖大量的标注数据,因为这些方法需要足够的训练样本来确保深度学习网络的训练性能。然而,数据标注需要大量的时间和劳动力成本,这在面对突发洪水灾害时容易导致样本短缺。因此,迫切需要开发一个能够在有限样本的情况下从光学和SAR图像中提取深度特征的通用模型。
最近,自监督学习(SSL)在许多遥感处理领域引起了广泛关注。SSL可以在未经标注的数据上执行预训练模型,以学习通用特征表示,并可以将预训练模型灵活地应用于各种下游任务[26]、[27]、[28]。现有研究表明,自监督学习在变化检测任务中取得了显著的成功。例如,Zhang等人[29]提出了一种结合对比学习和掩码预测的预训练框架,使用RGB图像和高程图像,简称RECE。这个预训练模型在光学图像的传统变化检测任务中表现良好,如土地覆盖和建筑物变化检测。此外,Feng等人[30]引入了一种基于Barlow Twins自监督对比学习算法的跨模态变化检测方法。该方法从未经标注的光学和SAR双时相遥感图像中学习洪水淹没区域的视觉特征表示。这种经典的对比SSL模型为洪水淹没范围提取提供了新的方向。然而,这种对比跨模态方法主要强调全局语义一致性,而缺乏对局部空间结构的显式建模。在高度异构的光学-SAR跨模态场景中,这种局限性尤为明显,因为成像机制的显著差异阻碍了精细洪水相关变化和水边细节的有效捕捉。
受上述思想的启发,我们在本工作中推进了跨模态自监督预训练的融合趋势。我们设计了一种基于光学图像掩码建模和光学SAR对比学习的新型自监督预训练方法,用于洪水淹没范围提取,简称MRCL。整个框架包括两个阶段:跨模态自监督预训练和洪水淹没范围提取。在预训练阶段,使用了视觉变换器(ViT)骨干网络[31],其全局自注意力机制有效地模拟了洪水淹没区域中的长距离依赖性。为了在将预训练模型转移到下游洪水淹没提取任务之前增强水体表示,我们设计了一种水增强多波段融合策略(WEMBF)来构建增强水的光学图像。然后将融合图像进行掩码图像建模,并与SAR图像结合,构建一个跨模态对比预训练框架。该框架通过ViT对掩码图像执行重建任务,使模型能够捕捉局部细节和全局语义结构。同时,它在跨模态图像上执行对比学习任务,使模型能够利用互补特征来提高特征提取性能。预训练完成后,将骨干网络转移到下游洪水淹没范围提取任务,其中设计了一个具有孪生结构的变化检测网络,以并行提取洪水前后图像的特征。该网络采用跨时相注意力模块(CTA)来强调变化特征。由于我们分别为光学和SAR图像预训练了独立的骨干网络,因此可以根据实际可用的图像在下游任务部署时灵活选择和转移适当的骨干网络。该网络引入了统一的感知解析网络(Uper-Net)[32]作为解码器,生成高精度的洪水淹没地图。
主要贡献总结如下:
- 我们提出了一种基于ViT的跨模态自监督预训练框架,该框架结合了光学掩码重建和光学SAR对比学习,以实现向光学或SAR图像的鲁棒特征表示转移。
- 我们设计了一种用于光学图像的水增强多波段融合策略,可以在没有标注数据的情况下指导预训练框架增强水体表示。
- 我们构建了一个基于跨时相注意力的变化检测网络,用于洪水淹没范围提取,可以增强洪水淹没区域的变化特征。