利用多模态遥感数据通过深度学习自动识别活动性滑坡对于灾害风险管理至关重要(Liu等人,2021a)。整合来自干涉合成孔径雷达(InSAR)的表面变形、光学图像的表面特征和地貌背景以及数字高程模型(DEM)的地形约束等互补信息,是提高检测精度的一条关键途径(Lu等人,2024)。然而,这种方法面临着高风险的地理空间应用所固有的两个关键挑战。首先,这些数据源之间的内在异质性和特征错位阻碍了有效的跨模态特征融合。其次,深度学习模型经常难以处理模态冲突和数据质量变化,导致过自信但错误的决策,从而削弱了它们的可靠性(Guo等人,2017)。
深度学习在已发生和活动性滑坡的检测方面取得了进展。在单模态设置中,InSAR变形率方法可以学习变形模式来标记活动斜坡,但无法可靠地区分非滑坡变形,从而产生误报(Cai等人,2023;Chen等人,2024b;Zhang等人,2024b)。从CNN到Transformer和混合架构的光学模型在多尺度融合、远距离背景和边界划定方面表现出色(Li等人,2024b;Wu等人,2024;Fan等人,2025),但它们主要是事后处理,难以检测到在InSAR中明显但在表面形态中尚不明显的微妙滑坡前变形。这些限制,加上专家使用多种来源的做法,促使人们采用多模态方法,优先考虑InSAR并结合光学图像和DEM来共同检测、验证和绘制不同地形中的活动性滑坡。然而,InSAR/光学/DEM在空间分辨率和物理语义上的强烈异质性导致特征分布不匹配和跨模态对齐不完美,使得有效融合变得具有挑战性。
在视觉和语义分割中,多模态融合分为四种范式(图1)。早期通道合并(Early Fusion)在输入层堆叠模态,这种方法简单但忽略了异质性(Altarez等人,2023;Dabove等人,2024;Li等人,2024a)。它经常传播噪声,污染共享表示。特征级合并在并行分支中提取特征,然后在融合层合并它们(Jiang等人,2018;Liang等人,2023)。这捕获了一些互补性,但缺乏自适应的可靠性加权,因此弱或不确定的线索仍然存在。交换融合强制显式的跨模态交互,改善了信息流(Wang等人,2020)。然而,它可能导致语义漂移和冗余积累。交互式融合,如像素级交叉注意力(Zhang等人,2023)或分层交互(Fan等人,2024),改善了对齐和融合。然而,这些方法具有二次复杂性,限制了扩展到更多模态的能力。在不对齐的情况下,这些方法可能会过度融合冗余特征。因此,多模态活动性滑坡检测需要一种能够有效对齐异质特征、保持单模态区分能力并扩展到额外模态的融合机制。
最近在将深度学习应用于多模态滑坡检测方面的努力强调了这一需求。在早期通道融合方法中,研究人员探索了使用光学遥感和数字高程模型(DEM)数据(Wang等人,2024b)、合成孔径雷达(SAR)图像和光学图像(Chen等人,2024a)以及SAR图像和DEM(Dang等人,2024)的组合进行滑坡检测,通过早期通道融合实现了多模态融合。大多数当前研究采用特征合并融合方法来构建多模态滑坡识别模型。Liu等人(2023)和Wang等人(2024a)通过引入注意力机制增强了多尺度特征融合。Zhang等人(2024a)和Yang等人(2024)设计了双分支网络,分别从多模态数据中提取特征并在中间层进行特征融合,在特定场景中取得了改进。随着InSAR技术在变形监测中的广泛应用,最近的多模态滑坡检测研究创新性地引入了来自InSAR的变形信息,通过早期通道融合增强了活动性滑坡的识别能力(Guo等人,2022;Liang等人,2023;Li等人,2024a,2024c)。尽管取得了近期进展,活动性滑坡映射仍然缺乏一个能够综合考虑RGB图像、InSAR变形和DEM衍生地形信息的可靠性感知多模态框架。此外,这三种模态在空间分辨率、数值尺度和物理意义上高度异质,这常常导致跨模态不一致性,并削弱了模型预测的鲁棒性和校准。
这一困难凸显了一个关键问题:虽然特征级融合可以在模态完美对齐时聚合互补信号,但在现实世界的滑坡检测场景中,局部错位和数据质量不均常常在同一像素产生冲突线索。许多模型使用Softmax分数来估计置信度,这种做法在冲突区域是校准不当和过度自信的,从而产生假阴性和假阳性(Guo等人,2017)。因此,融合特征应伴随着显式的不确定性估计和校准,以提高分割精度和可靠性。
最近在证据深度学习(EDL)模型中的工作通过学习证据强度来处理不确定性,并在不同领域显示出前景(Sensoy等人,2018;Amini等人,2020;Gao等人,2024)。同时,Dempster–Shafer理论(DST)使得证据融合能够明确表示来源可靠性和来源间冲突,并通过折扣和组合规则稳健地聚合它们(Smets和Kennes,1994;Den?ux,2019;Shafer,2020)。然而,在遥感分割中,研究通常仍然是单模态的,或者只是用证据头替换Softmax(Huang等人,2022;Zhao等人,2023)。它们很少在融合过程中在像素和类别级别估计和折扣来源可靠性,这阻碍了由于对齐不完美而导致的不可靠特征的有效抑制。
基于这些挑战,我们提出了HAEFNet,一个将特征级交互与决策级证据融合相结合的分层框架,用于多模态活动性滑坡检测。在特征阶段,空间相干交叉注意力(SCCA)在共享的空间参考下执行像素级的多尺度交互,同时保留单模态分支以减轻错位。在决策阶段,地理空间证据决策模块(GEDM)首先产生每个模态的预测及其量化的不确定性,然后通过可靠性加权的证据将它们聚合,以产生准确且校准良好的活动性滑坡分割。该设计有效地融合了对齐区域的相关特征,同时保留了单模态信息,并在证据聚合之前对冲突线索进行可靠性加权,从而抑制了过度自信并产生了精确、可信的活动性滑坡地图。
本研究的主要贡献总结如下。首先,我们提出了HAEFNet,一个考虑可靠性的活动性滑坡检测框架,能够有效融合InSAR、光学和DEM数据。其次,我们设计了空间相干交叉注意力(SCCA)模块。它执行高效的像素级交互以增强互补特征,同时抑制由空间错位引起的噪声。第三,我们基于Dempster-Shafer理论开发了地理空间证据决策模块(GEDM)。该模块通过估计不确定性并基于学习到的可靠性融合多源证据来提高决策的鲁棒性。第四,我们构建了一个覆盖中国三个主要滑坡易发地区的大规模多模态数据集,并证明了HAEFNet在精度和泛化能力上优于现有方法。