《Pattern Recognition》:FCdDNet: Feature Cross-Domain Decoupling Network for Remote Sensing Change Detection
编辑推荐:
遥感变化检测中混合特征提取易导致类别边界模糊。本文提出FCdDNet模型,通过Siamese U-Net提取双时相图像深度特征,设计跨域特征解耦器分离公共与唯一特征,利用原型对比学习增强特征区分能力,并引入过期望推拉损失正则化优化分类。实验表明该方法在精度、召回率等指标上显著优于现有模型。
王斌|王博|秦品乐|曾建超
中国北方大学数据科学与技术系,太原,030051,中国
摘要
基于深度学习网络的遥感变化检测(RSCD)已经取得了显著成果。然而,当前的RSCD深度神经网络通常使用混合特征提取和融合方法,这容易导致预测类别边界模糊。为了解决这个问题,本文提出了一种基于跨域特征解耦的RSCD模型。首先,通过孪生U-Net网络提取双时相图像的深度特征信息,并通过交叉熵进行过程监督来确保特征提取的有效性。接下来,通过跨域特征分离器直接获得双时相图像的公共特征和每个阶段的独特特征,从而实现对变化和未变化特征的分离表示。同时,通过重建损失函数确保解耦特征的完整性。然后,设计了公共特征和独特特征的对比学习原型,以便不可靠的像素能够与可靠像素计算出的原型对齐。最后,为了更好地促进变化检测(CD)像素分类,本文提出了一种过度期望的推拉损失正则化项,旨在通过增强预测期望来扩大类别间的距离,从而将正负特征分开。实验表明,所提出的方法在定性和定量指标上都取得了显著改进。
引言
RSCD旨在比较同一区域在不同时间拍摄的多时相图像之间的差异,并标记变化区域。它已广泛应用于城市扩张分析、灾害评估、军事打击监测和植被覆盖检测等领域[1]、[2]。
现有RSCD模型学习到的特征表示往往高度耦合,这意味着所有生成因素都纠缠在一起并混合编码到潜在表示空间中。为了解决这个问题,基于解耦表示学习的RSCD方法被设计出来,以获得明确且可解释的变化/不变语义表示,从而识别和解锁观测到的RS数据中隐藏的潜在因素。
现有的RSCD方法大致可以分为两类:特征提取和域适应[3]、[4]。基于特征的变化检测(CD)方法大致可以分为两类:传统方法和深度学习方法[5]、[6]。传统CD方法(如图像运算、图像变换和分类后处理)由于依赖于手工制作的特征,通常性能不佳且泛化能力差。此外,一些关键超参数(如分割阈值)需要专业知识和丰富经验来优化。为了提高模型的可解释性,孙等人深入分析了双时相异构图像内部的关联,并基于图机器学习理论建立了各种异构RSCD的数学模型[7]、[8]。目前,深度学习方法由于其强大的端到端特征提取和非线性表示能力而被广泛应用于CD任务。代表性的深度学习框架包括卷积神经网络(CNNs)[9]、Transformer[10]、Mamba[11]、扩散模型[12]及其混合变体。
CNN通过将卷积核滑动到局部区域上来提取特征,从而能够有效地捕捉数据(如图像)中的局部空间信息。它们可以高效处理具有明显局部特征的数据(如边缘和纹理)。常见的基于CNN的RSCD网络包括FCN、U-Net及其变体[13]、[14]。尽管CNN可以学习相邻特征之间的相关性,但其有限的采样范围限制了它们对长距离关系的建模。为此,一些研究利用基于Transformer的多头自注意力机制在空间和时间域内实现上下文建模,有效提高了RSCD的全局准确性[15]。此外,Mamba模型集成了综合选择性扫描模块,可以多方向选择性地扫描图像,从而捕捉来自不同方向的大规模特征。Mamba模型在RSCD中展示了其强大的时空关系建模能力和高效的全局上下文捕捉能力[16]。扩散模型通过前向扩散过程逐渐破坏数据结构,然后在反向去噪过程中学习从噪声中恢复数据,从而实现数据分布建模和生成等相关任务[17]。最近,研究人员采用多尺度架构从不同时间步长的配对RS图像中提取层次特征,从而提高了模型在复杂RSCD场景中的鲁棒性[18]。
然而,基于特征提取的深度学习框架通常泛化能力有限。也就是说,当跨域应用时,由于数据分布的差异,模型难以有效适应,导致CD性能下降。基于域适应的RSCD将双时相图像划分为源域和目标域,其目标是使在源域训练的模型能够有效地泛化到目标域[19]、[20]。例如,研究人员将双时相图像分解为风格特征和内容特征,直接在对齐的内容特征空间中搜索变化模式,以减轻风格变化(如光照变化)的不利影响[21]。尽管域适应方法旨在提高模型泛化能力,但当前模型在面对复杂和变化的RS数据时仍存在泛化能力有限的问题。当光照等因素导致RS数据分布差异增大时,模型在目标域上的性能可能会迅速下降。
迄今为止,尽管研究人员提出了各种模型来解决RSCD中的挑战,但大多数算法主要依赖于提取混合特征来预测变化区域。这可能导致两个关键问题:首先,不同的特征类型(如变化特征和不变特征)可能高度耦合,阻碍了特征空间内各种因素的独立效应区分,并削弱了模型的可解释性。从因果机制的角度来看,深度特征表示了高级但严重纠缠的图像表示,所有生成因素都被混合编码到一个特征空间中。如图1所示,这显然影响了下游任务(如分割、分类和检测等)的性能。其次,缺乏对变化相关特征的明确建模。直接解耦旨在将变化特定信息与不变背景(如土地覆盖变化(如新建筑、植被破坏等)分开。没有这种明确的解耦,现有方法通常需要将间接特征(如风格和内容)进行二次转换来隐式传达变化语义,从而增加了RSCD中逻辑推理的复杂性[22]、[23]。
针对上述问题,本文提出了基于特征跨域解耦的FCdDNet用于RSCD。如图2所示,FCdDNet的动机是通过学习特征分离器直接从跨域双时相图像中提取共享特征和独特特征。随后,模型努力聚合类内属性特征,同时通过原型对比学习增强其捕捉类间特征差异的能力,从而提高模型的特征区分能力。为了保证特征提取的有效性和完整性,设计了相应的损失正则化项(如推拉损失和重建损失等),以实现像素解耦和分类。
主要贡献如下:
- 1.
提出了一种跨域特征分离器,以实现公共特征和独特特征的分离表示学习,并从因果机制的角度明确建模变化语义信息。
- 2.
设计了对比学习机制,从可靠的变化和不变原型提供有效的监督信息,涉及解耦后不同像素类别之间的类间和类内距离。
- 3.
提出了一种过度期望的推拉损失正则化,以缓解当交叉熵预测接近真实值时损失值快速下降导致的训练退化。
本文的其余部分组织如下。第2节简要描述了相关工作。第3节主要描述了模型框架和细节。第4节介绍了实验设置。第5节展示了实验结果。第6节是结论。
部分片段
特征解耦
特征解耦[24]、[25]表示旨在通过特定方法和模型结构将混合特征分离成不同的、相对独立的子空间或表示形式,其中每个子空间编码数据的特定特征或因素[26]。这种方法有助于学习内在数据特征,并使模型更清楚地了解其决策所依赖的特定特征。
在CD领域,特征解耦可以广泛地
跨域特征分离器
传统的特征分离器通常是通过自由学习卷积操作获得的。本文提出了一种特征
数据集和评估指标
为了验证FCdDNet的有效性,我们在三个代表性的RSCD数据集(即LEVIR-CD[38]、CDD[39]和SECOND[40])上进行了实验。每个数据集包含在同一区域不同时间拍摄的配对RS图像及其CD结果。在客观评估方面,本文使用了五个评估指标——精确度(P)、召回率(Re)、F1分数、总体准确率(OA)和平均交并比(mIoU)——来全面评估实验结果。
比较方法
为了验证FCdDNet在双时相RS图像上的有效性,我们将其与几种最先进的CD方法进行了比较,包括DTCDSCN[41]、BIT[42]、Change Former[43]、ICIFNet[44]、DMinet[45]、USSFC-Net[46]、Change Mamba[47]和SEIFNet[48]。为了公平性,所有比较方法都使用作者发布的代码实现,其参数根据原始文献设置。
表1展示了不同模型在三个数据集上的定量指标。我们的模型
结论和未来研究
为了更好地捕捉双时相RS图像中变化区域的内在特征,本文提出了一种基于跨域特征解耦的RSCD模型。首先,设计了一个孪生U-Net从双时相图像中提取特征。其次,使用跨域特征分离器直接从双时相图像中提取共享特征和独特特征。第三,为解耦特征开发了对比学习策略,使不可靠的像素能够与
CRediT作者贡献声明
王斌:写作——审阅与编辑,撰写——原始草稿,验证,方法论,概念化。王博:软件,方法论,调查。秦品乐:写作——审阅与编辑,监督,资源,方法论,概念化。曾建超:验证,软件,调查。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作部分得到了山西省高等教育机构教学改革创新计划(项目编号J20240856);山西省研究生教育创新计划(项目编号2025AL12);山西省基础应用研究项目(项目编号20210302124165和TZLH20230818007)的支持;部分得到了教育部产教合作教育项目(项目编号221002722143739)的支持;