《Pattern Recognition》:Description Helps: Semantic and Texture Consistency Constraints for SAR-to-Optical Translation
编辑推荐:
SAR光学合成中,现有方法存在语义不一致问题,本研究提出融合文本指导与跨模态一致性约束的框架,通过光学图像对生成可靠语义标注,构建不确定性感知自适应融合机制,实现文本自由端到端生成,并在三个基准数据集上验证优于现有方法。
Fanhao Zhou | Mingtao Feng | Fangfang Wu | Le Dong | Weisheng Dong
西安电子科技大学人工智能学院,中国山西西安 710126
摘要
从合成孔径雷达(SAR)数据合成光学图像为解决SAR图像固有的可解释性挑战提供了一种有前景的解决方案。尽管现有的SAR到光学(S2O)方法已经取得了显著进展,但它们经常在生成结果与输入SAR数据之间存在语义不一致性问题,例如将沙漠地形误判为森林景观。虽然基于语言的技术在提高生成一致性方面被证明是有效的,但直接从SAR图像中获取准确的文本描述仍然具有挑战性。本研究利用了这样一个观察结果:与SAR数据配对的光学图像本身具有较高的可解释性,从而实现了可靠的语义注释。因此,我们提出了一种新的训练范式,在训练过程中整合了来自光学图像的文本描述,同时在推理过程中实现了无文本的端到端生成。在这项工作中,我们引入了一个跨模态一致性约束模块,明确强制合成输出与SAR输入之间的语义和纹理对齐,从而增强了跨域特征对应关系。为了进一步改进多模态表示学习,我们提出了一种基于不确定性的自适应融合机制,该机制根据模态的可靠性动态地权衡它们的贡献,从而实现更健壮和具有区分性的特征集成。在三个经典的S2O数据集上的广泛实验清楚地证明了我们模型的有效性。源代码、预训练模型和数据集可在以下链接获取:
https://github.com/fhzhouxdu/STCC
引言
SAR数据是一种关键的遥感技术,具有独特的优势,包括不受云层、降雨和雾等不利条件影响的昼夜和全天候成像能力[1]。这些特性使得SAR在云层去除和全天候光学信息恢复等应用中特别有价值,因为在这些应用中,光学传感器的性能会严重下降[2]、[3]。此外,SAR能够穿透植被或特定材料,从而观察原本被遮挡的特征。然而,尽管SAR具有很强的鲁棒性,但由于斑点噪声、几何畸变和复杂的非线性后向散射效应,SAR图像仍然难以解释,这导致了光谱歧义,并阻碍了与光学数据的直观分析和协同作用[4]。为了解决这些挑战,最近的研究探索了S2O转换[5]、[6],旨在合成感知上对齐的光学类图像,以促进人类解释和多源数据融合。
然而,SAR图像中的相干斑点噪声和几何畸变往往会导致仅依赖SAR输入的跨模态生成模型出现语义不匹配。如图1所示,CCM[8]错误地将沙漠SAR场景转换成了山地光学景观。从定量上看,如表1所示,最先进的GAN和基于扩散的方法在SEN1-2数据集上通常只能达到150–265的FID分数,表明存在显著的语义差异。先前的研究表明,在生成任务中结合文本描述可以提高语义一致性,例如PASD[9],它为图像超分辨率引入了文本指导。然而,由于SAR解释的固有复杂性,直接从SAR数据中提取可靠的文本提示仍然非常具有挑战性,而从配对的光学图像中提取语义描述则相对可行。尽管最近取得了进展,S2O转换仍然受到SAR歧义引起的语义不一致性的影响。现有方法主要依赖于外观级别的监督,或者在推理时需要外部语义线索,这在标准的仅SAR推理设置下改进语义一致性的问题仍然大部分未得到解决,这激发了本项工作的开展。
为了解决上述挑战,我们提出了一个具有三个关键目标的新型S2O框架:(1)在训练过程中利用文本描述,同时实现无文本推理;(2)通过跨模态一致性约束强制语义和纹理对齐;(3)引入基于不确定性的自适应融合机制以实现健壮的特征集成。我们不是从SAR数据中提取不可靠的描述,而是使用预训练的遥感视觉语言模型[10]从配对的光学图像中获取文本注释,然后通过轻量级手动细化来确保语义真实性。在训练过程中专门使用这些文本指导,帮助模型内化可以在推理时仅通过SAR输入激活的语义上有意义的表示。如图1所示,所提出的框架生成的光学图像保留了SAR衍生的语义,同时保持了高色彩和纹理保真度。在标准基准测试上的广泛实验清楚地证明了我们模型相对于现有技术的方法的优势。我们的主要贡献总结如下:
- •
一个利用文本描述来增强S2O转换的训练框架,同时支持完全无文本的推理。
- •
一个强制SAR输入与合成光学图像之间语义和纹理对齐的跨模态一致性约束。
- •
一种用于动态和可靠的多模态特征集成的基于不确定性的自适应融合机制。
- •
一个用于S2O任务的Text–SAR–Optical数据集,以及全面的实验验证。
部分摘录
图像到图像转换(I2I)。
早期的I2I转换是由生成对抗网络(GANs)推动的,它们通过对抗训练建立跨模态映射[11]、[12]。Pix2Pix[11]结合了对抗损失和L1损失来捕捉全局结构和细节。最近,扩散模型通过其强大的生成能力推进了I2I任务[13]、[14]。BBDM[13]将I2I转换重新定义为布朗桥过程,从而直接学习跨域映射,从而提高了
问题表述
给定一个配对的S2O数据集
其中
表示大小为H × W且通道数为Csar的SAR图像;
表示大小为H × W且通道数为Copt的光学图像。我们的目标是从输入的SAR图像X生成预测的光学图像
首先,我们使用一个预训练的遥感导向的大型语言模型[10]为每个光学图像自动生成描述性信息。对于生成内容中某些不准确的提示词
数据集
所提出的框架在三个成熟的S2O基准测试上进行了评估:SEN1-2 [30]、SAR2Opt [31]和SpaceNet6 [32]。所有图像都被调整为256 × 256像素以保持一致性。使用预训练的遥感视觉语言模型[10]为配对图像生成文本描述,然后通过轻量级手动细化来构建多模态数据集。这些数据集在传感器、平台、空间分辨率和成像条件上有所不同,提供了多样化的评估
结论
在本文中,我们提出了一个新颖的S2O生成框架,它在训练过程中利用文本描述,同时实现完全无文本的推理。通过共同强制语义一致性和采用基于不确定性的自适应融合策略,所提出的方法在语义真实性和视觉真实性方面优于现有方法。我们进一步整理了一个多模态SAR–光学–文本数据集,以促进有效的跨模态表示学习。
CRediT作者贡献声明
Fanhao Zhou:撰写——原始草稿、验证、软件、方法论、调查。
Mingtao Feng:撰写——审阅与编辑、监督、资源、方法论。
Fangfang Wu:可视化、软件、数据整理。
Le Dong:撰写——审阅与编辑、可视化、软件、形式分析。
Weisheng Dong:撰写——审阅与编辑、监督、资源、项目管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作部分得到了中国国家自然科学基金(项目编号62373293、62463020、62403189)的支持。