《Neural Networks》:PHoM: Effective Pan-Sharpening via Higher-Order State-Space Model
编辑推荐:
多光谱与全色图像融合中,现有Mamba模型受限于一阶状态空间映射,难以捕捉高阶光谱特征交互。本文提出PHoM框架,通过分拆、交互、聚合的三阶段结构实现高阶特征建模,同时引入跨模态PHoM增强模态间高阶关联,保持线性复杂度优势。实验表明在WV2、GF2、WV3数据集上显著优于SOTA方法。
高鹏莲|葛宏伟|苏树志
教育部江南大学智能医疗技术工程研究中心,中国江苏省无锡市蠡湖大道1800号,214122
摘要
全景锐化旨在利用低分辨率的多光谱图像和高分辨率的全色图像对生成高分辨率的多光谱图像。最近,基于Mamba的全景锐化模型由于其高效的长距离关系建模而达到了先进的性能水平。然而,Mamba本质上遵循一阶高维状态空间非线性映射,这无法有效编码光谱特征的高阶交互作用。在这项研究中,我们提出了一种新型的高阶状态空间模型用于全景锐化(PHoM)。我们的PHoM遵循分割、交互和聚合的概念,以实现高阶空间自适应交互和判别学习,而不会引入过多的计算开销。为了模拟多光谱图像和全色图像之间的融合过程,我们进一步将PHoM扩展为跨模态PHoM,通过利用高阶跨模态相关性来进一步提高表示能力。我们在不同的数据集上进行了广泛的实验。实验结果表明,我们的方法在公共数据集上取得了显著的性能提升,优于以往的先进方法。
引言
随着遥感技术的快速发展,遥感卫星通常会捕获多光谱和高光谱图像数据,这些数据提供了丰富的空间和光谱信息,使得对地表特征的理解更加精确。然而,由于传感器信噪比、衍射极限(Li等人,2024年)以及不利的大气条件(Yin和Liu,2025年)等因素,获得同时具有高空间分辨率和完整光谱信息的遥感图像仍然是一个技术挑战。为了解决这一挑战,Vivone等人(2014年)将高空间分辨率的全色图像(PAN)与低分辨率的多光谱图像(LRMS)结合,以在保留丰富光谱信息的同时提高空间分辨率,从而生成高分辨率的多光谱图像(HRMS)。
全景锐化方法通常可以分为三类:细节注入方法、模型优化方法和基于深度学习的方法。细节注入方法,包括Gillespie等人(1987年)的Brovey方法、Kwarteng和Chavez(1989年)的主成分分析(PCA)方法、Laben和Brower(2000年)的Gram-Schmidt(GS)方法以及Nunez等人(2002年)的多分辨率分析(MRA)方法,假设图像的空间细节可以分离并作为可替换的组件进行处理。这些方法通常从高分辨率的全色图像中提取空间细节,并逐波段将其注入到LRMS中。Frosti Palsson等人(2015年)提出了MTF去模糊预处理方法,该方法基于传感器的调制传递函数解码插值的多光谱图像,从而提高融合图像的光谱和空间质量。Wei Huang等人(2022年)提出了DIMARN方法,该方法将差异策略与多分辨率分析(MRA)方法相结合。通过使用多尺度残差块,这种方法有效地生成了相应的注入系数,实现了空间信息到多光谱图像每个波段的高效映射。虽然细节注入方法提供了较高的融合率和出色的空间质量保持能力,但它们往往会导致融合图像中的光谱信息发生显著失真。
另一方面,模型优化方法利用退化模型来建立全色图像和LRMS及其对应HRMS之间的关系。这些方法明确地对退化过程进行建模,结合适当的先验和约束,然后使用优化技术来解决所需的高分辨率图像。这类方法通常分为基于贝叶斯的方法(Wang等人,2018年)和变分方法(Deng等人,2019年;Fu等人,2019年);然而,这些方法由于特征表示不足而经常面临性能限制。
近年来,深度学习技术的引入为全景锐化提供了新的方向,提供了更好地模拟空间和光谱特征之间非线性关系的数据驱动方法。通过结合卷积神经网络(CNNs)(LeCun等人,2002年)和频域分析技术,Masi等人(2016年)在2016年训练了第一个基于CNN的全景锐化网络,该网络主要由三个卷积层组成,以在图像融合过程中提高空间分辨率并显著改善结果图像的质量。
作为旨在提高多光谱图像空间分辨率的过程,全景锐化本质上是一个生成任务。生成对抗网络(GANs)(Goodfellow等人,2014年)使用对抗训练机制,其中生成器创建合成图像,而判别器指导生成器提高其真实性。Liu等人(2020a)首次将GANs应用于遥感图像融合,提出了PSGAN模型,其中生成器用于生成HRMS融合图像。尽管PSGAN在全景锐化中表现出高性能,但其在训练不稳定性和保持生成图像一致性和质量方面的挑战激发了探索能够捕捉数据中更长距离依赖关系的架构的兴趣。Zhou等人(2022a)引入了Transformer用于全景锐化,通过使用自注意力机制(Vaswani等人,2017年)来增强全景锐化图像的空间特征。Transformer模型中的注意力机制(Wang等人,2024年)在捕捉图像内部相关性方面被证明非常有效,表明强大的全局退化建模对于克服这些挑战至关重要。另一方面,尽管注意力机制有效,但由于其二次复杂性,它们在大规模图像处理时存在可扩展性问题(Jain和Wallace,2019年;Nurgazin和Tu,2023年;Yun等人,2019年)。作为回应,Gu和Dao(2024年)提出了一种更高效的方法,即结构化状态空间序列模型(S4)(Gu等人,2021年),该模型引入了选择性扫描以进行线性复杂性的长距离依赖关系建模。这一突破在Mamba框架(Gu和Dao,2024年;Liu等人,2024年;Zhu等人,2024年)中得到了体现,该方法利用这种技术建立了图像块之间的清晰关系,有助于从清晰区域到退化区域的识别和引导。然而,挑战在于Mamba主要依赖于像素序列,这限制了其捕捉更广泛退化模式的能力,特别是光谱特征中的高阶交互作用。
本文提出了一种新型的全景锐化高阶模型(PHoM),以解决现有基于Mamba的广义锐化方法在建模高阶特征交互作用方面的局限性。虽然Mamba在高效建模长距离交互作用方面表现出色,但其一阶状态空间形式化本质上限制了其捕捉光谱特征中复杂高阶相关性的能力。我们的PHoM框架通过引入分割、交互和聚合的结构化范式克服了这一问题。具体来说,光谱特征沿通道维度被分割成多个并行分支(Woo等人,2018年;Hu等人,2018年),并在状态空间中递归建模,以实现高阶特征交互。然后使用线性层融合这些表示,以实现自适应特征聚合。得益于这种设计,我们的PHoM自然继承了SSM的全局信息建模和线性复杂性的优势,同时将SSM中的二阶交互作用扩展到更高阶,进一步增强了建模能力。此外,由于通道分割策略,PHoM相比传统的SSM仅引入了有限的额外参数开销。为了模拟多光谱(MS)图像和全色(PAN)图像之间的复杂融合过程,我们将PHoM扩展为跨模态PHoM(C-PHoM)。C-PHoM明确捕捉了跨模态的高阶相关性,显著提高了模型的表示能力和有效整合两种模态互补信息的能力。我们在三个代表性数据集上进行了广泛的实验:WorldView-II(WV2)、Gaofen2(GF2)和WorldView-III(WV3)。结果表明,我们的方法达到了先进的性能。
本工作的主要贡献总结如下:
•我们提出了PHoM,这是一种新的框架,通过统一的高阶表示促进了丰富的空间-光谱特征交互,而不是像大多数现有方法那样孤立地处理空间和通道依赖性。
•我们的高阶结构范式通过隐式地将网络分解为N个交互阶段来实现深度特征交互,而无需堆叠多个模块,从而实现了更高效和精确的空间-光谱融合。
•通过结合通道分割、递归状态空间建模和自适应聚合,PHoM在保持状态空间模型的线性计算复杂性和全局感受野特性的同时,增强了它们的表示能力。
•我们进一步引入了C-PHoM,这是一种跨模态扩展,它捕捉了MS和PAN模态之间的高阶相关性,从而实现了更有效的全景锐化。
•在三个遥感基准数据集(WV2、GF2和WV3)上的广泛实验证明了我们方法相对于先进全景锐化方法的优越性和泛化能力。
部分摘录
全景锐化
全景锐化技术将高分辨率的全色图像与低分辨率的多光谱图像融合,以合成高分辨率的多光谱图像。传统方法(Deng等人,2019年;Fu等人,2019年;Gillespie等人,1987年;Huang等人,2022年;Kwarteng和Chavez,1989年;Laben和Brower,2000年;Li等人,2024年;Palsson等人,2015年;Wang等人,2018年)通常依赖于手工制作的数学模型来描述光谱-空间关系,使用显式
方法
本节首先介绍了状态空间模型的核心原理。然后详细阐述了我们提出的模型的动机、结构设计和关键组成部分。
数据集和基准
为了验证我们提出的方法,实验是在三个不同的数据集上进行的,这些数据集分别来自不同的卫星:WorldView-II(WV2)、Gaofen-2(GF2)或WorldView-III(WV3)。这些数据集涵盖了广泛的地理和环境场景,包括城市和农村地区,以及山区和河流。特别是,GF2数据集部分包含雾霾图像,增加了场景特征的多样性和复杂性。
结论
在本文中,我们成功解决了现有基于Mamba的全景锐化模型的一个根本局限性——它们本质上依赖于一阶状态空间映射,这种映射无法充分捕捉对光谱特征表示至关重要的复杂高阶交互作用。通过引入一种新型的全景锐化高阶状态空间模型(PHoM),我们为建模光谱数据中的复杂关系建立了新的范式。
CRediT作者贡献声明
高鹏莲:撰写——原始草案、验证、方法论、形式分析、数据整理、概念化。葛宏伟:资金获取。苏树志:资金获取。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
致谢
本工作得到了中国国家自然科学基金(项目编号52374155)、安徽省自然科学基金(项目编号2308085MF21)以及安徽省高等学校自然科学研究项目(项目编号2022AH040113)的支持。