CDEHAT：一种基于条件扩散辅助的增强型混合注意力Transformer，用于遥感图像的超分辨率处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》：CDEHAT: Conditional Diffusion-Assisted Enhanced Hybrid Attention Transformer for remote sensing imagery super-resolution

【字体：大中小】 时间：2026年03月24日 来源：ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING 12.2

编辑推荐：

　　遥感图像超分辨率中，传统方法因缺乏HR参考导致指导不足，且CNN和Transformer存在局部与全局建模的局限性。本文提出CDEHAT框架，通过双分支结构实现：CDP模块利用扩散模型学习LR-HR映射的退化先验，增强跨场景适应能力；CDEHAT-SR模块结合局部增强型混合注意力（LEHAB）与全局增强型混合注意力（GEHAB），提升多尺度特征融合与细节恢复能力。实验表明，该方法在PSNR上优于基线，尤其在复杂场景中结构细节和纹理恢复效果显著。

吴先德|刘瑞|吴伟|杨海平|杨辽

浙江工业大学地理信息学院，中国杭州

摘要

基于深度学习的方法结合混合架构在遥感图像超分辨率（SR）方面取得了显著进展。然而，由于缺乏高分辨率（HR）参考图像，低分辨率（LR）到高分辨率的映射先验在推理过程中无法有效指导重建。同时，卷积神经网络（CNN）和变换器（Transformers）在处理长距离依赖性和局部细节方面存在固有局限性，这给跨场景超分辨率适应带来了困难。为了解决这些问题，我们提出了条件扩散辅助增强混合注意力变换器（CDEHAT），用于遥感图像超分辨率任务，该模型结合了扩散先验学习和混合注意力机制。具体来说，CDEHAT采用双分支协作架构CDEHAT-Diff和CDEHAT-SR。CDEHAT-Diff探索了LR图像和HR图像之间的条件退化-恢复过程，通过扩散建模学习潜在的LR-HR映射模式，从而指导后续的重建阶段。基于扩散的先验使CDEHAT-SR能够发现内在的超分辨率流形，有助于从退化图像中精确恢复细粒度的结构和纹理细节。同时，设计了两个增强型混合注意力变换器模块，以在光谱-空间域整合多尺度特征，从而更好地重建高频信息。在模拟和真实数据集上的实验结果表明，我们的方法显著提升了SR任务的性能，平均PSNR提高了0.20 dB和0.51 dB，并且在重建细节和恢复结构方面表现良好。代码和数据集将可在https://github.com/cerulean136/CDEHAT获取。

引言

遥感技术提供了一种高效的非接触式表面信息观测手段，已成为环境监测、资源管理和城市规划不可或缺的工具。特别是欧洲航天局的Sentinel-2卫星，凭借其广泛的光谱覆盖范围和免费数据访问政策，为土地利用/土地覆盖变化（Phiri等人，2020年）、植被类型检测（Erinjery等人，2018年）和自然灾害评估（Ghorbanzadeh等人，2021年）提供了重要数据。然而，遥感图像的分辨率限制是实际应用的主要障碍。在需要精细观测的应用中，例如特定区域的变化检测（M. Liu等人，2021年）和城市建筑的语义分割（Zheng等人，2020年），低分辨率（LR）图像不足以进行深入分析和精确细节解释。高分辨率（HR）遥感图像虽然能提升数据解释能力，但成本高昂且受到成像条件的限制。昂贵的HR硬件、不频繁的公共领域更新、有限的覆盖范围以及高昂的商业图像成本阻碍了其在需要广泛监测的应用中的使用。基于软件的遥感图像超分辨率（RSISR）方法提供了一种成本效益高的解决方案，具有显著的实际潜力。

RSISR技术旨在利用先验知识和先进的图像上采样方法，从一个或多个LR输入重建HR图像。近年来，深度学习的兴起，尤其是卷积神经网络（CNN）和变换器（Vaswani等人，2017年），极大地推动了这一领域的发展（Lei和Shi，2021年；Lei等人，2021年；Wolters等人，2023年；Xiao等人，2024b年）。CNN已被证明在捕获遥感图像中的局部结构细节（如地面物体的边缘和纹理）方面非常有效。它们的局部感受野和分层特征提取机制非常适合识别精细的遥感空间和光谱特征（Wang等人，2022年）。此外，注意力机制（Y. Zhang等人，2018年）进一步增强了模型的表现力，通过自适应地关注最具信息量的区域来确保复杂成像细节的稳定重建（Chen等人，2023a）。与主要关注局部特征的CNN相比，变换器最初是为自然语言处理设计的，但由于其自注意力机制，在RSISR中展示了非凡的潜力。通过动态分配所有像素的注意力权重，变换器在捕获全局依赖性方面表现出色（Dosovitskiy等人，2020年）。这使得它们在恢复高频上下文信息（如大规模遥感图像中常见的非局部相似纹理（Xiao等人，2024a）方面特别有效。

尽管取得了进展，但现有的RSISR方法和实验仍忽略了某些固有的局限性。遥感图像通常具有复杂的内容、较大的尺度、噪声干扰以及较高的局部相似性（X. He等人，2022年）。CNN在提取局部特征方面具有很强的归纳偏见，但其卷积核权重是固定的，感受野也有限。在重建远距离遥感目标时可能会发生结构扭曲，这限制了它们在大规模遥感场景中建模全局语义关联的能力（Dosovitskiy等人，2020年）。虽然变换器擅长全局建模，但自注意力缺乏强大的局部约束（Chen等人，2021年）。这可能导致过度平滑或模糊，尤其是在遥感图像的均匀或低频区域。此外，一维序列化过程会破坏遥感图像的固有光谱相关性和空间结构（Li等人，2023年），加剧了伪影和结构扭曲。

最近，扩散模型（DMs）（Ho等人，2020年）通过其渐进式去噪生成范式和显式的概率建模框架（Saharia等人，2022b；Li等人，2022年；Xiao等人，2023a）为RSISR任务开辟了新的技术路径。通过利用噪声注入和逆扩散，DMs在模拟遥感数据的高分辨率图像生成方面超越了传统的确定性方法（例如GAN（Goodfellow等人，2014年），有效平衡了细节保真度和输出多样性（Wang和Sun，2025年）。尽管有这些优势，当前的DMs缺乏针对RSISR的任务特定优化。它们通常依赖于通用的图像合成范式和双三次插值进行上采样，未能结合遥感领域的特定领域先验知识，从而限制了它们恢复地面物体细节的能力（Xiao等人，2023a）。此外，它们本质上复杂的架构（例如UNet（Ronneberger等人，2015年）和迭代噪声预测过程显著增加了计算成本，对大规模RSISR的效率和可扩展性构成了挑战。

我们的动机在于观察到，在RSISR中，由于地面物体（如道路、农田和建筑物）的不同空间分辨率，遥感图像呈现出复杂的局部结构和多尺度特征。此外，异构成像系统引入的传感器特定干扰和噪声进一步复杂化了图像形成过程，给现有的RSISR方法带来了重大困难。显式的退化建模提供了从HR到LR的清晰表示，从而为指导LR逆向重建过程提供了强有力的先验知识，这是RSISR任务中特别关键的组成部分（Xiao等人，2023b）。这种先验不仅有助于提高细节恢复能力，还确保重建结果在结构和纹理上与真实场景一致。此外，融合CNN和变换器的混合注意力（Chen等人，2023b）旨在增强对细纹理的感知。这种协同作用有助于捕捉遥感图像中的丰富自相似模式和跨尺度结构特征，最终提高了光谱和空间分布建模的准确性。

我们提出了一种新的条件扩散辅助增强混合注意力变换器（CDEHAT），以解决先前RSISR网络的局限性。与完全依赖扩散模型或级联结构的传统方法不同，我们引入了一个轻量级的去噪网络作为局部模块CDEHAT-Diff，从低分辨率输入中学习真实的先验分布，增强了对复杂遥感场景的适应性。为了更好地重建多尺度光谱和空间细节，CDEHAT-SR结合了局部（LEHAB）和全局（GEHAB）增强型混合注意力模块。LEHAB使用通道-空间融合注意力（CSFA）来增强高频边缘重建，而GEHAB结合了移位重叠窗口多头自注意力（(S)OW-MSA）和全局上下文转置注意力（GCTA），以捕获通道和空间域中的广泛依赖性。总的来说，我们的贡献可以总结如下：

(1)
我们提出了一个用于遥感图像超分辨率的条件扩散辅助混合注意力变换器框架。这种双分支架构将条件扩散先验模块（CDEHAT-Diff）与混合注意力变换器重建网络（CDEHAT-SR）集成在一起。通过在潜在空间中显式建模内容和退化先验，并将其整合到重建流程中，该框架显著增强了复杂遥感场景中的细节恢复和结构保真度。
(2)
我们通过CDEHAT改进了现有的Transformer计算范式。具体来说，提出的局部增强混合注意力模块（LEHAB）通过通道-空间融合注意力增强了局部纹理建模，而全局增强混合注意力模块（GEHAB）通过移位重叠窗口注意力和全局上下文转置注意力增强了长距离依赖性建模。这两个模块都引入了基于扩散的先验注入机制，从而显著提高了模型在局部-全局和光谱-空间特征方面的表示能力，相比传统的Transformer有显著提升。
(3)
我们构建了CA-2022-S2-NAIP数据集，该数据集包含了经过严格空间-光谱质量控制的Sentinel-2和NAIP图像，以支持真实的跨传感器评估。在公共基准测试和提出的数据集上的实验结果表明，CDEHAT在定量准确性和视觉质量方面始终优于最先进的方法。

本文的其余部分组织如下：第2节回顾和分析了与本研究相关的工作。第3节介绍了所提出方法的详细信息。第4节报告了数据集和实验细节，然后分析了结果。第5节总结了研究发现并提出了未来的研究方向。

章节片段

网络架构概述

如图1所示，我们提出的方法包括一个条件扩散先验（CDP）生成模块CDEHAT-Diff，以及由CDP驱动的混合注意力SR重建模块CDEHAT-SR。在CDEHAT-Diff部分，我们执行内容退化增强，以生成从低频到高频的条件先验。在CDEHAT-SR部分，我们利用生成的先验表示和深度残差注意力组及重建结构来生成

数据集

我们使用五个不同的公共遥感数据集来评估CDEHAT的有效性，包括AID（Xia等人，2017年）、DOTA v1.0（Xia等人，2018年）、DIOR（Li等人，2020年）、UC Merced土地利用（Yang和Newsam，2010年）和WHU-RS19（Dai和Yang，2010年）。此外，我们还提出了一个高质量的超分辨率数据集CA-2022-S2-NAIP，该数据集使用了来自不同传感器的多光谱数据，以进一步验证我们的模型在真实世界图像上的性能。

对于公共数据集，我们使用AID数据集作为

结论

我们提出了CDEAHT，以解决现有RSISR方法在利用LR图像进行精细纹理建模方面的局限性。CDEAHT具有双分支架构。它利用扩散模型从LR输入中提取稳健的先验分布，增强了对复杂场景和退化模式的适应性。CDEAHT-SR结合了混合注意力进行重建。在CDEAHT-SR中，LEHAB模块结合了CNN的通道/空间注意力与Transformer的自注意力

CRediT作者贡献声明

吴先德：撰写 – 审稿与编辑，撰写 – 原始草稿。刘瑞：可视化、验证、方法论。吴伟：软件、资源。杨海平：形式分析。杨辽：数据管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了高分辨率地球观测系统项目（Grant编号：85-R60F01-9001-23/25）和新疆重点研发计划（Grant编号：2024B03042）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

相关工作

网络架构概述

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行