具有局部-全局上下文感知能力且能保持图像结构的超分辨率技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Local-global context-aware and structure-preserving image super-resolution

【字体：大中小】 时间：2026年02月27日 来源：Neurocomputing 6.5

编辑推荐：

　　图像超分辨率与扩散模型结合，提出局部-全局上下文感知注意力（LGCAA）机制和分布-感知对齐条件模块（DPACM），通过保留局部几何一致性和全局上下文统计，解决复杂退化场景下的噪声放大与内容生成问题，实验验证其生成的高质量图像在结构一致性和细节还原上优于现有方法。

桑查尔·帕利特（Sanchar Palit）| 苏巴希斯·乔杜里（Subhasis Chaudhuri）| 比普拉布·班纳吉（Biplab Banerjee）

印度孟买印度理工学院（Indian Institute of Technology Bombay, India）

摘要

扩散模型（Diffusion Models）最近在各种图像处理任务中取得了显著的成功，包括图像超分辨率（image super-resolution）和感知质量提升（perceptual quality enhancement）。预训练的文本到图像模型（text-to-image models），如Stable Diffusion，展示了强大的合成真实图像内容的能力，这使它们在解决超分辨率问题时特别具有吸引力。虽然一些现有方法利用这些模型取得了最先进的结果，但当应用于多样化和严重退化的图像时，它们常常会遇到问题，导致噪声放大或内容生成不正确。为了解决这些限制，我们提出了一个上下文精确的图像超分辨率框架，通过局部-全局上下文感知注意力（Local-Global Context-Aware Attention）有效地保持了局部和全局像素之间的关系，从而生成高质量的图像。此外，我们提出了一种在像素空间中分布和感知对齐的条件机制（distribution- and perceptual-aligned conditioning mechanism），以提高感知保真度。该机制捕捉了细粒度的像素级表示，同时逐步保留和细化结构信息，从局部内容细节过渡到全局结构组成。在推理过程中，我们的方法生成的结构与原始内容一致的高质量图像，减少了伪影并确保了真实的细节恢复。在多个超分辨率基准测试上的广泛实验证明了我们方法在产生高保真、感知准确的重建方面的有效性。

引言

图像超分辨率（Image Super-resolution）[2], [3], [4], [5], [6]是一项具有挑战性的任务，因为退化过程会导致重要图像信息的丢失，使得准确重建变得困难。这种退化可以建模为单独的效应，如模糊和噪声添加，或者是由多种因素组合而成的。早期的研究假设了预定义的图像退化，并开发了各种方法[7], [8], [9], [10], [11], [12]来解决问题。然而，这些方法在实现高保真图像重建方面存在局限性，并且难以有效处理极端退化情况。

随着生成模型（generative models）的出现，例如生成对抗网络（Generative Adversarial Networks, GAN）[13]，人们开始通过对抗训练[14]来模拟退化过程，从而通过近似逆变换来重建高质量图像。基于GAN的方法[15], [16], [17], [18]在复杂退化条件下生成了感知上高质量的图像。此外，还引入了包含大规模低分辨率（LR）和高分辨率（HR）图像对[19], [20], [21]的数据集[19], [20], [21]，涵盖了各种现实世界的退化情况，以便进行更有效和标准化的评估，这构成了现实世界图像超分辨率（Real-ISR）问题，以消除可能的复杂现实世界退化。BSRGAN[2]和Real-ESRGAN[21]等方法展示了显著的改进，产生了细节更丰富、更真实的重建结果。然而，基于GAN的模型仍然存在一些局限性，包括引入噪声、用人工生成的细节抑制原始内容，以及在某些情况下放大来自LR输入的不希望出现的伪影，导致重建不准确。

扩散模型（Diffusion Models）[22], [23]的引入[22], [23]为图像生成缓解了与GAN复杂训练过程相关的挑战。扩散过程可以遵循基于马尔可夫链的去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）[23], [24]，或者利用随机微分方程（Stochastic Differential Equations, SDEs）结合得分匹配网络（Score Matching Networks）[25], [26], [27]来估计和去除噪声。此外，扩散模型通过基于各种模态的条件化，如文本、LR图像或图像特定特征[1], [31], [32]（如边缘图和高频细节），促进了Real-ISR[28], [29], [30]和其他图像恢复任务。

ResShift[33]作为一种值得注意的方法出现，它利用扩散框架内的逐步误差移动来逐步将LR图像细化为HR图像。此外，ControlNet[1]的引入允许通过结合不同的基于图像的特征（如边缘）和其他高级属性来进行空间条件化的扩散过程。文本到图像模型[31], [34], [35], [36], [37]的进步，特别是基于扩散的方法（如Stable Diffusion[32]），为Real-ISR开辟了新的途径。这些模型在大型数据集上训练，从文本描述中学习了真实的图像形成原理，使得它们能够应用于图像编辑、修复和各种形式的条件图像处理——无论是从纯噪声还是初始退化的图像。基于这些进步，出现了StableSR[3], SeeSR[38]和DiffBIR[39]等针对现实世界ISR任务的工作。StableSR和DiffBIR利用扩散先验来提高超分辨率性能，而SeeSR专门用于从LR图像中提取语义提示。通过利用扩散模型中固有的语义理解，SeeSR旨在在超分辨率过程中保持基于文本的关系。然而，由于该方法依赖于基于文本的语义条件，当输入图像的退化严重时，它容易生成意外的伪影。

与现有的基于扩散先验的现实世界图像超分辨率（real-world image super-resolution, Real-ISR）[3], [33], [38], [40]方法不同，这些方法依赖于全局语义先验或文本条件化的交叉注意力（text-conditioned cross-attention），LGCAA通过在一个注意力机制中联合建模局部几何一致性和全局上下文统计来引入结构保留的重建。虽然现有的局部注意力策略保留了细节，但缺乏全局连贯性，而全局注意力机制在追求语义真实性的同时可能会丢失细节，LGCAA则使用全局结构感知的上下文显式地约束了局部特征交互。这使得在严重和未知的退化情况下能够忠实地重建边缘、纹理和结构，而无需依赖额外的语义提示。因此，LGCAA从根本上不同于之前的注意力设计，它优先考虑结构真实性而非语义生成。

尽管在视觉变换器（vision transformers）中探索了局部-全局注意力[41], [42]，但将这些设计直接应用于潜在扩散模型（latent diffusion models）通常会导致不稳定和伪影放大，尤其是在多步骤推理过程中。LGCAA是专门为基于扩散的超分辨率设计的。它在潜在空间中操作，强制实施基于局部特征和全局上下文的注意力响应，并通过适当的去噪来稳定全局上下文整合，这在图像ISR中是常见的做法。LGCAA的目的不是引入新的架构组件，而是通过增强与DPACM（Distribution-Personalized Attention Conditional Modeling）基分布对齐模块相关的图像特征来提高超分辨率性能。

我们提出了一个用于Real-ISR的模型，该模型利用Stable Diffusion的训练有素的图像形成能力，同时确保有效保留LR图像中存在的上下文信息。本文的主要贡献如下：

•

任何全局结构或纹理都可以在局部表示，我们的方法确保局部边缘得到保留、锐化和完善，从而保持和增强整体全局纹理和结构。为此，我们使用局部-全局上下文感知注意力（Local-Global Context Aware Attention, LGCAA）模块将LR条件图像集成到Stable Diffusion流程中。该模块确保了局部区域关系的保留，同时使单个像素能够通过全局注意力机制捕获长距离依赖性。

•

此外，我们引入了分布和感知对齐条件模块（Distribution and Perceptual Aligned Conditioning Module, DPACM），以保持LR和HR图像之间的结构一致性，同时确保潜在空间中的直方图有效保留。该模块旨在保持生成HR图像的感知质量。为此，我们使用Wasserstein-1距离来对齐LR和HR图像的像素分布，确保忠实重建。此外，我们结合了一个基于ControlNet的鲁棒特征提取器来增强输出的输出感知质量。

•

在推理过程中，我们的模型能够生成高质量和高保真的图像，同时保留LR输入的内容，并显著提高视觉质量，如图1所示。实验结果表明，所提出的Real-ISR模型在多样化的场景内容中始终表现出强大的性能，生成了如图2所示的感知上吸引人的超分辨率图像。

部分片段

基于GAN的现实世界图像超分辨率

基于对抗训练的方法能够从纯噪声生成图像，已成功应用于Real-ISR[2], [16], [17], [43]，以处理复杂的退化情况，超越了传统的深度学习技术[44], [45], [46], [47], [48], [49], [50]。开创性的工作如BSRGAN[2]和Real-ESRGAN[21]已经证明，即使在严重的退化情况下，通过对抗训练，图像恢复也变得更加有效。

问题表述

在退化过程中，图像

经历了一个退化操作

，结果产生了一个LR图像

。这种退化过程可能由单一变换或多个退化的组合组成，例如

。在基于扩散模型的图像恢复中，退化过程通常被建模为高斯噪声扰动的组合。然后，恢复过程涉及估计并随后去除高斯噪声以恢复高质量图像。

实验

为了展示LGCAA的有效性，我们展示了定性比较结果以及广泛的定量结果。我们在类似现有方法[2], [21]的RealSR数据集上展示了我们的实验。

结论

在这项工作中，我们介绍了一种高效的实际世界图像超分辨率方法，它有效地增强了原始内容，同时保持了视觉上的连贯性。我们的方法旨在保持原始图像的完整性，而不引入可能导致不需要的伪影的额外细节。由于高频成分有助于更精细的细节，过度强调它们在仔细检查时可能会引入失真。为了解决这个问题，我们的方法

关于写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用ChatGPT来辅助语法、拼写、词汇选择和文本润色。使用该工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

CRediT作者贡献声明

桑查尔·帕利特（Sanchar Palit）：撰写——原始草稿、资源、方法论、调查、形式分析、数据管理、概念化。苏巴希斯·乔杜里（Subhasis Chaudhuri）：撰写——审阅与编辑、监督、概念化。比普拉布·班纳吉（Biplab Banerjee）：撰写——审阅与编辑、验证、监督、概念化。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

桑查尔·帕利特报告称获得了印度孟买印度理工学院的财政支持。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。

桑查尔·帕利特（Sanchar Palit）于2016年从印度西孟加拉邦的Jalpaiguri政府工程学院获得学士学位，2019年从印度理工学院（IIT）Kharagpur获得视觉信息处理和嵌入式系统工程硕士学位。他目前正在印度理工学院孟买分校的电气工程系攻读博士学位。他的研究兴趣包括扩散模型、图像和视频的随机建模、持续学习、单图像3D

联系信箱：

粤ICP备09063491号

摘要

引言