图像超分辨率(Image Super-resolution)[2], [3], [4], [5], [6]是一项具有挑战性的任务,因为退化过程会导致重要图像信息的丢失,使得准确重建变得困难。这种退化可以建模为单独的效应,如模糊和噪声添加,或者是由多种因素组合而成的。早期的研究假设了预定义的图像退化,并开发了各种方法[7], [8], [9], [10], [11], [12]来解决问题。然而,这些方法在实现高保真图像重建方面存在局限性,并且难以有效处理极端退化情况。
随着生成模型(generative models)的出现,例如生成对抗网络(Generative Adversarial Networks, GAN)[13],人们开始通过对抗训练[14]来模拟退化过程,从而通过近似逆变换来重建高质量图像。基于GAN的方法[15], [16], [17], [18]在复杂退化条件下生成了感知上高质量的图像。此外,还引入了包含大规模低分辨率(LR)和高分辨率(HR)图像对[19], [20], [21]的数据集[19], [20], [21],涵盖了各种现实世界的退化情况,以便进行更有效和标准化的评估,这构成了现实世界图像超分辨率(Real-ISR)问题,以消除可能的复杂现实世界退化。BSRGAN[2]和Real-ESRGAN[21]等方法展示了显著的改进,产生了细节更丰富、更真实的重建结果。然而,基于GAN的模型仍然存在一些局限性,包括引入噪声、用人工生成的细节抑制原始内容,以及在某些情况下放大来自LR输入的不希望出现的伪影,导致重建不准确。
扩散模型(Diffusion Models)[22], [23]的引入[22], [23]为图像生成缓解了与GAN复杂训练过程相关的挑战。扩散过程可以遵循基于马尔可夫链的去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)[23], [24],或者利用随机微分方程(Stochastic Differential Equations, SDEs)结合得分匹配网络(Score Matching Networks)[25], [26], [27]来估计和去除噪声。此外,扩散模型通过基于各种模态的条件化,如文本、LR图像或图像特定特征[1], [31], [32](如边缘图和高频细节),促进了Real-ISR[28], [29], [30]和其他图像恢复任务。
ResShift[33]作为一种值得注意的方法出现,它利用扩散框架内的逐步误差移动来逐步将LR图像细化为HR图像。此外,ControlNet[1]的引入允许通过结合不同的基于图像的特征(如边缘)和其他高级属性来进行空间条件化的扩散过程。文本到图像模型[31], [34], [35], [36], [37]的进步,特别是基于扩散的方法(如Stable Diffusion[32]),为Real-ISR开辟了新的途径。这些模型在大型数据集上训练,从文本描述中学习了真实的图像形成原理,使得它们能够应用于图像编辑、修复和各种形式的条件图像处理——无论是从纯噪声还是初始退化的图像。基于这些进步,出现了StableSR[3], SeeSR[38]和DiffBIR[39]等针对现实世界ISR任务的工作。StableSR和DiffBIR利用扩散先验来提高超分辨率性能,而SeeSR专门用于从LR图像中提取语义提示。通过利用扩散模型中固有的语义理解,SeeSR旨在在超分辨率过程中保持基于文本的关系。然而,由于该方法依赖于基于文本的语义条件,当输入图像的退化严重时,它容易生成意外的伪影。
与现有的基于扩散先验的现实世界图像超分辨率(real-world image super-resolution, Real-ISR)[3], [33], [38], [40]方法不同,这些方法依赖于全局语义先验或文本条件化的交叉注意力(text-conditioned cross-attention),LGCAA通过在一个注意力机制中联合建模局部几何一致性和全局上下文统计来引入结构保留的重建。虽然现有的局部注意力策略保留了细节,但缺乏全局连贯性,而全局注意力机制在追求语义真实性的同时可能会丢失细节,LGCAA则使用全局结构感知的上下文显式地约束了局部特征交互。这使得在严重和未知的退化情况下能够忠实地重建边缘、纹理和结构,而无需依赖额外的语义提示。因此,LGCAA从根本上不同于之前的注意力设计,它优先考虑结构真实性而非语义生成。
尽管在视觉变换器(vision transformers)中探索了局部-全局注意力[41], [42],但将这些设计直接应用于潜在扩散模型(latent diffusion models)通常会导致不稳定和伪影放大,尤其是在多步骤推理过程中。LGCAA是专门为基于扩散的超分辨率设计的。它在潜在空间中操作,强制实施基于局部特征和全局上下文的注意力响应,并通过适当的去噪来稳定全局上下文整合,这在图像ISR中是常见的做法。LGCAA的目的不是引入新的架构组件,而是通过增强与DPACM(Distribution-Personalized Attention Conditional Modeling)基分布对齐模块相关的图像特征来提高超分辨率性能。
我们提出了一个用于Real-ISR的模型,该模型利用Stable Diffusion的训练有素的图像形成能力,同时确保有效保留LR图像中存在的上下文信息。本文的主要贡献如下:
•任何全局结构或纹理都可以在局部表示,我们的方法确保局部边缘得到保留、锐化和完善,从而保持和增强整体全局纹理和结构。为此,我们使用局部-全局上下文感知注意力(Local-Global Context Aware Attention, LGCAA)模块将LR条件图像集成到Stable Diffusion流程中。该模块确保了局部区域关系的保留,同时使单个像素能够通过全局注意力机制捕获长距离依赖性。
•此外,我们引入了分布和感知对齐条件模块(Distribution and Perceptual Aligned Conditioning Module, DPACM),以保持LR和HR图像之间的结构一致性,同时确保潜在空间中的直方图有效保留。该模块旨在保持生成HR图像的感知质量。为此,我们使用Wasserstein-1距离来对齐LR和HR图像的像素分布,确保忠实重建。此外,我们结合了一个基于ControlNet的鲁棒特征提取器来增强输出的输出感知质量。
•在推理过程中,我们的模型能够生成高质量和高保真的图像,同时保留LR输入的内容,并显著提高视觉质量,如图1所示。实验结果表明,所提出的Real-ISR模型在多样化的场景内容中始终表现出强大的性能,生成了如图2所示的感知上吸引人的超分辨率图像。