用于在超分辨率中平衡真实感与感知效果的后期处理集成框架

《Pattern Recognition Letters》：Post-Processing Ensemble Framework for Balancing Fidelity and Perception in Super-Resolution

【字体：大中小】 时间：2026年05月11日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　金东云 | 娜在浩韩国首尔钟路区洪津门2街20号尚明大学计算机科学系，邮编03016摘要单图像超分辨率（SISR）方法通常具有针对性，要么在保真度（高PSNR）方面表现出色，要么在感知质量（逼真纹理）方面表现出色，但很少两者兼具。以保真度为导向的模型往往会产生模糊的结果，而以感知

金东云 | 娜在浩

韩国首尔钟路区洪津门2街20号尚明大学计算机科学系，邮编03016

摘要

单图像超分辨率（SISR）方法通常具有针对性，要么在保真度（高PSNR）方面表现出色，要么在感知质量（逼真纹理）方面表现出色，但很少两者兼具。以保真度为导向的模型往往会产生模糊的结果，而以感知为导向的模型则常引入不希望出现的伪影。为了解决这种权衡，我们提出了一种新颖的后期处理集成框架，该框架可以协同结合两个互补的超级分辨率（SR）模型的输出，而无需任何重新训练。我们的方法利用了以保真度为重点的模型（例如SwinIR classical）的结构完整性和以感知为重点的模型的纹理细节（例如SwinIR real-world）。所提出的流程包括三个阶段：（1）通过直方图匹配进行颜色稳定，以校正来自感知模型的色彩失真；（2）使用边缘掩模进行结构感知混合，将清晰纹理合并到结构连贯的区域中；（3）使用面部掩模进行面部保真度增强，以减轻身份扭曲的伪影。实验表明，我们的方法在保真度和感知之间实现了更好的平衡。与两种基线模型相比，它在感知质量上得到了显著提升，同时在保真度方面也具有竞争力，这一点在一套全面的参考图像和无参考图像质量评估指标上得到了验证。

引言

单图像超分辨率（SISR）旨在从单个低分辨率（LR）图像重建高分辨率（HR）图像。这是计算机视觉中的一个基本任务，在医学成像、卫星监控、数字摄影和3D图形中的纹理映射等领域有广泛的应用[1]。深度学习的出现带来了显著的进步，模型通常被分为以保真度为导向和以感知为导向的方法。

基于保真度的方法，通常使用像L1或MSE这样的像素级损失函数进行优化，在实现高峰值信噪比（PSNR）和结构相似性（SSIM）得分[2] [3] [4]方面表现出色[3]。像SwinIR[5]这样的基于Transformer的架构进一步推动了这些保真度指标的边界。然而，这种像素级的准确性往往以牺牲感知质量为代价，因为这些损失函数的平均性质倾向于产生过于平滑和模糊的纹理，无法恢复精细的、真实的细节[6]。

相反，基于感知的方法，主要由生成对抗网络（GANs）和扩散模型驱动，优先考虑视觉真实性[6] [7]。通过使用对抗性和感知损失或迭代去噪过程，这些模型生成了具有清晰细节和令人信服纹理的图像。先进的基于GAN的技术如BSRGAN[8]和Real-ESRGAN[9]，以及最近的基于扩散的模型如TSD-SR[10]，也推动了感知质量的边界。然而，这种真实性往往伴随着一个显著的缺点：产生不希望出现的伪影[11]。如图1所示，以感知为导向的模型在处理具有复杂退化的真实世界图像时，可能会引入结构失真、颜色偏移和不自然的模式。同样，扩散模型在重建重复模式（如网格状结构）时也经常出现结构失真。

这种二分法提出了一个关键挑战：没有单一模型能够适用于所有场景。尽管最近的趋势是开发复杂的、可学习的神经融合模块来改进输出，但这些模块通常会引入高计算成本并需要大量重新训练。相反，我们提出了一种基于经典计算机视觉技术的新颖轻量级后期处理集成框架。通过依赖于既定且参数效率高的方法，而不是重型AI驱动的融合模块，我们的方法确保了低计算开销、可解释性以及无需任何重新训练的即插即用能力。我们的方法协同结合了以保真度为重点的模型（例如SwinIR classical）和以感知为重点的模型（例如SwinIR real-world）的输出。

我们的贡献包括：

•
一个完全在后期处理领域运行的多阶段集成流程，依赖于经典计算机视觉的效率，且无需模型重新训练。
•
结合直方图匹配、边缘感知混合和面部感知校正，有效减少颜色、结构和面部伪影。
•
全面的评估表明，我们的方法在保真度和感知质量之间提供了更好的平衡，这一点通过完全参考和无参考指标得到了证实。

章节片段

基于CNN的超分辨率

卷积神经网络（CNNs）为超分辨率（SR）中的深度学习奠定了基础。SRCNN[3]通过一个简单的三层网络开创了这一方向，实现了从插值后的LR图像到HR图像的端到端映射。后续的工作如VDSR[4]和DRCN[12]探索了更深的架构以提高性能。尽管在提取局部特征方面有效，但基于CNN的方法往往难以建模长距离依赖性，从而导致纹理细节的丢失，尤其是在较高分辨率下

SR模型的互补性

现代SR模型表现出明显的性能权衡，这构成了我们工作的动机。

以保真度为导向的模型（例如SwinIR classical, PFT-SR[24]）这些模型使用像素级损失函数（L1或L2）进行训练，以最大化PSNR和SSIM等指标。因此，它们在保持原始图像的整体结构、轮廓和布局方面表现出色。然而，它们倾向于平均可能的解决方案，导致纹理过于平滑且缺乏高频细节

提出的方法

我们提出的框架是一个三阶段流程，旨在智能地合并以保真度和感知为导向的SR模型的输出。整个过程如图2所示。

实验设置

数据集我们在广泛使用的基准数据集上评估了我们的方法，包括Set5[30]、Set14[31]、BSD100[32]、Urban100[33]和Manga109[34]。此外，我们还使用了两个真实世界数据集RealSR[35]和DRealSR[36]，以评估在真实退化条件下的性能。所有实验都是在大4倍放大因子下进行的。实现细节我们的框架由一组简单的参数控制，优先考虑简洁性和泛化能力。对于边缘检测，我们使用3×3

结论

我们的实验确认了提出的

CRediT作者贡献声明

金东云：撰写——原始草案，软件开发，调查，正式分析，概念构思。娜在浩：撰写——审核与编辑，监督，项目管理，方法论，资金获取，概念构思。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。

致谢

我们感谢审稿人的建设性和有洞察力的反馈。这项研究由尚明大学2024年研究基金（2024-A000-0231）资助。

在准备这项工作的过程中，作者使用了Google Gemini和ChatGPT来提高手稿的可读性和语言表达。在使用这些工具/服务后，作者根据需要对内容进行了审核和编辑，并对发表文章的内容负全责。

摘要

引言