用于高效图像超分辨率的分层空间调制网络

《Pattern Recognition》：Hierarchical spatial modulation network for efficient image super-resolution

【字体：大中小】 时间：2026年05月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　李园园|谢峰|丁浩|程龙|刘秋卓|朱志勤重庆邮电大学计算机科学与技术学院，中国重庆，400065摘要调制机制在计算机视觉任务中表现出色，包括高效的图像超分辨率（SR）技术。然而，基于调制机制的方法通常使用固定大小的大核卷积来捕获更广泛的上下文信息。这种静态设计仅在单一的粗略空间尺

李园园|谢峰|丁浩|程龙|刘秋卓|朱志勤

重庆邮电大学计算机科学与技术学院，中国重庆，400065

摘要

调制机制在计算机视觉任务中表现出色，包括高效的图像超分辨率（SR）技术。然而，基于调制机制的方法通常使用固定大小的大核卷积来捕获更广泛的上下文信息。这种静态设计仅在单一的粗略空间尺度下提取特征，这会导致中间特征表示的同质化，从而限制了特征多样性。此外，调制机制的计算复杂度随着大核大小的增加而呈二次方增长，使得扩展模型的感受野变得困难。在本文中，我们提出了一种高效的分层空间调制网络（HSMN），该网络采用分层核扩展策略来扩大有效感受野并聚合多尺度信息。考虑到大核卷积的计算复杂度，我们进一步设计了一种与核大小线性相关的空间调制机制，能够有效建模非局部信息。此外，为了解决大核卷积在捕获局部细节方面的局限性，我们引入了一种卷积门控前馈网络，该网络在增强局部结构信息的同时减少了通道信息的冗余。大量实验表明，我们的HSMN在保持较低计算复杂度的同时，性能优于现有的最先进（SOTA）高效SR模型。源代码和预训练模型可在以下链接获取：https://github.com/XF2020/HSMN.

引言

单图像超分辨率（SISR）是一个长期存在的低级视觉任务，其目标是从退化的低分辨率（LR）图像恢复出真实的高分辨率（HR）图像。由于SR任务的本质上是病态的，这一挑战性问题吸引了大量研究人员的关注。近年来，开发了一系列基于深度学习的超分辨率（SR）方法[1]、[2]、[3]、[4]来解决这个问题，并取得了令人印象深刻的重建性能。这些方法专注于构建更深或更复杂的网络架构，以扩展模型的感受野，从而提高超分辨率性能。然而，高性能模型也带来了更高的计算复杂度，这使得它们在资源受限的设备中难以部署。因此，开发轻量级和高效的SR模型变得至关重要。

为了实现轻量化和高效性，人们提出了许多减少计算复杂度的方法，包括参数共享策略[5]、[6]、信息蒸馏机制[7]、[8]、高效模块设计[9]、[10]以及结构重参数化[11]、[12]。这些高效的超分辨率方法成功地在模型性能和计算负担之间取得了良好的平衡。然而，它们通常使用小核卷积来提取局部特征，并且受到有限卷积层数量的限制，导致感受野不足，影响了模型的重建性能。因此，有效扩展模型的感受野有助于进一步提高高效超分辨率的性能。

最近，基于视觉变换器的方法[13]、[14]在SISR任务中表现出色，因为自注意力（SA）能够有效扩展感受野并建模非局部信息。然而，自注意力的二次方计算复杂度对高效的SISR任务构成了挑战。此外，SA缺乏建模局部细节的能力，而局部细节对于高质量图像重建至关重要。与计算密集型的SA相比，基于调制机制的SR方法[15]、[16]在扩展模型感受野方面具有线性复杂度，具有很大的潜力。例如，SAFMN[17]通过空间自适应特征调制来扩展模型的感受野，VapSR[15]通过像素注意力增强上下文建模并具有较大的感受野，CFSR[16]利用大核卷积来捕获更广泛的上下文信息。尽管使用调制机制的SR方法非常高效，但随着卷积核大小的增加，它们的计算和内存需求也会呈二次方增长。此外，使用固定大小的大核卷积缺乏灵活性。具体来说，单个固定大核仅在单一的粗略空间尺度下提取特征，这会导致中间特征表示的同质化，并限制模型捕获多样化多尺度上下文信息的能力，从而阻碍了高质量图像的重建。

为此，我们提出了一种新的分层空间调制网络（HSMN）用于高效图像超分辨率。受到分层结构和调制机制在SR中成功的启发，我们首先设计了一个分层空间调制组（HSMG）来聚合丰富的多尺度特征信息，并逐步扩展有效感受野。具体来说，在HSMG中，我们在分层结构的不同尺度上应用不同大小的大核卷积到分层空间调制块（SMBs），以扩大有效感受野，使我们的模型能够有效建立长期依赖关系并捕获多尺度信息。为了在扩展感受野时减少大核卷积的计算负担，我们进一步设计了一个基于可分离卷积的空间调制单元（SMU），它能够在最小的计算成本下探索大感受野中的非局部空间信息。此外，我们开发了一种高效卷积门控前馈网络（CGFN），以更好地聚合局部空间特征并减少通道信息的冗余计算。基于上述设计，如图1所示，我们的HSMN在计算成本和性能之间实现了更好的平衡。

我们的贡献可以总结如下：

•
我们提出了一种简单而有效的核扩展策略，用于扩大模型的有效感受野并聚合多尺度特征，从而提高SR性能。
•
我们引入了一种高效的空间调制单元，能够在保持最小计算成本的同时探索大感受野中的非局部空间信息。
•
我们开发了一种卷积门控前馈网络，不仅增强了局部空间特征的编码能力，还减少了通道维度中的冗余信息。
•
我们提出了一种高效的分层空间调制网络，与其他最先进的高效图像SR网络相比，在计算复杂度更低的情况下实现了更好的性能。

部分片段

基于深度学习的图像超分辨率

近年来，基于深度学习的方法在图像超分辨率领域取得了显著成果。SRCNN[18]首次引入卷积神经网络来学习LR和HR图像之间的非线性映射，与传统方法相比取得了显著改进。随后，许多基于CNN的方法通过利用更深的网络架构提高了性能。VDSR[19]通过堆叠多个卷积层增加了网络深度，使得

方法

为了高效聚合分层特征，我们开发了一个高效的HSMN框架来实现高性能图像超分辨率。如图2所示，我们首先介绍了HSMN的整体结构，然后介绍了HSMG的结构，最后描述了SMB及其子组件SMU和CGFN。

数据集和指标

借鉴之前的高效SR工作[8]、[32]，我们使用广泛采用的DIV2K[33]和Flickr2K[34]来训练我们的模型。为了评估模型的性能，我们使用了五个基准数据集：Set5[35]、Set14[36]、BSD100[37]、Urban100[38]和Manga109[39]。所有SR结果都是使用YCbCr颜色空间的Y通道上的峰值信噪比（PSNR）和结构相似性指数（SSIM）来评估的。

实现细节

在训练期间，批量大小设置为32。

结论

在本文中，我们提出了一种新型的分层空间调制网络（HSMN），用于高效和准确的图像超分辨率。具体来说，我们设计了分层空间调制组（HSMG），它对级联的SMBs应用核扩展策略，有效建立了长距离依赖关系并聚合了丰富的多尺度特征信息。为了进一步优化SMB中大核深度卷积的计算效率，我们设计了一个空间调制

CRediT作者贡献声明

李园园：撰写 – 审稿与编辑，撰写 – 原始草稿，方法论。谢峰：撰写 – 审稿与编辑，验证，项目管理。丁浩：项目管理，调查。程龙：可视化，验证。刘秋卓：调查，概念化。朱志勤：监督，概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（资助编号：62276037）和重庆市科技创新重点研发计划（资助编号：CSTB2023TIAD-STX0016和CSTB2024TIAD-STX0023）的支持。

摘要

引言