全局视角下的轻量化处理:一种基于全局特征提取的轻量级图像超分辨率新方法

《Applied Soft Computing》:Global vision in lightness: A novel approach to lightweight image super-resolution using global feature distillation

【字体: 时间:2026年03月08日 来源:Applied Soft Computing 6.6

编辑推荐:

  轻量级超分辨率框架GFDN通过全局特征蒸馏块和傅里叶卷积模块结合,利用参数-free注意力机制平衡性能与计算效率,显著提升感知场扩展能力并优于现有方法。

  
Jianhua Dong|Shengrong Zhao|Wenyi Zhang|Hu Liang
教育部计算力网络与信息安全重点实验室,山东计算机科学中心(济南国家超级计算中心),齐鲁工业大学(山东省科学院),济南,250353,中国

摘要

在资源受限的环境中,图像超分辨率重建是一个重大挑战。最近,在轻量级超分辨率技术方面取得了显著进展,这主要得益于强大的信息蒸馏机制的发展,这些机制增强了模型的表示能力。然而,大多数现有的蒸馏方法依赖于空间卷积,从而忽略了全局上下文的提取,限制了它们的潜力。在本文中,我们提出了一种名为全局特征蒸馏网络(GFDN)的新型轻量级超分辨率框架,该框架结合了细粒度细节恢复原理和高效的计算设计。该模型的关键组成部分是全局特征蒸馏块(GFDB),它采用无参数注意力机制来增强特征学习,而不会增加额外的计算负担。这种设计使模型能够在重建质量和效率之间实现最佳平衡。此外,为了扩展感受野,我们引入了全局特征提取模块(GFEM),该模块通过变换和处理频域中的图像特征来捕获全局信息,从而有效提取必要的频率成分。实验结果表明,我们提出的模型在保持轻量级架构的同时,性能超过了现有的最先进方法,非常适合实际应用。

引言

物联网(IoT)设备的普及导致了对高质量视觉数据的需求不断增加,这些数据应用于远程监控、监控和自主系统等领域。然而,嵌入式IoT相机的有限计算资源在处理低分辨率图像时带来了重大挑战,通常会导致细节模糊和关键信息丢失。这些退化对基于视觉的高级任务(包括对象检测、识别和环境监控)产生了负面影响。图像超分辨率(SR)旨在从低分辨率输入重建高分辨率图像,为提高IoT捕获图像的视觉质量提供了有希望的解决方案[1]、[2]、[3]、[4]、[5]。尽管具有潜力,但由于模型复杂性、内存消耗和推理效率之间的权衡,在资源受限的IoT设备上部署SR模型仍然极具挑战性。
在深度神经网络出现之前,传统的SR方法主要依赖于统计分析,试图通过数学推导或模型假设从低分辨率图像中推断出高分辨率图像的细节[6]。这些方法计算效率高且易于实现。然而,由于它们无法利用现有图像的先验知识,因此性能有限,导致缺乏鲁棒性。解决SR问题在很大程度上取决于图像的先验信息,因为这些信息通过提供上下文和约束来指导重建过程,以恢复高频细节。结合有效的先验(如纹理模式、边缘信息或语义特征)可以显著提高重建图像的质量[7]。然而,在许多情况下,图像中的某些特征和纹理可能需要远距离像素信息才能准确恢复。例如,图像中的重复纹理、对称性或相似模式需要考虑全局信息。通过捕获这些长距离依赖性,模型可以更好地重建这些复杂特征[8]。
深度学习方法可以从大规模数据中学习通用先验,已成为主流方法。基于Transformer的方法通过利用自注意力的强大适应能力和全局感受野[9]、[10]、[11]、[12]取得了优异的性能。然而,随着令牌大小的增加,计算复杂度呈二次增长,限制了它们在现实场景中的应用。为了减轻计算开销,提出了许多轻量级CNN模型[13]、[14]、[15]、[16],在计算成本和重建质量之间取得了平衡。然而,需要注意的是,由于这些轻量级模型的模型容量有限,它们缺乏足够大的感受野,这可能会限制模型的适应能力。因此,这限制了模型有效利用图像中全局信息的能力,从而限制了重建过程中使用的像素范围。
为了在不增加计算复杂性的情况下扩大神经网络的感受野,采用了频域卷积来解决上述问题。图1显示了几种最先进方法在定量结果和计算开销方面的整体比较。我们的方法在性能和计算开销之间取得了平衡,展示了在保持可管理资源消耗的同时显著扩展感受野的能力。
频域卷积能够有效捕获全局信息,最近受到了广泛关注。然而,很少有工作将其引入轻量级SR任务中,因此这一领域的潜力尚未得到充分探索。基于上述分析,我们提出了全局特征提取模块(GFEM),该模块利用快速傅里叶卷积(FFC)将特征图转换为频域,从而有效克服了传统卷积操作在空间域捕获全局特征方面的局限性。在频域中,图像的全局结构信息可以通过频率成分更直观地表示,使我们的方法在捕获长距离依赖性方面具有独特优势。如图2所示,我们的方法在重建过程中使用了比其他方法更大的像素范围。
此外,为了减轻注意力机制引入的额外计算开销,并充分利用模型中的信息蒸馏结构,我们在GFEM中引入了无参数注意力(PFA)。它对输入特征图中的重要信息进行加权,而不引入额外的可学习参数,专注于关键像素区域或特征通道,从而降低了轻量级网络中的计算成本。结合信息蒸馏结构,PFA可以进一步在特征提取过程中增强特征的有效细化。信息蒸馏机制逐渐将低级特征传递到更高级别,过滤和整合关键信息,而PFA帮助网络更准确地关注有价值的特征区域,实现更有效的特征蒸馏和重用。
本文的主要贡献如下:
  • 提出GFDN,以探索频域卷积在轻量级超分辨率任务中的潜力。在计算效率高的注意力机制的帮助下,我们的模型在计算成本和重建质量之间有效取得了平衡。
  • 提出了一种新的GFEM,利用傅里叶变换的频域特性来高效提取全局特征,显著提高了网络的重建性能。
  • 提出GFDB,它结合了特征蒸馏结构和PFA机制,以在低计算开销下保持网络性能。
  • 部分片段

    信息蒸馏结构

    在各种轻量级SR框架中,信息蒸馏结构无疑是应用最广泛的一种。Hui等人提出了信息多蒸馏网络(IMDN)[17],通过其信息多蒸馏块(IMDB)实现了高效的SR重建。其核心创新在于结合通道分割和多蒸馏技术,选择性地保留重要特征信息,从而降低计算成本

    整体网络架构

    我们的模型架构如图3所示,由三个主要部分组成:浅层特征提取、多个全局特征蒸馏块(GFDB)和上采样阶段。在此背景下,ILR表示输入的低分辨率图像,ISR表示模型生成的超分辨率图像,而IHR对应于真实的高分辨率图像。
    在初始特征复制阶段,ILR沿通道维度复制n次,以增强

    基准测试

    训练数据集包括来自Flickr2K [44]和DIV2K [45]的3450张图像。对于性能评估,我们使用了五个广泛使用的基准数据集:Set5 [32]、Set14 [33]、B100 [34]、Urban100 [35]和Manga109 [36]。Y(亮度)通道上的平均峰值信噪比(PSNR)和结构相似性指数(SSIM)被用作评估不同方法有效性的指标。我们还报告了参数数量和乘加操作的数量

    结论

    本文提出了GFDN,这是一种专为资源受限环境设计的新型轻量级超分辨率模型。通过结合GFDB和基于FFC的PFA机制,GFDN在保持低计算成本的同时成功增强了图像重建过程。GFEM在频域中有效捕获了全局图像特征,扩展了感受野并提高了像素信息的利用率。我们的实验结果

    CRediT作者贡献声明

    Jianhua Dong:写作 – 审稿与编辑,撰写 – 原稿,可视化,软件,方法论,数据管理,概念化。Shengrong Zhao:写作 – 审稿与编辑,监督,方法论,资金获取,概念化。Wenyi Zhang:写作 – 审稿与编辑,可视化,验证,数据管理,概念化。Hu Liang:写作 – 审稿与编辑,监督,资源管理,项目管理,调查,资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

    致谢

    本工作得到了国家重点研发计划(编号:2023YFB3308403)、山东省自然科学基金(编号:ZR2022LZH008)和济南20个计划项目(编号:2021GXRC046)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号