LumiGAN:基于记忆引导的双分支学习算法,用于现实世界的弱光图像增强

《Neurocomputing》:LumiGAN: Memory-guided dual-branch learning for real-world low-light image enhancement

【字体: 时间:2026年02月05日 来源:Neurocomputing 6.5

编辑推荐:

  LumiGAN提出基于质量评估的双分支编码器与动态记忆银行模块,通过像素级质量引导和区域自适应增强策略,结合空间局部特征与频率全局特征提取,并利用仿生视觉记忆机制增强语义一致性,有效解决低光照图像的过曝/欠曝、噪声放大和语义失真问题。

  
Aoping Hong | Xiangyu Chen | Hongying Tang | Jiuhang Wang | Baoqing Li
中国科学院上海微系统与信息技术研究所微系统科学与技术实验室,中国上海,200050

摘要

在低光照条件下,真实世界的图像通常会表现出明显的光照变化和图像质量不均匀的问题。然而,现有的算法通常采用统一的增强策略,在处理此类图像时忽略了语义一致性,导致诸如过曝、欠曝或阴影区域噪声和伪影加剧等问题。为了解决这个问题,我们提出了LumiGAN,这是一种基于记忆的双分支网络,用于低光照图像增强。具体来说,LumiGAN利用质量评估模块(QAM)将图像分割成需要不同增强水平的区域。这些区域随后由编码器进行处理,编码器包括空间双分支编码器模块(SDEM)和频率双分支编码器模块(FDEM)。SDEM通过具有不同感受野的卷积在网络的浅层提取局部和非局部特征,而FDEM在深层捕获全局光照和结构信息。此外,这些编码器通过双分支特征交互优化特征分割和提取。最后,解码器融合并重构双分支特征。此外,网络的中间层引入了一个记忆库模块。该模块借鉴了人类视觉记忆的原理,增强了中间层特征的语义信息,从而提高了原始图像与增强图像之间的一致性。在基准数据集上的全面定性和定量评估表明,我们的算法不仅提高了图像亮度的均匀性,还有效抑制了噪声和伪影,同时显著提升了语义一致性和图像的美学质量。代码和模型可在https://github.com/lLIVHT/LumiGAN获取。

引言

低光照图像增强(LLIE)旨在解决低光照场景中的关键问题,如欠曝、对比度不足和过度噪声。作为计算机视觉的核心研究方向,低光照图像增强在提高视觉质量和支持下游高级视觉任务(例如对象检测、语义分割)方面起着至关重要的作用,这些任务在低光照条件下性能会显著下降[1]、[2]、[3]。
传统方法主要依赖于直方图均衡化[4]或Retinex理论[5]。尽管这些方法具有很强的可解释性,但其性能严重依赖于手动设置的参数,这限制了增强的效果。相比之下,基于深度学习的方法通过数据驱动的方法显著提高了图像质量。然而,它们仍然难以在增强可见性和保持语义一致性之间找到合适的平衡。
大多数现有的增强方法[6]、[7]、[8]采用全局统一的亮度调整策略,缺乏根据局部亮度条件自适应调整增强强度的能力。这往往导致局部过曝或欠曝,使得在整个图像中难以实现平衡的清晰度。例如,在有光源的夜间场景中,全局亮化可以突出暗区域的对象,但可能会导致亮区域出现块状饱和,并导致纹理丢失;相反,降低增强强度以保留高光部分通常会导致暗区域因增强不足而变得不清晰。尽管一些算法[9]、[10]尝试结合基于光照的分割方法,但它们仍然受到颜色反射干扰和粗略分割精度等固有问题的限制。因此,在梯度光照场景(例如光源半影区域)中的性能仍然不令人满意。
此外,当前的方法主要关注优化亮度和对比度,而在区分图像中的有意义的语义内容方面的能力有限。在增强细节时,它们往往会同时放大噪声和伪影,导致语义失真。例如,阴影中的微妙噪声可能会变成明显的模糊伪影,掩盖纹理特征。同样,压缩伪影最初有助于勾勒对象轮廓,但可能会变成明显的缺陷,甚至被重构为不存在的结构。一个更深层次的问题是普遍缺乏对“语义保真度”的系统考虑:即使一些算法结合了语义分割,它们也倾向于优先保持对象类别的整体一致性,而忽略了细小的内部结构,从而影响了增强结果的可靠性。
上述挑战可以概括为两个基本问题:需要空间自适应的增强策略以及在增强过程中保持语义一致性的必要性。为了解决这些问题,本文提出了LumiGAN,其核心由两个部分组成:一个用于精确局部调整的区域自适应增强框架,以及一个用于确保语义保真度的动态记忆库模块。这两个组件共同系统地解决了现有的限制。
第一个组件是区域自适应增强框架,它通过像素级质量指导和双分支协作调节实现局部适应性。具体来说,质量评估模块(QAM)首先根据噪声、亮度和颜色信息生成一个空间质量掩码,进行像素级质量分类以指导后续的差分处理。在编码过程中,空间双分支编码器模块(SDEM)使用具有不同感受野的卷积捕获局部纹理。接下来,频率双分支编码器模块(FDEM)通过频域分解调节全局光照和结构信息。最后,在编码器的中间输出指导下,融合解码器对不同区域的空间细节和频率成分进行加权整合。这使得能够精确抑制高光区域并针对性地恢复阴影细节,确保每个像素的增强符合其局部上下文和真实世界场景的“自然规律”。
第二个组件是动态记忆库模块,旨在减轻增强过程中的语义失真。该模块受到人类视觉认知的启发:在黑暗环境中识别对象时,人脑利用存储在记忆中的先验知识来匹配模糊的轮廓并补充缺失的细节。基于此,我们构建了一个动态记忆库,作为“语义知识库”,不断存储、更新和检索语义特征。实际上,自注意力机制增强了当前图像特征的内部语义,同时该模块从记忆库中检索最相关的语义条目,并通过交叉注意力机制将它们与当前特征融合。这两种机制的结果进一步使用可学习的权重进行组合——这种策略有效地保留了语义信息,并防止了由噪声或低光照引起的语义丢失。在输出融合特征后,原始特征中的关键信息被选择性地更新到记忆库中,确保存储的语义知识的及时性和代表性。通过内部语义增强和外部知识整合的协作过程,该机制在增强前后保持了语义一致性,标志着从低级像素驱动增强向高级语义保持修复的转变。如图1所示,我们的算法在多个数据集上的平均结果优于最先进的算法。
我们的贡献总结如下:
  • 我们提出了一个区域自适应增强框架,结合了图像质量评估模块、双分支编码器模块和融合解码器模块,以解决“统一增强”问题,并在局部细节和全局结构之间取得平衡。
  • 我们引入了一个受人类视觉记忆启发的记忆库模块,在训练期间动态存储、更新和检索特征,并使用自注意力和交叉注意力来增强增强图像中的语义一致性。
  • 通过参考人脑处理低光照图像的逻辑,我们的工作为LLIE任务提供了新的视角。广泛的实验表明,我们的方法在均匀曝光和伪影抑制方面优于最先进的算法。
  • 相关工作

    相关工作

    低光照图像增强算法大致可以分为两类:传统的低光照图像增强算法和基于深度学习的算法。以下是这两种低光照图像增强方法的简要介绍。

    概述

    所提出的网络架构如图2(a)所示。在训练过程中,输入的低光照图像经过两轮随机数据增强,生成两个输入图像。这两个图像都被输入到共享权重的生成器G中,以产生增强后的图像,在损失函数的约束下,网络能够相互学习,使得低信噪比输入的生成器的输出受到高信噪比生成器的指导和约束

    实验设置

    在本节中,我们详细描述了我们的实验设置,并与其他方法在不同数据集上进行了定性和定量比较。最后,为了验证我们提出方法的有效性,我们进行了一系列消融研究。
    我们的实现基于PyTorch。在实验中,我们使用EnlightenGAN数据集作为训练数据集。在训练过程中,图像被随机裁剪成大小为的块

    结论

    在本文中,我们提出了一种基于记忆库的双分支网络,用于低光照图像增强。具体来说,我们首先使用基于物理先验的图像质量评估模块对输入图像进行分割。该模块通过评估输入的色彩偏移、噪声强度和模糊程度来执行初始区域划分。然后,该模块生成的掩码指导基于空间和频率的编码器模块提取特定区域的特征:在网络的浅层,

    CRediT作者贡献声明

    Aoping Hong:撰写——原始草稿、可视化、验证、软件、方法论、数据管理、概念化。Xiangyu Chen:可视化、验证、监督、方法论。Hongying Tang:撰写——审阅与编辑、监督。Jiuhang Wang:调查、形式分析、数据管理。Baoqing Li:撰写——审阅与编辑、资源管理、项目行政。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    Aoping Hong于2021年获得南京邮电大学(NJUPT)的学士学位。她目前正在中国科学院上海微系统与信息技术研究所和中国科学院电子电气与通信工程学院攻读博士学位。她的研究兴趣包括低光照图像增强。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号