《Digital Signal Processing》:Progressive Enhancement method for Low-light Images via Self-supervised Learning
编辑推荐:
低光图像增强中提出LGPENet通过复合自监督策略和内部统计锚点实现局部-全局渐进增强,解决单阶段映射导致的局部过曝光与高频细节丢失问题,显著提升结构保真度,适用于生物识别和法证等精密应用。
包文霞|郭文涛|田宗豪|王年
安徽大学电子与信息工程学院,中国合肥230601
摘要
自监督学习为低光图像增强(LLIE)提供了一种数据高效的方法,因为它减轻了对标记监督的依赖。然而,现有的方法通常将增强过程表述为一个耦合的单阶段映射,这限制了它们区分光照畸变和内在结构特征的能力。这种纠缠往往导致局部过曝和高频细节的丢失,从而影响了生物识别和法医学等对精度要求较高的应用中的性能。为了克服这一限制,我们提出了一种基于复合自监督策略的局部-全局渐进式增强网络(LGPENet),该策略结合了内部统计锚点,共同实现了原理性的“约束与恢复”机制。增强过程在空间上被分解为两个渐进阶段:首先,多尺度自适应光照增强(Ms-AIE)模块作为局部光照注入器,将基于Swin Transformer的全局上下文与基于残差块的局部表示相结合,以恢复严重欠照区域的可见性;随后,自适应动态亮度增强(ADLE)模块通过逐像素补偿来调节整体动态范围,有效防止过增强。在标准基准测试和特定领域数据集上的广泛实验表明,LGPENet的性能与最先进的方法相当或更优,特别是在保持结构保真度方面,这对于稳健的语义和法医分析至关重要。
引言
在自然环境中捕获的图像由于光线强度、照明方向和相机曝光设置的不可预测变化,通常会在亮度、对比度和噪声方面表现出显著差异。在低光条件下,这些图像不可避免地会出现噪声增加、曝光不均、颜色饱和度降低以及视觉清晰度下降的问题。准确的照明估计对于恢复受不同光源影响的场景的原始颜色尤为重要[1]。虽然这些问题会降低视觉美观度,但在高风险的工程和科学应用中,其影响更为严重,因为结构准确性至关重要。在这些场景中,低光图像增强(LLIE)的主要目标不仅仅是提高感知质量;它是下游任务(如生物特征安全、犯罪调查、医学诊断和自动驾驶等)所需的必要预处理步骤。在这些应用中,高频结构细节的丢失(例如嫌疑人鞋子的独特花纹、病理病变的细微轮廓或行人的模糊轮廓)对自动化分析系统构成了重大挑战。因此,有效的增强不仅需要恢复亮度,还需要高保真的结构恢复,从而为后续的特征提取建立严格的标准。
为了解决这些可见性问题,传统的低光增强方法(如直方图均衡化[6,7]、伽马变换[8,9]和基于Retinex的图像分解[10,11])依赖于像素级变换或亮度建模。由于计算效率高和实时推理能力,这些方法在早期增强流程中被广泛采用。然而,这种速度带来了恢复精度的关键权衡。将这些方法视为通用的、平坦的调整,往往无法分离复杂的退化现象,导致块状伪影或高频结构细节的丢失。虽然这种性能可能适用于休闲摄影,但它无法满足本研究中针对的法医和生物特征应用所需的严格保真标准。为了克服这些精度限制并减少对监督学习所需配对训练数据的依赖,自监督学习方法[[12], [13], [14]]利用了图像的内在信息(如亮度分布、纹理细节和结构几何)作为自监督信号。通过直接从输入中学习增强表示,这些方法从根本上消除了对配对低光和正常光数据集的需求。与监督范式相比,这种自监督机制不仅显著降低了数据准备成本,还在多样化的、不受约束的照明条件下提供了更好的泛化能力。
然而,独立于配对数据也带来了一个重要的理论瓶颈。尽管当前的零参考自监督范式有效地利用了图像的内在统计信息,但它们在数学上无法区分光照畸变和潜在内在特征之间的复杂非线性相关性。由于主要依赖于整体强度映射或受上下文限制的局部操作,这些方法将增强过程视为一个耦合的单阶段映射。这种方法缺乏建模光照和反射率之间复杂空间变异性的能力,因此,光照伪影的抑制经常导致高频生物特征细节(如摩擦脊纹细节或面部微纹理)的不可逆损坏,使得输出不适合对精度要求高的分析。为了弥合这一精度差距,我们提出了局部-全局渐进式增强网络(LGPENet)。与依赖外部参考的先前方法不同,LGPENet引入了一种由内部“统计锚点”驱动的“复合自监督策略”,以实施“约束与恢复”机制。该架构通过多尺度自适应光照增强(Ms-AIE)模块实现局部光照增强,并通过自适应动态亮度增强(ADLE)模块实现全局亮度补偿。它还将基于Swin Transformer的全局上下文与基于残差块的局部细节相结合,以及全局曝光对齐和逐像素动态补偿。尽管这种方法比轻量级模型具有更高的计算成本,但它为对精度要求高的法医和安全应用提供了所需的结构保真度。
本文的主要贡献总结如下:
我们提出了一种基于内部统计锚点的“复合自监督策略”,用统计先验替换了外部视觉参考。这种方法有效解决了盲目增强的不适定性问题,防止了平凡的身份映射,并消除了对配对或非配对正常光训练数据的需求。我们提出了LGPENet,它包含了一种“层次化局部-全局解耦”机制。这种方法在宏观上通过Ms-AIE模块将局部光照增强与通过ADLE模块进行的全局亮度补偿分开,同时在微观上将基于Swin Transformer的全局上下文与基于残差块的局部细节相结合,以及全局曝光对齐和逐像素动态补偿。这种设计有效解决了局部过曝和全局欠照之间的冲突。我们提出了从感知愉悦度到高精度语义保真度的评估重点转变。广泛实验表明,LGPENet在保持生物特征和法医分析所需的关键高频证据方面显著优于现有方法。这证明了它在低级信号恢复和高级语义理解之间的桥梁作用,为对精度要求高的工程系统提供了通用解决方案。部分摘录
传统的低光图像增强方法
传统的低光图像增强方法可以分为空间域、频域和混合域方法。空间域技术直接操作像素值来提高视觉质量。例如直方图均衡化[6,7]和伽马变换[8,9]通过灰度重分布或非线性调整来改善清晰度、对比度和亮度。然而,直方图均衡化对全局灰度平均的强调往往导致LGPENet模型概述
如图1所示,LGPENet采用了两阶段渐进式优化策略。在宏观上,该架构分配了不同的主导角色:多尺度自适应光照增强(Ms-AIE)模块作为局部光照注入器来恢复暗区域的可见性,而自适应动态亮度增强(ADLE)模块作为全局曝光对齐器来调节整体动态范围。在微观上,每个模块都采用了混合内部实验设置
所有实验都在配备Intel i7-12700K CPU和NVIDIA RTX 3090 GPU的工作站上使用PyTorch 2.4.1实现。为了确保公平比较,所有方法的计算复杂性(每秒千兆浮点运算次数,GFLOPs)和推理延迟都在512×512的统一分辨率下使用FP32精度进行了评估。推理时间结果代表了200次独立运行后的平均值,排除了I/O开销。复合自监督策略:“约束与恢复”动态
在缺乏配对正常光真实值的情况下,我们提出了一种“复合自监督策略”来克服零参考学习的理论瓶颈。与可能收敛到平凡身份映射的传统方法不同,这种策略实施了一种“约束与恢复”机制,从根本上重塑了优化过程。在前向传播过程中,网络受到严格统计约束的支配
局限性
尽管LGPENet具有很强的结构保真度,但它也存在一些固有的局限性。首先,实现高精度恢复不可避免地会增加计算成本。如消融研究所示,Swin Transformer块的集成导致了相对较高的计算开销,为48.166 GFLOPs。虽然这种设计选择对于保持细粒度的生物特征结构至关重要,但它限制了LGPENet在实时或资源受限环境中的适用性
结论
在本文中,我们提出了LGPENet来解决可见性恢复和结构保留之间的固有冲突。通过建立零参考自监督范式,我们引入了一种复合自监督策略,消除了对外部真实值的需求。通过利用内部统计锚点,该策略实施了“约束与恢复”优化动态,迫使网络将图像统计与物理先验对齐,同时重建内在作者贡献声明
包文霞:概念化、撰写——审阅与编辑、监督。郭文涛:概念化、方法论、验证、可视化、撰写——原始草稿。田宗豪:数据整理、调查。王年:资金获取、调查、监督、撰写——审阅与编辑。作者声明
所有作者均已阅读并理解了“作者的伦理责任”声明,并根据《作者指南》中的规定进行了相应遵守。