随着技术的进步,从图像中提取清晰、准确的信息的需求持续增长。然而,环境因素常常阻碍高质量图像的获取。夜间或低光照条件下的图像通常存在噪声、光照不均和细节模糊等问题,这些问题都会降低视觉质量并导致信息不完整。这些限制不仅影响视觉感知,还会对高级计算机视觉任务(如物体识别、自动驾驶和图像分类)产生连锁效应,最终降低下游处理任务的准确性。
为了解决这些问题,提出了多种低光照图像增强算法,包括伽马校正和直方图均衡化等基本方法。然而,这些方法往往会导致过度增强和图像失真,因为它们的成功在很大程度上依赖于手动设置的先验的准确性。在现实世界中,光照条件的复杂性使得确定低光照因素变得复杂。传统的认知方法(如Retinex理论[1])受到人类视觉系统的启发,将图像分解为光照和反射率两个组成部分,以模拟人类在不同光照条件下的颜色和亮度感知。根据Retinex理论,低光照增强的目标是减轻光照影响、放大反射率成分并恢复细节和颜色。然而,传统的Retinex方法需要复杂的参数调整,并且通常会在低光照条件下引入显著的噪声和伪影。
随着深度学习的进步,卷积神经网络(CNN)和基于Transformer的模型为低光照图像增强树立了新的标杆。CNN能够有效捕捉局部图像特征(如边缘和纹理),这对于低光照环境下的细节恢复和噪声抑制至关重要。然而,在低光照条件下,图像细节和纹理经常丢失,而准确分离光照信息仍然十分重要。传统的卷积操作难以在细节保留和精确光照估计之间取得平衡。此外,传统的卷积上采样和下采样机制可能会降低细节质量,因为在低光照图像中纹理和边缘的遮挡或模糊现象很常见。直接进行卷积下采样可能会加剧这一问题,尤其是在光线昏暗和图像质量较差的区域,噪声容易被错误放大。
在上采样和下采样过程中的特征融合中,通常使用标准的通道级连接方式。这种技术沿通道维度连接特征,缺乏选择性强调相关特征的能力,常常导致冗余信息的积累,从而稀释关键细节并妨碍模型有效捕捉关键特征。此外,由于CNN主要捕捉局部特征,仅依赖这些特征可能不足以解决低光照图像中的全局光照问题。虽然Transformer模型凭借其自注意力机制能够提供全局视角并更有效地建模长距离依赖性,但它们在增强低光照图像的细节和结构方面也有优势。然而,应用原始的Transformer架构计算成本较高且训练过程复杂,难以实时应用于低光照图像增强任务。
为了克服这些限制,本文提出了RetinexWT架构,这是一种将Retinex理论与小波变换相结合的新方法,用于实现鲁棒的低光照图像增强。RetinexWT主要由光照估计器和退化恢复器组成。在传统Retinex模型的基础上,我们引入了扰动项来准确模拟低光照条件下的典型退化现象。光照估计器结合小波变换生成低光照图像的增强光照信息,而退化恢复器则修复和抑制各种形式的退化,包括噪声、伪影、曝光不足/过度曝光和颜色失真。通过将小波特征分解器集成到退化恢复器的下采样模块中,模型可以分别增强亮度和抑制不同频率成分的噪声。此外,还采用了门控机制来选择性地融合下采样和上采样的特征,从而在抑制噪声的同时保留边缘和细节信息。Transformer的自注意力机制进一步用于捕捉图像中的长距离依赖性,促进准确的全局增强和恢复。
总结来说,我们的主要贡献如下:
• 我们提出了一种基于Transformer的混合注意力网络,用于低光照图像增强,确保在增强过程中有效建模长距离依赖性。该方法利用从小波变换获得的频域信息与Retinex模型相结合,以获得更准确的光照信息。
• 我们避免了传统的下采样方法,而是引入了Haar小波分解器来保留信息。输入特征通过小波变换分解为高频和低频成分,使得在下采样过程中保留和分离图像的结构和细节信息,从而提高增强效果。此外,通过提供频域特征,模型可以在重建过程中利用这些丰富的信息进行更有针对性的噪声抑制、边缘细化和基于频域特征的噪声去除操作。
• 我们引入了门控机制来选择性地融合上采样和下采样的特征。与直接的通道级连接相比,该机制可以动态确定哪些特征更为重要。通过控制不同通道特征的贡献,它更好地平衡了噪声抑制和细节保留。在特征融合过程中,应用卷积和激活操作进一步细化和增强信息流,减少上采样和下采样过程中的信息丢失风险。
• 定性和定量实验表明,我们的RetinexWT在多个数据集上的表现优于所有之前的基于Retinex的深度学习方法,并且优于最先进(SOTA)方法。