《Pattern Recognition》:Adaptive Self-Attention Enhanced Conditional GAN for Image Dehazing
编辑推荐:
户外非均匀雾天图像中,基于条件生成对抗网络(CGAN)与可学习参数调整自注意力(LPASA)的混合模型有效解决了传统方法易过拟合、泛化性差及细节丢失问题,通过动态聚焦高浓度雾区并优化损失函数,显著提升雾天图像重建质量。
Priyanka Saxena | Anil Kumar Tiwari | Manish Narwaria
电气工程系,印度理工学院,焦特布尔,342030,拉贾斯坦邦,印度
摘要
雾霾会阻碍视线,使得在雾天拍摄的场景中难以分辨具体物体的细节。对于非均匀分布的户外雾霾情况,雾霾的复杂性会增加。由于配对数据的有限性,可能会导致过拟合现象。虽然现有的去雾方法已经成功地去除了密度较低、均匀的雾霾或仅非均匀的雾霾,但它们往往难以在不同雾霾场景中泛化,从而在去雾后的输出中引入颜色退化、伪影、纹理丢失等不良效果。为了解决这些问题,我们提出了一种基于条件生成对抗网络(CGAN)的方法,并增加了新颖的可学习参数可调自注意力(LPASA)机制,该机制能够自适应地强调受雾霾严重影响的区域,并根据雾霾分布调整对比度和亮度。此外,还引入了一种基于熵的正则化损失函数以提高训练稳定性。大量实验表明了该方法在各种雾霾场景中的鲁棒性和泛化能力。请在此处找到所提出工作的实现代码:
CGAN LPASA 代码
引言
环境雾霾是由大气气溶胶的扩散引起的,这些气溶胶来源于野火、工业污染物以及有机物质的不完全燃烧等源头,它们会显著降低能见度。这种大气干扰会妨碍计算机视觉任务,包括分割、物体检测、监控、遥感、自动驾驶、灾害监测和安全系统等。Koschmieder定律[1]解释了光在散射介质中的衰减现象,它是大气散射模型(ASM)的基础。Narsimhan和Nayar等人[2]通过将雾霾图像分解为直接传输光和天空光成分,进一步形式化了这一理论。根据广泛采用的雾霾成像模型[2],雾霾图像可以用数学公式表示为(1),其中I(x)表示像素x处雾霾图像的观测强度,J(x)表示无雾霾场景下的辐射强度,t(x)表示未散射并到达相机的光量,A(x)表示全局环境光。
去雾问题被归类为病态问题,主要是因为它涉及到估计未知的传输光和环境光。对于RGB彩色图像,有三个约束条件,而未知数有七个(假设每个颜色通道的t(x)是相同的)。去雾的目标是从雾霾退化的图像I(x)中恢复出去雾后的图像J(x)。此外,还有[3],其中β表示散射系数,d(x)表示场景的深度。
尽管有许多创新的去雾方法,但去雾后的输出容易受到多种因素的影响。例如,基于先验的方法在白色或明亮区域无法准确估计传输光和天空光,导致颜色失真和光晕现象。颜色衰减先验(CAP)[4]在深度复杂或光照不一致的场景中表现不佳。这些方法依赖于统计假设和视觉线索,但在密集或非均匀的雾霾中常常失效,导致过度去雾和伪影如光晕和颜色失真。相比之下,基于学习的技术,特别是卷积神经网络(CNN),通过绕过手工制作的先验直接从数据中学习复杂的雾霾模式,克服了这些限制。ASM被整合到基于物理原理的学习方法中,如DehazeNet[5]、全能去雾网络(AOD-Net)[6]等。尽管这些模型具有可解释性和与物理原理的一致性,但它们依赖于简化的假设,在复杂、非均匀或密集的雾霾条件下效果有限,常常导致颜色失真或去雾不彻底。相比之下,数据驱动的方法通过配对或非配对训练样本直接学习从雾霾图像到清晰图像的映射,绕过了ASM的约束。例如,基于CNN的方法如多尺度增强去雾网络(MSBDN)[7]、高效网络(EENet)[8];基于GAN的模型如融合判别器GAN(FD-GAN)[9]、先验引导的条件GAN(PG-CGAN)[10];基于变压器的模型如DehazeFormer[11]、多尺度注意力增强可变形变压器(MABDT)[12]、基于扩散的模型如遥感雾霾扩散(RSHazeDiff)[13];对比学习(CL)模型如无监督对比学习去雾(UCL-Dehaze)[14]、使用CL的夜间去雾[15]表现出强大的去雾性能。传统的基于先验的技术(如CAP[4]和NLD[16])在复杂或非均匀的雾霾中表现不佳,而最近的数据驱动模型尽管在合成数据上表现良好,但由于隐式学习和注意力控制不足而难以泛化。此外,基于CNN的模型由于配对训练数据有限而容易过拟合,在非均匀环境中性能不佳。CNN在高分辨率处理方面计算需求高且适应性有限,这使得单图像去雾在计算机视觉中始终是一个挑战。我们假设,通过结合轻量级的CGAN[17]、可学习参数可调自注意力模块(LPASA)和基于熵的正则化,可以动态关注与雾霾相关的区域,同时管理像素级预测的不确定性,从而提高去雾性能。
我们提出了一种新型的轻量级且鲁棒的基于CGAN[17]的去雾模型,该模型结合了LPASA、残差块和patchGAN判别器,增强了网络在生成和判别过程中适应雾霾特徵的能力。这种方法解决了当前数据驱动模型的缺点,包括在不同雾霾场景中的泛化能力,并提高了适应性和去雾性能。首先,通过利用相关的上下文线索,CGAN提高了数据效率,即使训练数据有限也能生成高质量的去雾图像。其次,CGAN中加入了新颖的可学习参数可调自注意力机制,可以适应特定场景的雾霾特性。相比之下,固定注意力可能无法很好地捕捉空间变化的雾霾浓度,而所提出的方法具有显著优势。第三,为了减少不确定的像素激活并避免GAN训练时常见的过度平滑输出,引入了基于熵的损失函数。最后,与参数众多的重型去雾模型(如FD-GAN[9])相比,所提出的模型结构更简单,运行时间更短。本工作的关键贡献如下:
•我们提出了一种基于CGAN的去雾模型,其中集成了新颖的可学习参数可调自注意力(LPASA)模块,增强了生成器的特征提取能力。
•通过在生成器中集成残差块,改善了图像重建,提高了特征的重用性和梯度流动。LPASA与生成器中的残差连接的结合有助于保留去雾图像的纹理细节和颜色一致性。
•LPASA机制可以自适应地调节注意力特征对最终输出的贡献。
•采用了一种包含熵损失的混合损失函数,以提高感知质量,稳定GAN训练,并防止模式崩溃。因此,它有助于生成多样化、真实感强、高质量的去雾输出。
•所提出的CGAN使用了一种轻量级但高效的基于补丁的判别器,以增强去雾性能。
相关工作
相关工作
已经有许多开创性的工作致力于高效去除图像中的雾霾。经典的图像去雾方法利用了深度数据、偏振和对比度来进行去雾。例如,Tan等人[18]假设在能见度较好的图像中观察到更高的对比度,而天空光的变化较为平滑。Markov随机场也被用于去雾。
另一方面,对于
提出的方法论
初始部分提供了所提出架构的全面概述,强调了集成到CGAN中的新颖可学习参数可调自注意力机制,以实现有效的图像去雾。此外,还详细介绍了生成器和判别器模块的讨论。
数据集
这里选择了实际世界的数据集,如O-Haze[29]和NH-Haze[30],它们分别被用于NTIRE 2018[29]和NTIRE 2020[30]的去雾挑战中,以评估所提出的模型。此外,还在合成雾霾数据集上进一步评估了模型的性能,如RESIDE室内训练集(ITS)[31]和SOTS室内集[31]。O-Haze[29]数据集由专业雾霾生成器生成,用于模拟真实的雾霾条件,而
实验结果与讨论
表3展示了所提出模型与几种最先进的去雾方法在三个基准数据集(O-Haze[29]、NH-Haze[30]和SOTS-indoor[31])上的定量比较。在所有数据集中,传统的DCP[3]方法显示出最低的PSNR和SSIM值,突显了传统先验的局限性。深度学习模型如AOD-Net[6]、EPDN[26]和FSAD-Net[20]在真实世界雾霾数据集上的表现优于传统方法。而DHM
结论与未来工作
本研究提出了一个基于轻量级CGAN的图像去雾框架,该框架结合了新颖的可学习参数可调自注意力机制以及生成器中的残差块和跳跃连接。自适应自注意力通过学习适应性地强调受雾霾影响的区域并抑制无关特征,改善了非均匀雾霾条件下的纹理恢复和边缘保留能力,优于固定注意力方法。轻量级的基于补丁的判别器
CRediT作者贡献声明
Priyanka Saxena:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、概念化。Anil Kumar Tiwari:撰写——审阅与编辑、可视化、监督、形式分析。Manish Narwaria:撰写——审阅与编辑、验证、监督、调查、形式分析。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
报告了与...的关系。如果有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。