编辑推荐:
去雾双流网络小波变换注意力机制生成对抗网络视频处理
帕特·昌德(Parth Chande)|加贾南·加尔谢特瓦尔(Gajanan Galshetwar)|维杰伊·加尔谢特瓦尔(Vijay Galshetwar)|尼特什库马尔·阿格拉瓦尔(Niteshkumar Agrawal)|尼哈·米什拉(Neha Mishra)
印度维玛塔·吉贾拜技术学院(Veermata Jijabai Technological Institute)
摘要
朦胧的环境条件会导致相机捕捉到的图像/视频的颜色和清晰度下降。现有的方法虽然能够取得显著的效果,但在恢复的图像/视频中缺乏有效的边缘和纹理表现。为了解决这个问题,我们提出了WAGAN:一种基于双正交小波引导注意力网络(Bi-Orthogonal Wavelet-Guided Attention Network)的图像/视频去雾算法。在该框架中,多尺度膨胀残差模块捕获丰富的上下文特征信息;特殊注意力模块通过剔除不必要的特征来提取稳健的特征;多尺度特征聚合模块提升网络的恢复能力;PatchGAN则用于区分伪造和真实生成的图像。此外,所提出的双正交小波(bior4.4)处理方法能够捕捉边缘和纹理细节,有助于在生成的图像/视频中实现高质量的高频纹理表现。最后,该算法通过提出的跨注意力融合机制将特征与RGB空间信息相结合。实验结果和消融研究证明,WAGAN优于现有的最先进图像/视频去雾方法。
引言
雾霾、雾气和烟雾等环境条件会严重降低捕获图像和视频的视觉质量。这些颗粒对光线的散射和吸收会降低对比度并掩盖关键细节。受雾霾影响的图像容易出现过度平滑和光环伪影,从而显著降低图像质量。无雾霾的图像/视频恢复对于提升各种视觉任务的性能至关重要,例如深度估计、物体检测、运动物体分割、人类行为识别和自动驾驶车辆跟踪等。这些任务的性能取决于输入图像/视频的质量。如果输入图像/视频中存在雾霾,计算机视觉算法的性能会大幅下降[1]。因此,需要采用高效的去雾策略作为预处理步骤来增强雾霾图像/视频的可见性。
最近的一些去雾方法,如基于CNN的网络(MFAF-Net [2]、FFA-Net [3])、小波变换器混合模型(WaveletFormerNet [4]、DedustNet [5])以及基于GAN的网络(CRFNet [6]),都取得了显著成果。然而,由于密集雾霾导致的高频细节丢失[2]、[6]以及小波和变换器模型中多域融合效率低下(从而产生伪影和高计算成本[4]、[5]),雾霾图像/视频的恢复效果仍有提升空间。这些挑战凸显了需要一种自适应、高效且时间连贯的解决方案的必要性。
我们提出了一种创新的生成对抗网络WAGAN:基于双正交小波引导注意力网络的图像和视频去雾算法(参数数量约为17.3 M),该算法结合了小波域处理和跨注意力融合技术。通过双正交小波分解提取高频特征,并利用生成对抗网络(GAN)实现逼真重建,从而取得了最先进的结果。该模型通过基于帧的去雾实验在视频序列上进行了训练和测试。所提方法的样本结果见图1。其主要贡献如下:
- •
提出了双流双正交小波引导注意力网络,其中跨注意力融合机制用于自适应地对齐RGB信息和小波特征。
- •
在一个流中,提出了一种有效的特征提取策略,能够在不同雾霾密度下保持稳定的同时捕获丰富的上下文颜色特征。
- •
在另一个流中,通过小波特征提取有效提取图像的边缘和纹理细节,有助于精细恢复重要特征。
- •
因此,小波引导的跨注意力融合机制在图像或视频的多域特征整合中表现出色,其去雾效果可与其它最先进方法相媲美。
在REVIDE [7]、NH-HAZE [8]、[9]、SOTS [10]、D-Hazy [11]和I-HAZE [12]数据集上进行了广泛的实验评估。
本文的其余部分结构如下:第2节回顾了基于小波的去雾和注意力机制的相关工作;第3节详细介绍了WAGAN架构及所使用的损失函数;第4节阐述了模型的训练过程;第5节使用最先进方法分析了定量和定性结果;第7节总结了未来的研究方向。
参考文献
文献综述
图像和视频去雾技术从物理驱动的方法发展到了深度学习范式。早期方法如[13]依赖于多图像偏振技术,而[14]首次利用暗通道先验(DCP)实现了单图像去雾,借助统计先验进行传输估计。几何模型如[15]引入了基于深度的散射模型,但在处理动态场景时遇到困难。对比度最大化技术[16]虽然提高了清晰度,但常会产生光环伪影。提出的方法
如图2所示,所提出的双流网络旨在通过RGB编码器同时提取层次化的雾霾特征,并利用所提出的小波特征提取器保留对雾霾具有抵抗力的结构细节,从而解决单图像去雾问题。这种双流架构的灵感来源于雾霾对空间域和频率域的不同影响:RGB特征对大气散射敏感,而WAGAN框架的训练过程
训练过程采用双优化器GAN架构,对生成器和判别器进行同步更新。增强型小波生成器处理512 × 512像素的RGB输入数据,利用并行双正交小波特征流进行处理;PatchGAN判别器则处理全分辨率图像。训练过程在指定的数据集上进行100个最大迭代周期,逐步聚焦于更具挑战性的雾霾模式。数据集
该框架使用的数据集包括...实验结果
实验结果在REVIDE-Inside [7]、SOTS [10]、NH-HAZE [8]、D-Hazy [11]和I-Haze [12]数据集上进行了分析,结果分为定量和定性两部分。局限性
WAGAN采用逐帧处理方式;缺乏显式的时间建模(如循环单元或光流)可能会导致高动态视频序列出现时间闪烁。此外,对固定bior4.4参数和阈值启发式的依赖()使得系统对传感器特定噪声敏感。在信噪比较低的环境或存在严重压缩伪影的场景中,小波提取器可能会将噪声误认为是显著纹理,从而产生伪影。另外,...
结论
在本文中,我们提出了一种基于生成对抗网络的WAGAN:双正交小波引导注意力网络,用于图像和视频去雾。该架构通过两个流协同工作:多尺度膨胀残差模块捕获丰富的上下文特征;小波变换处理机制有效提取边缘和纹理细节,并将其提供给解码器。CRediT作者贡献声明
帕特·昌德(Parth Chande):撰写——审阅与编辑、原始稿撰写、可视化处理、验证、方法论设计、概念构建。加贾南·加尔谢特瓦尔(Gajanan Galshetwar):撰写——审阅与编辑、验证、监督、方法论设计、概念构建。维杰伊·加尔谢特瓦尔(Vijay Galshetwar):撰写——审阅与编辑、验证、方法论设计、概念构建。尼特什库马尔·阿格拉瓦尔(Niteshkumar Agrawal):撰写——审阅与编辑、验证。尼哈·米什拉(Neha Mishra):撰写——审阅与编辑、可视化处理。利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。