编辑推荐:
水下图像增强多分支物理分解网络研究,提出三分支架构分别处理颜色失真、细节损失和光照不均,结合像素级L1损失、HSV空间HSLoss和直方图分布损失的多域损失函数,在UIEB和EUVP数据集上PSNR分别提升0.07dB和0.17dB。
Jongwook Si | Sungyoung Kim
韩国龟尾市Kumoh国立理工学院计算机与人工智能融合工程系
摘要
水下图像会受到多种物理退化因素的影响,如光谱衰减、后向散射和非均匀照明,这些因素同时导致颜色失真、细节丢失和对比度降低。本文提出了一种网络模型,从物理角度分解这些复杂的退化现象,并通过三个并行分支分别处理每个因素。与以往基于启发式方法的多流架构不同,我们的三分支设计基于对水下退化的物理分解,实现了现有方法无法实现的针对各因素的精确校正。这三个分支分别是:用于颜色校正的ColorCastNet、用于细节恢复的DetailUNet以及用于照明标准化的IlluminationNet,它们分别在不同的频率和统计域中工作。该架构不仅依赖于预定义的模块,还采用了多感受野分析、注意力引导的特征细化以及上下文感知的恢复模块,从而实现了对水下退化的可解释和模块化处理。它们的输出通过一个名为Fusiongate的融合模块在像素和通道层面进行整合,该模块还有助于优化残余的颜色不一致性问题。在训练过程中,我们设计了一种损失函数方案,以反映水下退化的多方面特性。像素域中的L1损失确保了结构的稳定性;HSV颜色空间中的HSLoss保证了色调方向和饱和度大小的一致性;基于直方图的分布损失则使全局色调统计特性保持一致,从而实现自然的视觉效果。这些损失函数的组合使得恢复效果平衡,避免了过度校正,并促进了各分支之间的有效协作。在基准数据集上,所提出的模型表现优异,在UIEB上的PSNR为23.84 / SSIM为0.919,在EUVP上的PSNR为26.29 / SSIM为0.884。与现有最先进的方法相比,该模型在UIEB上的相对提升为0.07 dB / 0.052,在EUVP上的相对提升为0.17 dB / 0.024,证实了这种并行且针对特定因素的设计相比现有深度增强框架具有显著的优势。这些结果验证了该方法在生成高质量水下图像方面的有效性。
引言
水下图像增强被认为是包括海洋探索、水下机器人导航、自主水下航行器(AUV)视觉系统、搜索与救援任务以及海洋生态系统记录在内的广泛应用中的关键预处理步骤[1]、[2]、[3]、[4]。然而,水下环境在光学上更为复杂且不均匀,这比空中成像条件带来了更具挑战性的退化问题[5]、[6]、[7]。主要的退化因素包括光谱衰减、后向散射和照明不均匀[8]、[9]。首先,随着深度的增加,光谱衰减在各个波长上有所不同,尤其是长波长成分(如红色)会迅速减弱,导致水下图像出现严重的颜色偏移。其次,水中悬浮颗粒产生的后向散射会在整个场景中产生普遍的遮蔽光,导致细节丢失和对比度降低。第三,由于光线路径的变化、深度波动以及颗粒浓度的不同,照明不均匀性会导致亮度在空间上的不一致,进一步降低整体图像质量。这些相互交织的退化现象难以通过单一的物理模型来描述或逆转[10]。因此,有效的水下增强需要在基于物理的可解释性和数据驱动的适应性之间取得平衡[11]。传统方法通常依赖于基于模型的恢复技术(如Retinex或传输估计),或基于直方图的对比度调整技术[12]。尽管这些方法在理论上是可行的,但由于无法考虑退化模式的局部差异性,它们往往无法泛化到多样化和复杂的水下场景中,常常导致过度补偿或视觉效果不自然[13]。
最近的水下物体检测研究(如YOLO-DBS框架[14])强调了提高视觉清晰度对于在复杂海洋环境中可靠目标识别的重要性,这进一步强化了我们改进基于AUV的感知系统图像的动机。此外,最近的多传感器定位研究(如传感器融合框架[15])也表明,视觉清晰度是可靠导航和搜索与救援操作的关键前提,这进一步突显了水下图像增强在集成机器人感知系统中的重要性。此外,关于自动驾驶感知挑战的最新综述(如Yao等人的雷达表示分析[16])也强调了在复杂环境中鲁棒感测的重要性。这一观点同样适用于水下AUV导航,其中提高视觉清晰度对于可靠的环境感知至关重要,从而进一步支持了我们开发恢复网络的动机。
最近,基于深度学习的方法(如卷积神经网络CNN和Transformer)在水下图像增强方面取得了令人鼓舞的进展[17]。这些模型可以利用大规模数据来学习对复杂颜色失真和细节丢失的校正方法。然而,大多数现有的基于学习的方法通过单一路径架构处理所有类型的退化,或在整个图像上应用统一的校正策略[18]、[19]、[20]。这通常会导致可解释性受限、成分分离效果差以及恢复结果不一致。鉴于颜色失真、光照不平衡和结构退化具有不同的频率和统计特性,设计一种具有自适应融合能力的针对特定因素的架构至关重要[21]。尽管现代深度学习架构(如Transformer和GAN)具有强大的表示能力,但它们在处理水下衰减和散射时往往遇到困难,因为这些退化现象依赖于深度、空间和波长。这些特性违背了卷积和自注意力机制所隐含的稳定性假设,导致特征表示混乱和颜色-结构交互不稳定。
在这项工作中,我们提出了一种新颖的多分支网络,该网络将水下图像的复杂退化分解为不同的物理因素,并通过并行使用专门的模块分别处理这些因素。网络包含三个分支:用于颜色校正的ColorCastNet、用于纹理和结构恢复的DetailUNet以及用于照明标准化的IlluminationNet。每个分支都设计为在不同的感受野和频率域中工作,以有效隔离和校正其对应的退化类型。它们的输出通过Fusiongate进行整合,该模块在像素和通道层面动态融合各分支的输出,实现图像的空间自适应恢复。最后,AdaptiveColorCorrection使用深度可分离卷积进行低成本细化,以校正残余的色调和通道不一致性问题,同时不改变图像结构。除了架构设计外,我们还提出了一种针对水下退化物理特性的多域损失函数。像素域中的L1损失确保了结构对齐,HSV颜色空间中的HSLoss保证了色调方向和饱和度大小的一致性,基于直方图的分布损失促进了全局色调统计特性的对齐。这些损失函数共同促进了视觉上自然且物理上合理的图像恢复效果,避免了过度校正,并促进了跨场景的泛化能力。
最近在下游视觉任务中的进展进一步凸显了高质量增强的重要性;例如,反重叠检测框架AO-DETR[22]表明,准确的边界恢复和细粒度细节(如我们的DetailUNet所恢复的细节)可以直接提高复杂场景中的物体定位和识别性能。此外,水下环境的光谱衰减特性与Jia等人的观察结果一致[23],他们的多传感器光谱分析指出了保留长波长成分的难度。这为ColorCastNet分支提供了额外的动机,该分支用于补偿严重的红色通道衰减。将水下退化分解为吸收、散射和照明成分的动机与Qian等人提出的基于物理的神经建模一致[24],他们的海底映射框架展示了将物理原理融入深度学习流程的价值。
本文的关键技术贡献总结如下:
- •
基于物理退化分解的多分支架构:我们提出了一种网络,将颜色失真、细节丢失和照明不平衡分为三个专门的分支,从而实现针对每种退化成分的专门化和高效恢复。
- •
像素和通道级别的自适应融合策略:我们引入了Fusiongate模块,该模块在每个像素和每个通道基础上自适应地融合三个分支的输出,通过专家混合机制支持场景自适应恢复。
- •
高效的后融合颜色校正模块:我们设计了一种基于大核深度卷积的低成本模块,该模块在保持空间结构的同时细化色调和通道间的一致性。
- •
基于物理原理的多域损失函数:我们的损失框架结合了像素级别的L1重建、HSV颜色空间中的HSLoss以及基于直方图的分布匹配,促进了结构保真度、色彩一致性和全局视觉自然性。
本文的结构如下:第2节回顾了现有的水下图像增强研究,并分析了包括主要网络架构在内的方法论方法。第3节详细描述了所提出的统一恢复框架,包括其结构设计、核心模块和损失函数。第4节介绍了实验设置、评估指标、比较结果以及定量和定性性能分析,以验证所提出模型的有效性。最后,第5节总结了本文的整体内容,并讨论了关键贡献和未来研究的方向。
相关工作
相关研究
传统的基于物理的恢复方法也提供了重要的基准。Wang等人[25]假设模糊图像和无雾图像之间的最小通道之间存在线性关系,并通过一系列线性运算估计介质传输映射。虽然这种方法对于大气散射有效,但难以模拟水下遇到的非线性波长依赖的衰减和空间变化的散射现象。这种对比进一步激发了我们
提出的方法
所提出的方法是一个端到端的网络,专门用于水下图像增强,特别针对水下环境中常见的三种主要退化因素:颜色偏移、细节丢失和照明不平衡。与由单一因素引起的退化不同,水下图像质量的下降是由于复杂的、相互叠加的信号失真造成的,而这些失真会随着环境物理条件的变化而变化。
数据集
在本研究中,使用两个具有代表性的水下图像增强数据集UIEB[57]和EUVP[37]来评估所提出方法的性能。UIEB数据集是一个提供低质量水下图像及其对应高质量参考图像对的基准数据集,也是水下图像增强研究中最广泛使用的公共数据集之一。该数据集包含总共880对样本,但没有提供官方的训练/测试划分。
结论
在这项研究中,我们提出了一种多分支水下图像恢复网络,旨在通过分离和处理颜色失真、细节丢失和照明不平衡来同时解决水下图像中的复杂退化问题。所提出的模型围绕三个主要分支(ColorCastNet、DetailUNet和IlluminationNet)构建,分别负责颜色校正、结构恢复和照明标准化。
CRediT作者贡献声明
Jongwook Si:撰写初稿、可视化处理、验证、软件实现、方法论设计、数据整理、概念构思。Sungyoung Kim:审稿与编辑、验证、监督、资源协调、项目管理、资金获取、正式分析。
作者贡献
所有作者都对研究的概念设计和实施做出了贡献。手稿的初稿由Jongwook Si撰写,所有作者都对手稿的早期版本进行了评论。所有作者都阅读并批准了最终版本的手稿。
写作过程中使用生成式AI和AI辅助技术的声明
作者仅使用生成式AI工具进行英语翻译和语法检查。
资金
作者声明在准备本手稿的过程中没有收到任何资金、资助或其他形式的支持。
利益冲突声明
作者声明在撰写过程中没有已知的财务利益冲突或个人关系可能影响本文的研究结果。