EGM-Net:一种高效的水下图像增强网络,具备全局上下文建模和元优化功能

《Optics & Laser Technology》:EGM-Net: An efficient underwater image enhancement network with global context modeling and meta-optimization

【字体: 时间:2026年05月10日 来源:Optics & Laser Technology 4.6

编辑推荐:

  孟向瑞|刘园|郭晓燕|韩洪峰 成都理工大学明德学院,中国四川省成都市611730 **摘要** 水下图像经常受到严重恶化的影响,包括颜色偏移、低对比度和细节模糊,这些现象是由波长依赖的吸收和光散射引起的。此外,不同类型的水体和成像条件会导致明显的场景间分布变化,使得

  孟向瑞|刘园|郭晓燕|韩洪峰
成都理工大学明德学院,中国四川省成都市611730

**摘要**
水下图像经常受到严重恶化的影响,包括颜色偏移、低对比度和细节模糊,这些现象是由波长依赖的吸收和光散射引起的。此外,不同类型的水体和成像条件会导致明显的场景间分布变化,使得现有方法难以同时实现高增强质量、强结构一致性和易于部署的效率。为了解决这些挑战,提出了一种高效的水下图像增强网络EGM-Net。其核心思想是在轻量级的U-Net框架内增强对局部退化线索的表示,提高全局颜色和结构的一致性,并增强对未见退化的鲁棒性。具体来说,设计了一个可重新参数化的多分支模块W-RepMBB。通过在训练过程中多分支之间的协作来增强特征多样性和退化建模,同时在推理时将分支重新参数化为一个等效的单个分支以降低计算成本和延迟。在网络瓶颈处引入了PF-BEAM模块。通过Q–K–V分解和注意力聚合来捕捉全局依赖性,并利用共享的稀疏专家池在多种退化线索下进行自适应增强,从而加强语义和结构的一致性。此外,还提出了一种参数分区元优化策略P2MO。根据参数的功能角色对它们进行分组,并结合批量元训练/元测试构造及二阶更新机制,以提高跨退化的泛化和优化稳定性。在包括UIEB、U45和EUVP在内的公共基准测试上的广泛实验表明,EGM-Net在完全参考和无参考指标以及主观视觉质量方面都取得了优异的性能,同时在效率和增强质量之间保持了良好的平衡。这些结果表明,所提出的方法在实际的水下增强和面向边缘的部署中具有实用性。源代码可在https://github.com/601140736/EGM-Net公开获取。

**引言**
水下光学成像是海洋勘探、水下机器人导航、生态监测和水下考古学中细粒度视觉信息的关键来源[1]。与声学传感模式(如声呐)相比,光学图像提供了更直观的纹理、边缘和颜色线索,因此对于物体识别、计量和场景理解至关重要[2]。然而,在实践中,水下介质通过波长依赖的吸收和散射极大地改变了成像过程,导致光学图像通常受到多种退化的影响,包括强烈的颜色偏移[3]和由选择吸收引起的色度失真[4]、导致雾状散射和对比度下降的遮蔽光,以及由于光照不足、浑浊和传感器噪声而伴随的细节损失。这些退化通常在同一观测中同时出现,并且在不同类型的水体、深度、观察距离、光照条件和设备设置下表现出强烈的不均匀性,导致场景间、数据集间甚至同一数据集内的显著分布变化。因此,实际的水下图像增强不仅需要提高视觉清晰度,还需要在颜色一致性、结构保真性和噪声抑制之间实现稳健的平衡,同时能够快速适应以前未见过的退化条件。

现有的水下图像增强方法大致可以分为传统图像处理方法[5]、[6]、基于物理模型的恢复[7] [8]和基于深度学习的端到端增强[9] [10]。传统方法通常通过对比度拉伸、直方图均衡或多尺度融合来提高可见性;它们实现简单且不需要训练,但其底层机制通常不针对复杂的退化形成进行定制,可能会引入过度增强或虚假纹理。基于物理的方法试图估计关键量(如背景光和透射率)来进行“去散射”和颜色校正;然而,当实际水参数和光照条件违反这些假设时,性能可能不稳定。深度学习方法在基准数据集上取得了持续进展,因为它们具有强大的表征能力,最近的图像任务研究进一步探索了更丰富的跨模态先验和结构化表示。例如,WaterCycleDiffusion引入了视觉-文本融合和扩散先验用于水下图像增强[11]。此外,视觉-文本 mutual guidance在遥感视觉问答中展示了多模态语义交互的有希望的能力[12],而光谱到图建模结合图卷积也在紧凑型HFSWR图分类中展示了有效的结构化表示学习[13]。这些发展表明了多模态指导和结构化表示学习的日益重要性,但它们也倾向于引入额外的建模复杂性或任务特定设计,实际场景中的轻量级水下增强问题仍未得到充分解决。

首先,水下增强本质上需要局部细节恢复和全局一致性建模[14]。虽然许多方法在局部锐化和纹理增强方面有效,但在严重散射、不均匀照明或大的平滑区域下,全局色调和对比度并不总是能够得到保持,局部改进的细节可能会显得不自然,或者结构边界会被过度强调。其次,在轻量级、面向边缘的设置中,加强全局关系建模通常会增加额外的参数和计算量;如果直接采用重量级的全球操作符,可能会增加延迟和资源消耗,从而与实时或低功耗部署相冲突[15]。第三,分布变化和高质量数据的稀缺性使得训练范式成为实际性能的决定性因素:在不平衡的退化分布上进行的标准端到端训练通常会导致模型偏向于主导模式,在新场景或未见过的退化情况下性能显著下降;此外,当数据有限或需要快速迁移时,有效的适应可能需要许多优化步骤,这与快速部署的需求相矛盾[16]。这些问题表明,稳健的水下增强模型应同时提供稳定的多尺度细节恢复、低开销的全局一致性建模以及对分布变化更具响应性的优化特性。

受到这些观察的启发,提出了EGM-Net作为一种用于实际场景分布变化的高效水下图像增强框架。尽管其构建块受到了结构重参数化、带条件路由的瓶颈注意力以及元优化等现有范式的启发,但EGM-Net的新颖性并不在于将每个组件视为完全独立的通用操作符。相反,其贡献在于为在严重混合退化和场景间分布变化下的轻量级水下增强提供了一个面向任务的重新表述和统一集成。具体来说,该框架被组织为一个连贯的因果链:首先在轻量级预算下增强局部表示以保留结构细节;然后在瓶颈处引入有条件的全局一致性建模来纠正色调/对比度违规和散射引起的长程依赖性;最后,将跨退化适应纳入训练以在分布变化下稳定学到的专门化。因此,所提出的框架在保持对全局一致性违规和退化变化的鲁棒性的同时,仍然是易于部署的。本工作的主要贡献总结如下:
1. EGM-Net被作为一个针对实际场景分布变化的轻量级水下图像增强框架提出。它不是以临时方式堆叠异构模块,而是遵循从高效局部表示到有条件全局一致性建模和基于元优化的适应的统一设计链,从而共同提高了增强质量、部署效率和跨退化鲁棒性。
2. PF-BEAM被提出作为一个无需投影的平衡专家注意力模块,用于轻量级瓶颈建模。与具有显式Q/K/V投影的标准瓶颈自注意力不同,PF-BEAM去除了三个可学习的投影,并将瓶颈注意力与共享的稀疏专家池、硬性Top-1路由和负载平衡正则化器结合在一起,使得在有限的计算预算下能够进行条件化的全局校正。
3. P2MO被提出作为一种函数感知的分区二阶元优化策略。它不仅仅应用批量元训练和多个学习率,而是将浅层/输出层、下采样路径、PF-BEAM和上采样路径组织成不同的功能组,并执行针对组的二阶元更新,以提高优化鲁棒性和跨退化泛化能力。
4. 为了保持上述链的部署-friendly性,设计了W-RepMBB作为一个加权可重新参数化的多分支模块,并在整个网络中作为统一的局部表示原语使用。其可学习的分支权重允许在训练期间适应性地组合互补的局部变换,而在推理时所有分支可以等效地折叠成一个单个卷积,从而缓解了实际水下增强部署中的容量-效率紧张问题。

**水下图像增强**
水下图像增强(UIE)旨在缓解由波长依赖的吸收和散射引起的颜色偏移、对比度下降和细节模糊。现有的UIE方法大致可以分为三类:无模型(非物理)增强、基于物理的成像模型驱动方法和数据驱动的深度学习方法。

**整体网络架构**
水下图像增强旨在从退化的观测I∈R3×H×W中恢复出一个美观且结构清晰的图像I^。与通用自然图像恢复不同,水下成像受到波长依赖的吸收和散射的严重影响,这导致了如蓝/绿色偏移、雾状遮蔽、低对比度和放大噪声等特征性退化。更重要的是,这些退化在不同类型的水体、深度、观察距离和照明条件下变化很大。

**实验环境和训练配置**
所有训练和推理都在配备单个GPU(即NVIDIA RTX 3090,配备24 GB VRAM)的单机上完成。实现基于Python 3.10.14和PyTorch 2.2.2,以及CUDA 11.8和cuDNN 7.0;所有其他依赖项通过pip安装和管理以确保可重复性。在训练期间,输入图像被调整为256×256大小并转换为张量,然后再输入网络。

**结论**
本文通过提出EGM-Net来解决多样化水下退化和场景间分布变化的挑战,EGM-Net是一个高效的水下图像增强框架,能够在局部细节恢复、全局颜色-结构一致性和高效部署之间取得平衡。EGM-Net采用U-Net风格的编码器-解码器,并使用W-RepMBB作为统一构建块,通过多分支训练丰富局部表示。在推理时,W-RepMBB被结构化地重新参数化为...

**作者贡献声明**
孟向瑞:撰写——原始草稿、软件实现、数据管理、概念化。
刘园:撰写——原始草稿、可视化、软件实现、方法论、调查。
郭晓燕:形式化分析、数据管理、概念化。
韩洪峰:撰写——审阅与编辑、验证、监督、调查。

**利益冲突声明**
作者声明没有已知的财务利益或个人关系可能影响本文报告的工作。

**致谢**
本工作得到了中国政法大学研究生教育和教学改革项目(项目编号:YJLX2533)的支持,以及中国政法大学2024年青年教职员工支持计划(项目编号:10824929)的支持。此外,该工作还获得了中国政法大学2026年青年顶尖人才培养和支持计划对韩洪峰的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号