UGLF-Net：一种用于水下全局-局部特征融合网络的并行架构

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　水下图像增强任务面临低对比度、色偏及散射等挑战。本文提出UGLF-Net架构，通过AMFE模块提取全局特征，HMCM模块融合局部细节，Swin FAM模块增强上下文关联，并采用增强的通道注意力机制优化特征表示。实验表明该模型在PSNR和SSIM指标上显著优于U-Shape Transformer等现有方法，且推理速度达0.009s/张，适用于嵌入式实时处理。

陈尔康|陈万刚|沈志伟|李志辉|林志奇

厦门集美大学海洋信息工程学院，中国福建省厦门市361021

摘要

由于对比度低、颜色失真以及光线衰减和散射导致的模糊，水下图像增强任务极具挑战性。本文提出了一种新颖的并行架构——水下全局-局部特征融合网络（UGLF-Net），用于实现鲁棒性的图像恢复。UGLF-Net包括用于高质量全局特征提取的AMFE模块、带有SSM的选择性局部增强模块HMCM，以及用于捕捉全局上下文的Swin FAM模块。通过并行融合多源特征（RGB、灰度梯度以及降维数据），UGLF-Net实现了有效的全局-局部协同建模。残差连接和增强型ECA模块进一步提升了特征表示能力和训练稳定性，从而实现了最先进的（SOTA）性能。在LSUI、EUVP和UIEB数据集上的实验表明，UGLF-Net在PSNR和SSIM方面优于现有方法（包括U形Transformer）。消融研究验证了各组件的有效性。定性结果展示了其对鲜艳颜色和细节的出色恢复能力。其轻量级设计（采用单层SSM和窗口注意力机制）使得推理速度极快（每张图像仅需0.009秒），非常适合在嵌入式设备上进行实时增强，推动了水下视觉应用的发展。

引言

水下图像增强（UIE）（Soni和Kumare，2020年；Yang等人，2019年）是计算机视觉中的关键任务，在海洋探索、水下机器人导航、环境监测和水下考古学等领域有广泛应用。然而，由于水下环境的复杂性，水下图像常常受到各种退化问题的影响，包括对比度低、颜色失真（Berman等人，2021年）、细节模糊和噪声干扰。这些问题主要源于水中光线的衰减和散射效应，不同波长的光（例如红光）衰减更快，导致图像呈现蓝绿色调。此外，水中的悬浮颗粒和湍流进一步加剧了图像退化，使得传统图像处理方法难以有效恢复高质量图像。

近年来，深度学习在陆地图像增强任务（如超分辨率（Chen等人，2020年）、去噪和去模糊）方面取得了显著进展。然而，由于水下环境的特殊性（如非均匀照明、复杂散射和颜色偏移（Berman等人，2021年），水下图像增强仍然面临更多挑战。传统方法（如暗通道先验（DCP）（Li等人，2016年；He等人，2011年）依赖于光照传输假设，适应性有限。深度学习模型如UWCNN（Li等人，2020年）和Water-Net（Yang和Huang，2011年）通过数据驱动方法提升了性能，但主要关注局部特征，难以捕捉全局上下文。这限制了它们在复杂场景（如大规模颜色失真和细节丢失）中的有效性，同时计算复杂度高且鲁棒性不足。基于Transformer的方法（如ViT（Belal和Sundaram，2023年）具有强大的全局建模能力，但计算成本较高。序列建模技术（如SSM（Li等人，2025年）在视觉任务中表现优异，但在水下图像增强方面尚未得到充分探索。注意力机制通过特征选择提升了性能，但对多模态输入（如灰度图像和梯度信息）的利用仍不充分。

为了解决上述挑战，本文提出了一种新颖的水下全局-局部特征融合网络（UGLF-Net），该网络整合了U-Net、Swin Transformer、SSM序列建模和增强型注意力机制，以实现鲁棒的水下图像增强。UGLF-Net采用并行架构，逐步融合RGB、灰度和梯度图像的特征，保留了前阶段的信息，增强了输出图像的细节丰富度。此外，如图1所示，通过结合HMCM（带卷积的单层SSM）和Swin FAM（带窗口多头自注意力的Swin Transformer）模块，UGLF-Net减少了计算冗余，提高了运行效率，显示出在嵌入式设备上进行实时图像增强的潜力。我们的主要贡献如下：

•
UGLF-Net架构的提出：我们设计了一种用于水下全局-局部特征融合的新深度学习框架，整合了AMFE模块（用于捕捉全局上下文的HMCM序列建模）、Swin FAM（提取长距离特征依赖性）和增强型ECA（自适应优化特征表示）。通过并行架构，逐步融合RGB、灰度和梯度图像的特征，逐步传播早期阶段的特征，以优化输出图像的特征丰富度和细节保留，从而提升增强性能。
•
带预测头的多尺度监督：通过实现多尺度输出的主预测头，我们利用复合损失函数（结合MSE、VGG和SSIM）来提升模型恢复细节和全局结构的能力。
•
全面实验：在LSUI、EUVP和UFO-120等数据集上进行了广泛实验，结果表明UGLF-Net在PSNR和SSIM等指标上实现了最先进的（SOTA）性能。此外，对大规模LSUI数据集的消融研究评估了AMFE模块（HMCM块）、增强型ECA和Swin FAM对整体性能的贡献。同时，在LSUI数据集上测试了运行时间、FLOPs和参数数量等效率指标，凸显了UGLF-Net的高运行效率和在嵌入式设备上进行实时图像增强的潜力。
•
实际应用潜力
：通过多模态输入和高效的特征融合，UGLF-Net在多种水下场景（如不同浊度和光照条件）中表现出良好的鲁棒性，为机器人导航和海洋监测等水下视觉任务提供了可靠的解决方案。

方法

本节详细描述了用于水下图像增强的新型深度学习网络架构UGLF-Net，重点介绍了其模型设计和创新点。主要包括整体架构设计、与SSM框架集成的AMFE模块、基于Swin Transformer的并行Swin FAM模块以及增强型通道注意力机制（Enhanced ECA）。

实验设置

实验分为三个部分：水下图像增强、模块消融和运行效率。

UIE实验及结果分析

实验将UGLF-Net与CE-VAE（Pucci和Martinel，2025年）、CDF-UIE（Zhang等人，2025年）、UIE-Net（Lei等人，2024年）、U-Shape Transformer（Peng等人，2023年）和CPDM（Shi和Wang，2024年）在LSUI、EUVP和UFO-120数据集上进行了比较。如表1和表2所示，UGLF-Net在LSUI上表现出优异的性能，PSNR和SSIM均达到最高值，分别比第二名高出1.018和0.043；在UFO-120数据集上

结论

本研究提出了UGLF-Net，这是一种水下图像增强模型，它整合了来自U-Net的多尺度特征提取、全局依赖性建模、来自Swin Transformer的上下文信息捕获、通过HMCM（SSM）的局部细节增强以及通过增强型ECA的注意力优化。此外，还引入了并行架构以增强多源特征融合，从而显著提升了增强性能。在公共数据集上的实验结果

CRediT作者贡献声明

陈尔康：监督、资金获取。陈万刚：撰写——原始草稿、可视化、方法论、形式分析、概念化。沈志伟：监督、资源协调、资金获取。李志辉：验证、调查。林志奇：数据整理。

资助

本工作得到了复杂场景下的图像匹配方法研究（ZQ2024060）和厦门海洋与渔业发展专项资金（22CZB013HJ04）的支持。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验设置

UIE实验及结果分析

结论

CRediT作者贡献声明

资助

利益冲突声明

热点排行