SFMT-Net：一种基于多尺度空频匹配变换网络的水下图像增强框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Engineering》：SFMT-Net: Underwater image enhancement framework with Multi-Scale spatial-Frequency matching transformation network

【字体：大中小】 时间：2026年03月07日 来源：Ocean Engineering 5.5

编辑推荐：

　　水下图像增强中，现有方法难以平衡低频色偏校正与高频细节保留，且存在跨尺度信息丢失问题。本文提出SFMT-Net，通过频率选择性增强模块（FSSE）动态调节Transformer的频域注意力机制，实现多尺度空间-频率自适应交互；结合空间相关性匹配块（SCM），从高频到低频注入细粒度特征补偿，有效缓解信息衰减。实验表明该方法在多项公开数据集上达到最优性能。

关博良|陈观城|范林伟|宋金涛|罗晓楠

佛山大学计算机科学与人工智能学院，中国广东省佛山市广云路33号，528225

摘要

恢复水下图像是一项具有挑战性的任务，主要是由于光吸收和散射导致的复杂退化现象，这些现象在空间域和频率域中表现不一致。尽管现有的方法试图整合来自这两个域的信息，但它们在解决两个根本问题方面存在不足：如何使网络能够适应性地处理具有冲突频率特性的退化，例如在纠正低频色彩偏差的同时保留高频细节；以及如何在深度网络的低分辨率特征空间中保持足够的表示能力，以确保高质量的图像重建。为此，我们提出了一个多尺度空间-频率匹配变换网络（SFMT-Net），该网络包含两个关键设计：首先，我们引入了频率谱选择性增强模块（FSSE）。通过在自注意力机制中动态调节查询向量、键向量和值向量，该模块使Transformer具备双域意识。因此，模型可以适应性地关注不同频率带的显著特征，有效分离和处理水下图像的复杂耦合退化。其次，为了减少下采样过程中的信息损失，我们提出了空间相关性匹配（SCM）模块。该模块建立了从高分辨率到低分辨率空间的特征转换路径，通过利用空间特征相关性匹配，它选择性地将高分辨率域中的丰富细节和上下文线索注入低分辨率处理流中，显著增强了特征表示能力，从而实现高保真图像重建。广泛的实验表明，SFMT-Net在多个公开的水下图像增强基准测试中取得了最先进的性能。

引言

在水下介质中，由于波长依赖性的光吸收和散射，捕获的图像通常会受到红光衰减引起的色彩偏差、低对比度和细节模糊的影响。这些退化不仅损害了视觉感知，还削弱了水下机器人技术和感知任务的鲁棒性。为了解决这些问题，水下图像增强（UIE）的研究经历了持续的发展——从传统的基于物理和先验的恢复方法，到数据驱动的深度学习，再到最近的跨域和多模态融合范式。早期的基于模型的方法根据水下成像模型估计传输图和背景光来逆转退化过程，例如基于GDCP的恢复（Peng等人，2018年）、红通道校正（Galdran等人，2015年）和雾线统计恢复（Berman等人，2020年）。同时，无模型的增强方法——如CLAHE、Retinex和多尺度融合（Ancuti等人，2017年，Hitam等人，2013年，Zhang等人，2017年，Zhang等人，2022年）——直接在图像域中提升视觉质量。虽然这些方法具有可解释性、无需训练且计算效率高，但它们往往对先验假设敏感，并且在复杂光照、浑浊水体或多类型退化条件下难以平衡色彩保真度和清晰度。

深度学习的引入显著提高了UIE模型的表示能力和泛化能力（Cheng等人，2024年，Fan等人，2026a年，Fan等人，2025年，Fan等人，2026b年，Islam等人，2020年，Li等人，2020年，Li等人，2019年，Peng等人，2023a年，Wei等人，2022年，Zhao等人，2024年）。一个研究方向是将物理先验明确嵌入神经网络中，以结合可解释性和数据驱动的灵活性——例如，UColor的介质传输和多颜色空间嵌入的联合建模（Li等人，2021年），基于先验的UWCNN（Li等人，2020年），或者无监督和基于先验的限制设计，如USUIR和ReX-Net（Fu等人，2022a年，Zhang等人，2023年），这些方法解决了极端条件下的数据稀缺性和纹理保留问题。另一个方向关注端到端学习，从早期的多分支融合（WaterNet）和实时生成增强（FUnIE-GAN）（Islam等人，2020年，Li等人，2019年）发展到考虑不确定性的任务导向架构（PUIE、跨视图、目标导向）（Fu等人，2022b年，Jiang等人，2022年，Zhou等人，2023年），以及进一步发展到基于Transformer的框架（U-Trans）（Peng等人，2023a年），这些框架提高了全局-局部一致性。

与此同时，越来越多的研究认识到空间域和频率域表示在表征水下退化方面的互补作用。UHD-SFNet（Wei等人，2022年）通过基于小波的分支分离幅度和相位，在单独的子网络中执行亮度-对比度校正和纹理/结构恢复。FDCE-Net（Cheng等人，2024年）进一步构建了频率-空间残差模块和对比度增强模块来调节不同的频率带，而WF-Diff（Zhao等人，2024年）利用小波-傅里叶扩散先验来抑制高频噪声同时保留边缘细节。这些空间-频率UIE模型展示了引入频率线索的好处，但空间特征和频率特征之间的交互主要通过固定架构或浅层残差连接实现，并且仅限于少数网络阶段。特别是，它们没有明确执行空间特征层次结构和多频带频率响应之间的多尺度匹配，也没有将频率调制紧密集成到注意力机制中。这一差距激发了我们设计SFMT-Net的动机，该网络旨在实现更灵活和内容适应的空间-频率交互。

尽管取得了这些进展，但对现有方法的深入分析揭示了两个固有的瓶颈，这些瓶颈仍然限制了它们模拟水下退化复杂性的能力。第一个瓶颈在于处理频率不一致退化的粒度不足。水下图像退化不是一个均匀的失真过程，而是一个多带耦合过程：色彩偏差和对比度损失主要影响低频成分，而细节模糊和噪声则出现在高频带。为了进一步支持这一观察，我们进行了一个简单的频率分析实验，如图1所示。给定一个原始水下图像及其参考图像，我们首先应用DWT并仅交换LL子带；重建的图像显示全局退化风格主要遵循LL成分，而大多数结构细节仍然与高频带相关。然后我们在傅里叶域进行了类似的实验，通过交换幅度谱的低频区域，观察到类似的行为：整体退化风格被转移，而场景几何形状基本保持不变。这些结果为我们的假设提供了实证证据，即低频和高频成分在水下退化中扮演不同的角色。大多数现有方法将空间和频率特征视为并行流，并仅进行浅层融合，缺乏在特征层面的深度和自适应耦合。因此，当低频色彩偏差与高频细节损失或噪声共存时，网络往往无法平衡两者（Wei等人，2022年，Zhao等人，2024年）。这种粗略的集成缺乏跨频率的细粒度、自适应调节——校正颜色偏移可能会抑制纹理，而锐化细节可能会放大色彩伪影。这引发了一个关键研究问题：我们如何设计一个能够深度耦合空间和频率信息的神经构建模块，以解耦并精确调节不同频率带的退化？

第二个瓶颈源于深度网络中固有的跨尺度信息损失。编码器-解码器架构（如U-Net）在下采样过程中不可避免地丢弃了高保真的空间线索。许多频率域方法主要关注输入信号的分解，而不是增强低分辨率特征表示，从而在细节恢复和色彩一致性之间产生了权衡（Cheng等人，2024年，Zhao等人，2024年）。当特征在最深、最低分辨率的层学习时，大部分细粒度纹理信息已经丢失。尽管跳跃连接可以部分缓解这个问题，但它们充当被动的、未经过滤的捷径，而不是主动的信息恢复。这引发了另一个关键问题：我们如何构建一个主动的跨尺度补偿机制，有效地将关键的高分辨率特征注入低分辨率表示中，从而克服表示瓶颈并实现高保真重建？

为了解决这些挑战，我们提出了多尺度空间-频率匹配变换网络（SFMT-Net）。我们没有将空间-频率交互和多尺度表示视为独立的问题，而是在一个创新的基于Transformer的框架中将它们统一起来。SFMT-Net的关键贡献如下：

1.

我们提出了SFMT-Net，这是一个基于Transformer的统一框架，用于水下图像增强，它通过集成的双域调制和空间相关性匹配共同解决粗粒度空间-频率交互和跨尺度信息损失问题。

2.

我们设计了FSSE，通过将动态频率调制嵌入自注意力机制来实现细粒度的空间-频率交互，从而实现自适应感知和复杂退化的解耦。

3.

我们引入了空间相关性匹配（SCM）模块，通过将高分辨率的上下文和纹理线索注入低分辨率特征中，积极补偿跨尺度信息损失，从而增强深度特征表示，实现高保真重建。

通过这两个模块的协同作用，SFMT-Net同时实现了卓越的全局色彩一致性和前所未有的高保真纹理重建。在多个公开基准测试上的广泛实验表明，我们的方法在感知和定量指标上都取得了最先进的性能。

部分摘录

传统UIE方法

早期关于水下图像恢复的研究主要遵循两种范式：基于模型的恢复和无模型图像增强。

基于模型的恢复方法旨在根据水下光学成像模型（UOIM）逆转退化过程。例如，广义暗通道先验（GDCP）（Peng等人，2018年）将大气散射模型扩展到水下场景，通过估计传输图和背景光来恢复清晰图像。然而，它通常

框架概述

如图2所示，SFMT-Net采用了完全基于所提出的动态空间-频率交互（DSFI）模块的三尺度编码器-解码器架构。给定一个输入的水下图像

I_{i n} \in R^{H \times W \times 3}

，一个浅层卷积主干首先提取一个基础特征图

X_{0} \in R^{H \times W \times C}

。然后将这个特征输入三个级联的ConvNeXt模块，生成浅层、中层和深层特征。这三个层次通过一个感知融合模块融合，形成一个全局指导特征X

实验设置

实现细节：我们的模型使用PyTorch框架实现。所有训练和评估实验都在单个NVIDIA GeForce RTX 3090 GPU上进行。我们使用了Adam优化器，超参数设置为

β_{1} = 0.9

和

β_{2} = 0.999

。模型总共训练了100个周期。对于学习率调度，我们使用了余弦退火算法，初始学习率为

1 \times 10^{? 4}

，并在100个周期内逐渐衰减到最小值

1 \times 10^{? 6}

（

T_{\max} = 100

）。在我们的实验中，

结论和未来工作

在本文中，我们介绍了SFMT-Net，这是一个新颖的基于Transformer的框架，旨在解决水下图像增强中的两个根本挑战：粗粒度空间-频率交互和跨尺度信息损失。我们的解决方案集中在两个协同模块上：FSSE，它在自注意力机制中嵌入动态频率调制，用于细粒度退化处理；以及SCM，它将高分辨率特征主动注入低分辨率空间中

CRediT作者贡献声明

关博良：撰写——原始草案，概念化。陈观城：形式分析，数据管理。范林伟：方法论，调查，资金获取。宋金涛：撰写——审稿与编辑，监督。罗晓楠：资源，项目管理，资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本研究得到了国家自然科学基金（62495081, 62576193）、山东省泰山学者项目专项基金（tsqn202507240）、山东省自然科学基金（ZR2025MS985, ZR2025QC695）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号