DEER：一种基于扩散技术的高效水下图像恢复方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：DEER: Diffusion-Empowered Efficient Restoration for Underwater Images

【字体：大中小】 时间：2026年02月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　水下图像因衰减和噪声严重退化，现有方法在性能与效率间难平衡。本文提出扩散增强高效修复框架（DEER），由增强网络和修复网络组成。增强网络包含高频细节增强（HFDE）模块通过三统计池化恢复边缘细节，多尺度融合（MSF）模块纠正非均匀色偏。修复网络采用轻量级设计，训练时通过扩散模型动态梯度指导提升生成质量，避免像素级模仿带来的模糊问题；推理时弃用扩散模型，实现高效恢复。实验表明DEER在LSUI和UIEB数据集上多项指标优于SOTA方法，性能提升0.7%-5.6%。

程王|陈俊阳|赵伟辰|高万辉|焦格

衡阳师范学院，中国湖南省衡阳市，421002

摘要

水下图像由于光衰减和噪声干扰而严重失真。现有方法在性能和推理效率之间难以取得平衡。为了解决这个问题，我们提出了一个基于扩散技术的高效恢复（DEER）框架，该框架包括一个增强网络和一个恢复网络。增强网络包含两个关键模块：高频细节增强（HFDE）模块引入了一个最小池化通道，以恢复被中等强度吸收抑制的暗部细节，补充了最大池化和平均池化，从而捕捉到全面的物理边缘特征；同时，多尺度融合（MSF）模块利用多尺度分析来处理颜色偏移的空间非均匀性。这些模块共同为后续的图像恢复提供了丰富的频域先验信息。关于恢复网络，与直接使用扩散模型进行生成的传统方法不同，我们将扩散模型作为一种扩散引导的学习先验。通过在训练阶段提供动态梯度引导，轻量级网络学习了自然图像流形，同时避免了由像素级模仿引起的平滑伪影。在推理阶段，扩散模型被丢弃，使得轻量级恢复模型能够实现加速推理。实验结果表明，DEER在LSUI和UIEB数据集上的几乎所有指标上都优于现有的最先进方法，改进幅度为0.7%至5.6%。我们的代码可以在这里获取。

引言

高质量的水下图像是许多高价值应用的前提，包括海洋资源勘探[1]、生态系统监测[2]、水下物体检测[3]以及水下机器人技术和自主导航[4]。然而，由于光谱不平衡、类雾散射和强烈的噪声干扰，水下环境通常会出现颜色失真、结构退化和细节丢失等问题，这对图像恢复带来了重大挑战。

早期的基于深度学习的方法主要关注卷积神经网络（CNN）和Transformer架构，直接在像素空间进行图像恢复（图1(a)）。尽管它们的轻量级架构有助于提高推理效率，但这些方法往往难以恢复复杂的水下散射细节，因为像素级损失函数倾向于平均化高频纹理。认识到像素空间的固有局限性，一些研究将注意力转向了频域处理[5]。通过将图像分解为高频和低频成分，这些方法分离了退化因素，为后续网络提供了更多有用的特征。

近年来，基于扩散的技术因其在图像恢复任务中的出色生成和重建能力而受到越来越多的关注[6]。这些技术利用分层去噪自编码器和迭代反向扩散，逐渐将随机采样的高斯噪声细化为目标图像或潜在分布。然而，采样过程的固有随机性可能导致不可预测的伪影[7]。此外，在保持高保真全局结构的同时重建细粒度纹理仍然具有挑战性。为了更好地利用扩散模型的表示能力，最近的研究将它们与频域预处理相结合（图1(b)）。虽然这些方法在视觉效果上令人印象深刻，但它们并没有解决采样过程的计算负担问题。这种推理开销限制了它们在需要高速反馈的资源受限场景（如水下机器人）中的应用。这就引出了本文要探讨的核心科学问题：“是否可以在避免高推理开销的同时保留扩散模型的生成能力？

基于此，我们提出了一个新的科学假设：扩散模型学习到的自然图像流形可以被解释为一个结构化的梯度先验，引导轻量级恢复模型在特征空间中近似真实分布，而无需在推理过程中进行显式的迭代去噪。为此，我们提出了一个名为Diffusion-Empowered Efficient Restoration（DEER）的新框架（图1(c)）。我们的核心策略是“在扩散辅助下进行训练，在无扩散的情况下进行推理”。我们在一个由增强网络和恢复网络组成的级联框架中实施了这一策略。首先，我们基于离散小波变换（DWT）设计了一个受物理启发的增强网络。对于包含局部纹理的高频成分，受到水下暗通道先验（UDCP）[8]的启发，该先验表明结构细节通常隐藏在暗区，我们的高频细节增强（HFDE）模块创新性地引入了一个与最大池化和平均池化并行的最小池化通道。这种多统计设计更有效地捕捉了由亮部和暗部强度组成的边缘结构。对于包含全局结构的低频成分，考虑到水下光场衰减的显著空间非均匀性，多尺度融合（MSF）模块使用不同核大小的并行卷积层来模拟不同感受野下的全局感知。这使得能够自适应地校正非均匀的颜色偏移并恢复对比度。

在训练阶段，我们引入了真实退化图像和由增强网络初步优化的图像的并行输入流。这使得模型能够适应性地捕捉水下场景的多样化纹理分布，同时学习从优化图像中保留内容保真度。随后，轻量级恢复模型的输出被输入到辅助扩散模型中。与传统的基于扩散的方法不同，这里的扩散模型作为一个扩散引导的学习先验。通过使用包含正样本、负样本和锚点的三元组损失机制，扩散模型提供了强大的梯度反馈，迫使轻量级恢复模型识别并消除像素级损失难以捕捉的细微伪影。所提出的框架是模型无关的，可以适应各种恢复架构。在推理过程中，整个扩散模型被丢弃；只需要增强网络和轻量级恢复模型即可实现快速且高质量的图像恢复。如图1(d)所示，与其他基于扩散或大规模模型的方法相比，DEER在恢复性能上更优，并且推理效率显著更高。

我们的主要贡献如下：

1.
我们提出了一个基于扩散技术的水下图像恢复框架。通过联合训练，扩散模型利用动态梯度引导轻量级恢复模型，实现高质量恢复而无需迭代推理。
2.
我们设计了一个受物理启发的增强网络。它利用带有多池化注意力机制的HFDE模块来恢复因吸收和散射而退化的边缘和纹理细节，并使用带有多尺度分析的MSF模块来校正非均匀的颜色偏移。
3.
在基准数据集上的广泛实验表明，与最先进的方法相比，DEER在模型参数和推理时间上都有最小的增加，同时实现了更出色的重建精度。

部分摘录

水下图像增强

水下图像增强（UIE）已经发展出两种范式：物理模型和深度学习。传统的物理方法严重依赖手工制作的先验，限制了它们对复杂环境的适应性[9]。相比之下，深度学习方法通常提供更好的性能。早期的CNN通过结合光学先验来学习直接映射[1]，而Transformer后来通过自注意力机制增强了长距离依赖性建模[10]。最近，在2024年

概述和初步介绍

A.
框架概述
我们的DEER框架概述如图2所示。DEER包括两个主要组成部分：增强网络（见第3.2节）和恢复网络（见第3.3节）。前者是一个基于DWT的增强网络，专注于初步的频率信息增强。然后它使用自适应加权融合（AWF）模块有效融合特征，最后利用逆离散小波变换（IDWT）提供物理上一致的

实现设置

A.
实现细节
我们的DEER框架使用PyTorch 2.2实现，并在单个NVIDIA GeForce RTX 4090 GPU上进行了训练和测试。我们使用 $β_{1} = 0.9$
$β_{2} = 0.999$ 来最小化目标函数。初始学习率设置为1e-4，批量大小为2。我们训练模型一百万次迭代，并每5000次迭代定期评估和记录指标，分别在UIEB数据集上花费了大约63.3 GPU小时，在LSUI数据集上花费了56 GPU小时

结论

在本文中，我们提出了DEER框架，以解决水下图像恢复中高保真生成和推理效率之间的矛盾。通过创造性地构建具有物理感知的增强模块，并结合基于扩散的结构化区分机制，我们成功地将生成流形先验转化为轻量级特征约束，通过梯度引导实现这一“训练时引导，推理时解耦”的范式。

CRediT作者贡献声明

程王：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，方法论，概念化。陈俊阳：撰写 – 审稿与编辑，撰写 – 原始草稿，软件。赵伟辰：撰写 – 审稿与编辑，撰写 – 原始草稿，方法论，概念化。高万辉：撰写 – 审稿与编辑，验证。焦格：撰写 – 审稿与编辑，监督，概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本研究得到了衡阳师范学院网络安全技术与应用工程研究中心开放基金（2025HSKFJJ032）、湖南省科技计划项目（2016TP1020）、湖南省“十四五”重点学科和应用导向特色学科（湘交通[2022] 351）以及湖南省网络安全技术与应用工程研究中心的支持。

联系信箱：

粤ICP备09063491号

摘要

引言