DFTD-Net：一种专注于细节的三域网络，用于单图像雾霾去除

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Vision and Image Understanding》：DFTD-Net: A detail-focused tri-domain network for single-image haze removal

【字体：大中小】 时间：2026年02月27日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　单图像去雾模型DFTD-Net通过多输入输出U-Net骨干网络，结合细节增强卷积（DEConv）、三域注意力（TDA）及引导特征融合模块（TDA-GFFM），有效平衡重建质量与计算效率。DEConv引入并行梯度与结构分支增强细节，TDA整合频域、空域和通道域信息，TDA-GFFM自适应融合多级特征。实验表明其在真实与合成数据集上均优于基线方法，且部署无额外参数开销。

吴彦秋|杨家伟|孙德洪|王磊

中国闽南科学技术大学

摘要

单图像去雾面临重大挑战，因为雾霾会导致细节丢失、结构扭曲和对比度不均匀。而许多现有模型要么以高计算成本提高逼真度，要么以牺牲重建质量为代价提高效率。为了实现更好的平衡，我们提出了一种专注于细节的三域网络（DFTD-Net）用于单图像去雾。我们的方法基于多输入多输出的U-Net（MIMO-UNet）架构。为了进一步增强特征提取，我们用细节增强卷积（DEConv）替换了残差块（ResBlock）中的标准卷积，从而得到了细节增强残差块（DEResBlock）。在DEConv中，平行的标准卷积和差分卷积分支（例如CDC、ADC）注入梯度和结构先验，以丰富特征表示。关键的是，这些分支在推理过程中被重新参数化为单个标准卷积，不会引入额外的参数或计算开销。此外，我们提出了一种三域注意力（TDA），它联合建模频率、空间和通道域，以自适应地突出语义相关的信息。在TDA的基础上，我们设计了TDA引导的特征融合模块（TDA-GFFM），以有效地整合网络中的低级结构和高级语义信息。在真实和合成数据集上的广泛实验表明，DFTD-Net在重建逼真度和效率之间取得了出色的平衡。全面的消融研究验证了每个组件的有效性，下游对象检测任务也证实了其实际用途。

引言

大气散射引起的雾霾严重降低了图像的可见度和对比度，给人类观察和计算机视觉系统带来了挑战。因此，单图像去雾技术对于从退化图像中恢复清晰场景至关重要，其应用范围从监控到自主导航都有涉及。

早期的去雾方法主要是基于先验的。具有影响力的基线模型包括暗通道先验（DCP）（He等人，2009年）和颜色衰减先验（CAP）（Zhu等人，2015年）。后续的工作利用了各种假设，包括边界/可见性约束（Fattal，2014年）、非局部分解（Tarel和Hautiere，2009年）以及基于对比度的先验（Kratz和Nishino，2009年）。尽管这些手工制作的先验在受控环境中很有用，但它们通常在复杂的真实世界场景中泛化能力较差。向数据驱动学习的转变承诺了更好的泛化能力，但引入了对大规模配对训练数据的严重依赖，而这在实践中极为稀缺。为了解决这一数据瓶颈，出现了自监督范式。一个关键的创新是从清晰图像直接合成训练对，消除了对配对雾霾/清晰数据的需求。例如，Chen等人（2025年）提出了一个框架，仅使用清晰图像就能生成真实的雾霾并去除它。另一条研究路线旨在从容易获得的非配对雾霾和清晰图像中学习。Wang等人（2025年）提出了一个基于物理的分解（PBD）模型，并使用小波约束进行训练，实现了有效的去雾效果，而无需像素对齐的对。

随着深度学习的快速发展，基于卷积神经网络（CNN）的去雾方法取得了卓越的性能。例如，Cai等人（2016年）提出了DehazeNet，开创了端到端的CNN去雾学习。随后出现了AOD-Net（Li等人，2017年）、具有基于注意力的多尺度特征的GridDehazeNet（Liu等人，2019年）、用于上下文信息聚合的GCANet（Chen等人，2019年）以及用于改进密集特征融合的MSBDN（Dong等人，2020年）等方法。最近，直接以端到端方式预测潜在清晰图像的方法（Wu等人，2021年；Li等人，2022年；Su等人，2025年）展示了更强的结果和更简单的推理过程。在端到端学习的基础上，另一条研究路线试图通过将已建立的去雾先验或中间物理变量明确纳入深度学习框架来进一步提高模型的鲁棒性和物理合理性。例如，Feng等人（2024年）提出了一个由多个先验引导的网络，并结合了域迁移技术，以改善在真实世界场景中的性能。尽管取得了这些进展，传统的CNN仍受限于其局部感受野，从而限制了它们捕捉长距离依赖关系的能力——这对于恢复被雾霾遮挡的完整场景结构至关重要。

为了克服这一限制，引入了注意力机制和基于Transformer的架构。基于Transformer的方法（Wang等人，2022年；Guo等人，2022年；Kulkarni和Murala，2023年；Liu等人，2023年；Ma等人，2025年）利用自注意力来捕捉全局交互，并取得了最先进的结果。然而，它们通常需要堆叠大量层来增加容量，并且相对于令牌数量继承了 vanilla 自注意力的二次计算复杂性，这阻碍了实时部署。这突显了恢复精度和计算效率之间的基本权衡，促使人们设计出轻量级但有效的模型。实际上，一些高性能方法（Qiu等人，2023年；Song等人，2023年；Qin等人，2020年）会产生大量的计算成本和延迟。

为了解决这一挑战，提出了几种高效的架构。特别是对于图像去雾，Chen等人（2024年）引入了细节增强注意力网络（DEA-Net），其中使用了细节增强卷积（DEConv）。同时，Zheng和Wu（2024年）提出了UVM-Net，这是一种U形视觉曼巴网络，利用状态空间模型高效捕捉依赖关系。最近的研究进一步多样化了高效设计：Diff-Dehazer（Lan等人，2025a）采用扩散过程，DehazeSB（Lan等人，2025b）使用语义约束来保持边界。在更广泛的图像恢复领域，Cui等人（2024年）提出了基于紧凑MIMO-UNet架构的omni-kernel网络（OKNet（Cho等人，2021年）。其他方向包括深度可分离卷积（Zhou等人，2024年）、大核架构（Ding等人，2023年）和结构化状态空间模型（SSMs）（Liu等人，2024年）。尽管在高效架构方面取得了进展，现有的去雾方法主要集中在空间处理上，忽略了频域洞察。鉴于雾霾的低通滤波特性，这抑制了高频细节，因此整合频域分析提供了一个互补且必要的研究方向。

从这一分析中，出现了两个挑战：（1）依赖于单一域特征，忽略了频率、空间和通道线索的互补优势；（2）全局建模和效率之间的持续权衡——CNN难以捕捉长距离依赖关系，而Transformer则会产生高计算成本。为了解决这两个挑战，我们提出了一种紧凑的方法，它在不增加复杂性的情况下增强了全局建模，同时联合融合频率、空间和通道信息，以产生更丰富的互补表示，从而提高恢复效果。

我们的贡献可以总结如下：

•
我们采用多输入多输出的U-Net（MIMO-UNet（Cho等人，2021年）作为骨干网络。本工作中使用的细节增强残差块（DEResBlock）遵循Chen等人（2024年）中的DEBlok模块设计概念。受其在细节表示方面的有效性启发，我们将其集成到我们的框架中，以替换原始的残差块。该块使用细节增强卷积（DEConv）通过并行分支编码梯度和结构先验来增强特征提取。在推理过程中，这些并行分支可以重新参数化为单个标准卷积，不会引入额外的参数或计算开销。
•
我们提出了一种三域注意力（TDA）模块，它联合建模频率、空间和通道域的特征响应。通过关注信息丰富的频率带、显著的空间区域和有区别的通道组，TDA自适应地强调了从互补角度提取的语义重要模式，从而产生更具代表性和鲁棒性的特征。在TDA的基础上，我们进一步设计了TDA引导的特征融合模块（TDA-GFFM），它可以有效地整合低级结构细节和高级语义信息，从而提高性能。
•
我们提出了DFTD-Net，这是一种专注于细节的三域去雾网络，它在MIMO-UNet架构上集成了DEResBlock、TDA和TDA-GFFM。在合成基准和真实世界雾霾图像上的广泛实验表明，DFTD-Net在重建质量和计算效率之间取得了出色的平衡。全面的消融研究进一步量化了每个组件的独立贡献，并验证了其易于部署的设计。

部分摘录

多输入多输出架构

多输入多输出（MIMO）架构从根本上基于U-Net的多尺度设计（Ronneberger等人，2015年），并在图像去雾任务中得到了广泛应用。例如，MSBDN（Dong等人，2020年）和MITNet（Shen等人，2023年）利用多尺度结构，聚合跨分辨率特征信息，显著提高了细节恢复能力。最近的研究进一步扩展了这一范式，引入了多尺度注意力机制用于去雾

提出的方法

我们提出了DFTD-Net，这是一种专为单图像去雾设计的新网络，旨在充分利用多尺度特征。如图1所示，我们的模型基于MIMO-UNet架构（Cho等人，2021年），但引入了三项关键改进以增强细节恢复能力：（1）使用DEResBlocks和DEConv的细节增强架构；（2）用于联合频率-空间-通道建模的三域注意力（TDA）；以及（3）用于多级特征融合的TDA引导的特征融合模块（TDA-GFFM）

数据集

我们在RESIDE-

β

基准数据集（Li等人，2018年）上训练和评估我们的DFTD-Net。训练过程中，我们使用了室内训练集（ITS）和室外训练集（OTS）。ITS包含大约13K张从1399张清晰室内图像生成的合成雾霾图像。OTS提供了大约296K张室外雾霾图像。遵循DEA-Net（Chen等人，2024年）的方法，我们仔细采样数据以避免训练-测试重叠。评估时，我们使用了包含500张室内和

结论

本文提出了DFTD-Net，这是一种专注于细节的三域网络，用于单图像去雾。基于MIMO-UNet架构，DFTD-Net结合了三项核心创新来增强细节恢复能力：DEResBlock用于改进局部特征提取，三域注意力（TDA）模块用于联合建模频率、空间和通道信息，以及TDA-GFFM，它通过门控机制自适应地融合多级特征，以平衡细节保留和语义

CRediT作者贡献声明

吴彦秋：撰写——审阅与编辑，撰写——原始草稿，验证，方法论，概念化。杨家伟：可视化，验证，数据管理。孙德洪：资源，项目管理，资金获取。王磊：可视化，验证。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号