MWEFusion：一种基于多尺度小波的特征增强网络，用于红外与可见光图像融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：MWEFusion: Multi-Scale Wavelet-Based Feature Enhancement Network for Infrared and Visible Image Fusion

【字体：大中小】 时间：2026年02月12日 来源：Digital Signal Processing 3

编辑推荐：

　　红外可见图像融合中提出多尺度小波分解框架，通过WBE模块抑制高频噪声并增强低频特征，结合自适应分层融合策略与逆小波重建，显著提升信息利用率和融合质量，实验验证优于现有方法。

李玉龙|关正|王雪|戴豪

云南大学信息科学与工程学院，昆明，650500，中国

摘要

红外图像与可见光图像融合结合了两种图像的互补信息，以提高视觉质量。最近的方法采用小波分解来增强特征提取，但往往忽略了高频成分与低频成分之间的相关性，导致特征利用不足和噪声放大。为了解决这些问题，本文提出了一种基于多尺度小波分解的红外图像与可见光图像融合的新特征增强框架。通过将小波分解作为多尺度架构中的先验知识，该方法增强了空间域和频域特征的提取与分析。值得注意的是，由于小波分解过程容易放大高频噪声，我们设计了一个基于小波的增强（WBE）模块，以同时抑制噪声并增强低频特征的显著性。经过处理的低频成分随后作为空间引导，用于去除高频细节的噪声。鉴于不同频段所表现出的独特特性，我们开发了不同的融合策略，以适应性地合并各自特征空间中的低频和高频特征。最后，通过逆小波变换将融合后的低频表示与高频成分递归结合，重构出最终输出，从而最大化信息利用并提高模型鲁棒性。在三个基准数据集（FLIR、LLVIP和TNO）上的实验结果表明，所提出的方法在视觉质量和定量指标方面均优于现有方法。

引言

红外图像与可见光图像融合（IVIF）[1]、[2]、[3]、[4]是多模态图像融合中的一个基本任务，旨在整合来自可见光和红外传感器的互补信息，以生成更全面和信息丰富的场景表示。IVIF与普通的（单模态）融合不同之处在于它结合了两种异构且互补的模态。可见光图像提供了丰富的纹理和结构细节，但对光照变化敏感；而红外图像捕获热辐射，能够在低光照或恶劣环境下实现稳健的目标检测，尽管空间细节有限。[5]通过有效结合这两种模态，IVIF提高了视觉清晰度、目标显著性和场景理解能力。由于这些优势，红外图像与可见光图像融合已广泛应用于各种领域，包括监控[6]、自动驾驶[7]、目标检测[8]。因此，如何有效地保留和利用红外图像与可见光图像的互补特性仍然是图像融合研究中的关键挑战。

现有的红外图像与可见光图像融合方法主要可以分为传统方法和基于深度学习的方法。传统方法包括基于多尺度变换的方法[9]、稀疏表示方法[10]、低秩表示方法[11]和基于显著性的方法[12]。这些方法通常遵循三个步骤：特征提取、特征融合和图像重建。整个过程由特定的先验知识指导，这使得这些方法具有很强的可解释性。然而，手工设计的特征提取的表示能力有限，限制了整体融合性能，而且手动设计的融合规则往往难以适应复杂多样的场景。

基于深度学习的融合方法可以根据网络训练策略大致分为基于自动编码器的方法、基于GAN的方法和端到端的方法。基于自动编码器的方法[13]、[14]通常使用在大规模自然图像数据集（例如MS-COCO[15]）上预训练的自动编码器。编码器负责特征提取，特征空间中手动设计的融合规则将两种模态的特征图合并为单一的融合表示，解码器则重构融合图像。这种范式具有很强的可解释性，并且需要的训练数据相对较少；然而，手工设计的融合规则限制了性能，解码器并未针对融合任务进行严格优化。基于GAN的方法[16]通过生成器直接生成融合图像，而判别器试图区分生成器的输出和人类定义的“真实”融合图像。通过对抗训练，生成器被鼓励生成同时包含显著热辐射信息和丰富纹理细节的图像。然而，红外图像与可见光图像之间的巨大分布差异，加上缺乏真实的融合标签，往往导致训练不稳定，并使融合结果偏向于单一模态，从而降低融合质量。端到端方法[17]、[18]、[19]、[20]、[21]构建了一个统一的网络，以源图像作为输入并直接输出融合图像。通过优化所有网络参数以实现最终融合目标，这些方法可以学习从输入到输出的最优映射。然而，它们作为黑盒模型运行，可解释性有限。此外，由于缺乏红外-可见光融合任务的真实融合图像，融合质量在很大程度上取决于损失函数的设计。因此，现有研究主要集中在设计损失函数和增强特征提取上，而图像中嵌入的结构和内在信息则受到相对较少的关注。

传统方法和基于深度学习的融合方法各具优势和局限性。为了利用两者的优势，一些研究探索了将传统方法的知识整合到深度学习框架中[22]、[23]。这种策略提高了模型的可解释性，同时允许神经网络利用其强大的非线性拟合能力提取更具区分性的特征，并适应复杂场景。一个典型的例子是在神经网络中使用小波分解作为下采样和池化操作[24]。小波分解将特征分为低频和高频成分，分解后的特征在空间上缩小了尺寸。当使用正交和标准化的小波核时，这种分解过程是无损的，实现了无信息损失的下采样。尽管具有潜力，但目前结合小波变换的方法仍面临几个挑战：1. 单次应用小波分解对深度特征提取的支持有限，这促使需要更有效的多尺度分解策略（图1(a)）。2. 分解后的特征在频带之间的交互和关联不足，导致信息利用效率低下和模型稳定性降低，需要增强频域特征之间的交互（图1(b)）。3. 尽管高频成分有助于增强纹理细节，但它们在分解过程中也容易放大噪声，这突显了专用去噪和增强机制的必要性。

为了解决上述挑战，我们提出了一种基于小波的多尺度分解框架，用于特征去噪的红外图像与可见光图像融合，该框架结合了空间域和时频域信息来增强特征表示。具体来说，为了加强空间和频率特征的提取与分析，我们采用多尺度小波分解将特征分为多个方向上的低频成分和高频成分，并根据每种成分的固有属性设计不同的融合策略。此外，我们在每个低频层进行融合，以充分利用可用信息并提高模型的稳定性。最后，考虑到高频成分在小波分解后容易放大噪声并增强纹理细节，我们引入了一个基于小波的增强（WBE）模块，利用低频成分为高频成分的去噪提供位置引导。

我们的主要贡献可以总结如下：

•

我们提出了MWEFusion，一种新颖的多级基于小波的图像融合框架，有效整合了高频和低频特征，重建出高质量的融合图像。

•

我们设计了两个关键的特征增强模块：LFE模块用于低频信息的增强和去噪，以及GWG模块用于利用增强的低频特征进行引导式的高频特征去噪和边缘增强。

•

在三个基准数据集（FLIR、LLVIP和TNO）上的广泛实验表明，我们的方法在视觉质量和定量指标方面均优于现有方法，验证了我们特征融合策略的有效性。

本文的其余部分组织如下。第2节讨论了图像融合的相关工作。第3节介绍了所提出的融合方法的细节。第4节展示了实验结果，并将其与一些最先进（SOTA）方法进行了比较。最后，我们在第5节给出了结论。

章节片段

红外图像与可见光图像融合

红外图像与可见光图像融合[25]旨在从两种模态中提取内在特征信息，平衡它们之间的冗余信息，并生成具有高质量视觉效果的图像，以便于后续任务。融合方法通常可以分为传统方法和基于深度学习的方法[20]、[26]。受人类视觉系统的启发，Zhou等人[9]提出了一种基于HVS的红外-可见光图像融合框架，该框架执行特征

概述

整体网络架构如图2所示。源图像首先通过一对权重共享的特征编码器，提取每种模态的多尺度小波低频和高频特征。然后使用各自的融合策略在特征空间中融合两种模态的低频和高频成分。最后，通过特征解码器将融合的多尺度小波特征重构为最终的融合图像。

实验设置

实施细节：在训练阶段，我们从LLVIP数据集中随机选择了1,000对图像对，每张图像裁剪为256×256的大小。网络的学习率为

1 \times 10^{? 4}

，批量大小为4，训练周期设置为10，λ设置为0.1。训练过程如算法1所示。所有实验都在NVIDIA RTX 3090 Ti GPU和Intel Core i7-10700 CPU上进行。为了融合RGB图像，我们首先将可见光图像转换为YCbCr颜色空间。

弱点讨论与未来工作

尽管所提出的方法有效，但仍存在一些局限性。在实际的图像融合场景中，精细的纹理细节和噪声往往具有相似的高频特性，这使得难以清晰明确地区分有意义的细节和不需要的噪声。这种固有的模糊性可能限制了融合性能的上限，特别是在复杂或严重退化的环境中。

为了解决这些局限性，我们未来的工作将

结论

在这项研究中，我们提出了一种新颖的红外图像与可见光图像融合网络，该网络将小波分解集成到特征编码阶段，以显式建模多尺度频率信息。通过逐步分解特征并递归利用低频成分来指导高频去噪和重构，所提出的方法有效增强了层间信息交互并减轻了融合过程中的噪声放大。

基于小波的增强

CRediT作者贡献声明

李玉龙：撰写——原始草稿、概念化、方法论、软件。关正：概念化、方法论。王雪：撰写——审阅与编辑、监督、资金获取。戴豪：软件、验证。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言