MTFusion：一种用于红外与可见光图像融合的双任务驱动平均教师框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：MTFusion: A Dual-task-driven Mean Teacher Framework for Infrared and Visible Image Fusion

【字体：大中小】 时间：2026年02月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　双任务驱动红外可见图像融合框架结合均值教师机制与多通道协作融合模块，通过三重损失优化纹理融合与颜色注入，实验验证优于15种SOTA方法。

桥阳|张宇|陈俊富|张健|张琦|张顺丽

北京交通大学软件工程学院，北京，100044，中国

摘要

纹理和颜色是人类视觉感知的两个关键方面，然而大多数现有的红外和可见光图像融合（IVIF）方法在多通道融合方面表现不佳。这些方法往往无法将灰度红外图像与彩色可见光图像有效结合，导致纹理和颜色之间的对齐效果差。为了解决这一挑战，我们提出了一种双任务驱动的多通道图像融合范式和一个新颖的IVIF框架，该框架能够确保纹理特征的高度互补融合以及高保真度的颜色特征注入，同时保持可见光图像的颜色一致性。该框架将IVIF任务分为两个子任务：由教师网络处理的纹理融合，以及由学生网络处理的颜色注入，两者都采用均值教师方法进行指导。此外，一个基于CNN-Transformer结构的多通道协作融合模块提取并映射跨通道的特征，增强了相互表示能力。为了提高鲁棒性并防止局部最优解，我们引入了一个三重损失函数，结合了纹理一致性损失、颜色注入损失和联合对比损失。在三个基准数据集上的实验表明，我们的方法超越了15种最先进的IVIF方法，在质量和数量上均取得了优异的性能。该工作的代码可在https://github.com/QiaoYang-CV/MTFusion获取。

引言

由于成像理论的局限性、物理约束或环境噪声的干扰，单个传感器通常只能捕获场景的部分信息。因此，融合来自不同传感器的图像使人类能够获得关于监控场景的更全面信息。在各种图像融合任务中，红外和可见光图像的融合因其广泛应用于多个领域（如监控、目标检测和夜视增强）而受到高度重视[1]、[2]、[3]。可见光传感器在捕捉场景中的丰富纹理和颜色细节方面表现出色，但在低光或黑暗环境中表现不佳。相比之下，红外传感器在检测高热辐射的热物体方面表现良好，尽管它们容易受到噪声的影响。这两种模式的互补特性使得融合图像能够结合详细的纹理和热物体。利用这些优势，红外和可见光图像融合（IVIF）在多个领域得到应用，包括军事行动[4]、农业监测[5]、目标检测与跟踪[6]、[7]、生物特征识别[8]和语义分割[9]、[10]。

在过去的二十年里，提出了许多传统的融合方法来推进红外和可见光图像融合（IVIF）技术[8]、[14]。这些算法大致可以分为六类：基于多尺度变换的方法[15]、基于子空间的方法[16]、基于显著性检测的方法[17]、基于稀疏表示的方法[18]、基于优化的方法[8]和混合方法[19]。尽管这些方法在特定应用中表现出了强大的性能，但它们存在几个显著的局限性：（1）这些算法的有效性在很大程度上依赖于手工制作的特征提取器，而它们有限的特征提取能力限制了整体融合性能。（2）在涉及云层、雾、雨、低光或强曝光条件等复杂场景中，这些方法的性能会显著下降。在这种情况下生成的融合图像经常会出现模糊伪影、光晕效应或细节丢失，导致视觉质量不佳。近年来，得益于数据和计算能力的支持，深度学习在IVIF领域展现了显著潜力，推动了各种基于神经网络的算法的发展，这些算法大致可以分为七类：基于CNN的[20]、[21]、基于自动编码器的[22]、[23]、基于GAN的[13]、[24]、基于Transformer的[7]、[25]、基于扩散模型（DM）的[11]、[26]、基于任务驱动的[27]、[28]和基于多模态大语言模型（MMLLM）的方法[29]、[30]。虽然基于深度学习的图像融合算法展示了巨大潜力，但仍存在一些未解决的挑战。

图像中的纹理捕捉了物体的内在表面特征[31]、[32]，而颜色反映了它们的光谱属性[33]。纹理和颜色共同对于通过图像全面理解场景中的元素至关重要。然而，当前的方法主要集中在不同模态下对象和纹理的单通道融合上，常常忽略在融合输出中保留可见光图像的颜色信息。具体来说，这些方法通常将可见光图像的RGB通道转换为YCbCr颜色空间（即YUV编码），并使用可见光图像的Y通道和红外图像进行融合。这个过程优先保留红外图像中的热目标和Y通道中的背景纹理，而忽略了多通道纹理和颜色信息之间的跨模态交互。如图1（d）和（e）所示，LRRNet和FreqGAN方法都未能充分利用多光谱信息，导致纹理细节丢失和可见光颜色的丢失。例如，红色虚线圆内的数字显示不佳，影响了人类的感知。为了在跨模态IVIF任务中实现最佳视觉感知，我们认为必须有效地整合纹理细节和颜色特征，以最大化信息内容并确保感知上令人满意的结果。

此外，现有方法在准确估计输入图像的多通道分布方面面临显著挑战[11]，这限制了它们有效提取跨通道互补信息的能力。根据香农的信息理论，“信息的本质是消除不确定性”[34]，忽略Cb和Cr通道信息的红外和可见光图像融合方法将无法充分捕捉不同模态下YCbCr（或RGB）通道与红外通道之间的潜在相关性。尽管Li等人[11]首次应用扩散模型来利用颜色信息对融合结果的积极影响，实现了一些视觉增强，但他们的方法在不当结合多通道信息时难以隐式控制归纳偏差，最终导致纹理细节和颜色特征的保存不平衡。例如，如图1（c）所示，地面瓷砖的纹理错误地包含了过多的红外信息，导致不自然的视觉伪影。因此，我们认为准确建模多模态图像的多通道融合范式，同时关注纹理和颜色特征，对于保留关键信息和实现感知上最佳的结果至关重要。

为了解决多通道IVIF的挑战，我们开发了一个双任务驱动的图像融合框架MTFusion，它整合了纹理融合和颜色注入。该框架有效地模拟了多通道交互范式，将输入图像中的互补纹理细节和颜色特征结合到融合输出中。该框架基于一种新颖的联合任务表述范式，并采用均值教师机制来实现纹理特征的高保真度注入和颜色特征的高度互补融合。它由两个网络组成：教师网络（纹理融合网络）和学生网络（颜色注入网络），两者都基于相同的结构MTF-Net。教师网络专注于纹理细节并生成伪纹理标签，以指导学生网络保留输入图像中的纹理细节，而学生网络学习从可见光图像中提取和注入颜色特征到融合图像中。同时，学生网络使用随机梯度下降（SGD）优化其提取和注入颜色特征的能力。为了确保信息交换的顺畅和一致性，教师网络使用学生网络梯度的指数移动平均（EMA）进行更新，实现交互式更新机制，协调纹理和颜色的预测。为了增强多通道交互，我们设计了多通道协作融合模块（MCFM）作为网络中的即插即用组件。MCFM首先对不同输入进行粗粒度融合处理，生成包含纹理和颜色细节的潜在跨模态信息的跨模态特征图。然后，使用CNN-Transformer结构，在输入特征图和跨模态特征图之间进行细粒度融合处理。细粒度融合过程旨在提取并映射跨通道的特征，捕捉细粒度的局部细节，同时实现全局范围的上下文融合。该模块确保了纹理和颜色信息的稳健整合，从而实现高质量的图像融合。为了提高我们的双任务驱动IVIF模型（纹理融合和颜色注入）的性能，我们提出了一种三重损失函数，结合了纹理一致性损失、颜色注入损失和联合对比损失。纹理一致性损失利用YCbCr空间中的伪纹理标签来增强模型处理未标记数据的能力，而颜色注入损失利用RGB空间中的多通道特征分布来实现高保真度颜色特征到融合图像中的准确注入。同时，我们设计了联合对比损失来强制学生网络和教师网络的训练一致性，并通过对比学习捕捉语义关系。这种三重损失策略减少了过拟合，减轻了不必要的偏差，并促进了纹理和颜色特征的和谐融合，从而产生感知上平衡且高质量的融合颜色图像。

总之，本文的贡献主要有四个方面：

•

我们提出了一种新颖的双任务驱动（即纹理融合和颜色注入）红外和可见光图像融合方法，该方法利用均值教师机制构建了一个创新的协作图像融合框架。得益于均值教师中跨任务的一致学习表示，这种方法实现了纹理特征的高保真度注入和颜色特征的高端融合，产生了高质量的融合颜色图像。

•

我们开发了一个即插即用的多通道协作融合模块（MCFM），以确保多通道融合中纹理和颜色特征的完整性。同时，该模块通过CNN-Transformer结构促进细粒度映射，增强了相互特征表示，促进了跨模态纹理和颜色特征的融合。

•

我们设计了一种三重损失函数，包括纹理一致性损失、颜色注入损失和联合对比损失。通过结合不同类型的损失函数，模型可以有效处理融合过程的各个方面，包括颜色一致性、纹理保留和高级语义理解，从而确保了鲁棒的融合性能。

•

广泛的实验表明，我们的方法在三个常用数据集上超越了15种最先进的图像融合方法，在整合互补纹理和注入高保真度颜色方面取得了优异的性能。

本文的其余部分组织如下：第2节回顾了IVIF的相关工作。第3节详细介绍了所提出的MTFusion框架，包括基于CNN-Transformer的多通道协作融合模块和基于对比学习的正则化方案。第4节展示了在三个数据集上的广泛实验结果。最后，第5节总结了本文。

章节片段

提出的方法

我们的目标是同时进行纹理融合和颜色注入，以解决IVIF的挑战。在本节中，我们首先提供了IVIF任务的问题表述，并解释了均值教师机制是如何引入到该任务中的。接下来，我们提出了一个基于均值教师机制的有效红外和可见光图像融合框架，即MTFusion框架。然后，详细介绍了学生网络和教师网络的U形结构。

实验结果与讨论

在本节中，我们展示了一系列在IVIF任务上进行的实验，以证明我们提出的MTFusion框架的优越性能。首先，我们介绍了实验配置的详细信息，并将MTFusion与最先进的方法进行了比较。其次，在MSRS基准数据集上进行了融合实验，以验证MTFusion的有效性，并分析了MTFusion在训练过程中的收敛行为。

结论

本文提出了一种新颖的红外和可见光图像融合范式，通过引入一个分层双任务驱动的融合模型，在纹理融合和颜色注入方面表现出色。该方法利用基于均值教师的框架进行多通道输入数据的协作融合，实现了纹理特征的高保真度注入和颜色特征的高端融合。此外，还开发了一个多通道协作融合模块以实现

CRediT作者贡献声明

桥阳：撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、监督、软件、方法论、形式分析、数据策划、概念化。张宇：撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、监督、软件、方法论、形式分析、数据策划、概念化。陈俊富：撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、监督、软件、方法论。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号