TFS2Fusion：一种基于文本引导的、具有频率感知能力和场景特定性的掩码注意力网络，用于红外图像与可见光图像的融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：TFS2Fusion: A Text-Guided Frequency-Aware and Scene-Specific Mask Attention Network for Infrared and Visible Image Fusion

【字体：大中小】 时间：2026年02月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　现有红外与可见光图像融合方法多局限于空间域，忽略频率域互补信息，且缺乏场景语义引导。本文提出TFS2Fusion框架，创新性地融合频率域协同学习、场景感知掩码注意力及文本引导三阶段跨域注意力机制，通过FFTFusion模块解耦频域信息并实现多尺度补偿，结合S2MAN模块自适应生成场景掩码，有效提升目标显著性同时保留细节纹理。实验表明该方法在TNO、RoadScene等数据集上显著优于11种SOTA方法，且在目标检测和语义分割任务中表现优异。

Jiawei Liu|Guiling Sun|Liang Dong|Haicheng Zhang

南开大学电子信息与光学工程学院，天津，300350，中国

摘要

大多数现有的基于深度学习的红外和可见光图像融合方法仅限于空间域融合，未能充分考虑频域对图像融合性能的影响。同时，现有方法往往忽略了场景特定语义先验的指导作用，导致在复杂场景下融合图像的纹理细节丢失或目标显著性不足。为了解决这个问题，我们提出了TFS2Fusion——一种基于文本引导的、具有频域感知能力和场景特定性的掩码注意力网络。该框架引入了一种空间-频率协同学习架构，将频率注意力模块与多尺度补偿路径相结合，有效捕获了互补的频域信息，并减轻了跨模态域的差异。在空间域分支中，它结合了场景特定的掩码注意力模块和多尺度深度可分离卷积，以保留细粒度的结构细节。此外，三阶段交叉注意力机制将从文本中编码的场景语义先验自适应地注入到图像特征对齐过程中，增强了融合图像的语义一致性并提高了目标的可解释性。在TNO、RoadScene和M3FD数据集上的广泛实验表明，我们提出的方法在六个评估指标上均表现出优势，并在目标检测和语义分割等下游任务中取得了优异的性能。

引言

图像融合是一种在单一合成图像中保留显著目标和丰富纹理细节的技术[1]。这在复杂环境中显著提升了感知鲁棒性，使其在夜间监控[2]、目标跟踪[3]和医学成像[4]等应用中具有很高的价值。红外和可见光图像融合是一个典型的任务，旨在生成结合了红外图像中的热目标和可见光图像中的细粒度纹理的合成图像。这种方法弥补了单模态数据在光照条件变化、雾霾或遮挡下的感知局限。如图1所示，可见光图像难以在夜间环境中捕捉人体轮廓和细节，而红外图像则缺乏纹理细节。由此产生的融合图像完美地保留了这些关键元素，使得来自两种不同测量设备的互补信息得以有效整合。

图像融合通常被分为传统范式，如多尺度变换[5]、[6]、[7]、稀疏表示[8]、[9]和显著性变换[10]。然而，这些方法严重依赖于手动规则，难以在复杂场景中自适应地提取关键特征，并且泛化能力有限。随着近年来深度学习的进步[11]，基于卷积神经网络[12]、[13]、[14]、编码器[15]、[16]、[17]、生成对抗网络[18]、[19]以及语义引导[20]、[21]、[22]、[23]、[24]的方法取得了显著进展。基于CNN的方法通过多层卷积从两张图像中提取特征，并设计融合规则进行拼接和合并；基于AE的方法采用编码器-解码器架构，利用预训练模型进行特征提取、融合和重建；基于GAN的方法通过对抗训练增强视觉自然性，使生成图像保留更多源图像信息；语义引导方法通过引入外部语义先验（如文本提示或分割掩码）实现场景自适应融合。尽管在这些领域取得了突破，但这些方法仍存在显著局限性。基于CNN和AE的方法往往过度关注空间域中的特征融合和重建，从而忽略了频域中存在的互补光谱信息。基于GAN的方法训练不稳定，难以获得稳定的融合模型。虽然基于语义引导的方法提高了场景适应性，但它缺乏与频域的协调，导致在复杂环境中的纹理失真或目标显著性不足。一些频域方法尝试了光谱交互，但缺乏在空间-频率域中融合浅层特征和语义特征的引导机制，难以实现跨域特征的深度耦合。例如，CMMDL[25]使用共享编码器同时学习空间域结构纹理和频域全局上下文，并利用级联注意力增强多域相关性；D2Fusion[26]提出了一种双域高低频解耦策略，其中空间分支提取尺度特征，频域分支捕获全局光谱信息，利用域分离损失减少模态干扰；STFNet[27]通过自监督Transformer结合可变形卷积对齐机制整合了细节和显著注意力，以明确建模长距离依赖性。然而，这种浅层交互机制难以在频率、空间和语义域之间建立深度耦合，经常导致不同场景下的细节丢失或目标显著性不稳定。

为了解决这些挑战，我们提出了一个基于文本引导的、具有频域感知能力和场景特定性的掩码注意力网络（TFS2Fusion）。具体来说，我们提出的方法TFS2Fusion主要解决了现有方法的局限性：（1）为了解决频域中交互不足的问题，我们设计了一个多尺度补偿频率融合模块（FFTFusion Block）。该模块解耦了FFT的实部和虚部，结合了设计的单模态注意力机制和多尺度补偿路径，并利用全局平均池化和最大池化操作深入探索跨模态光谱互补性，充分利用频域信息进行特征增强。（2）为了解决融合模型的场景适应性差的问题，我们提出了一个用于空间域特征融合的自适应场景感知掩码注意力模块。该模块采用多尺度可分离卷积和动态掩码生成机制，将局部密集注意力与全局通道注意力相结合，形成双门结构。它根据图像内容自适应生成场景特定掩码，灵活调节特征融合过程，精确保留结构细节同时突出目标区域。（3）为了解决跨域融合松散的问题，我们引入了一个三阶段文本引导机制。该模块利用预训练的BLIP模型生成场景语义嵌入。通过将文本嵌入视为查询，将融合特征视为键值对，通过三个阶段的交叉注意力逐步注入语义信息，实现明确和精确的语义增强。这种设计有效增强了图像中关键对象的显著性，同时保留了丰富的纹理细节，从而显著提高了融合结果的语义一致性和视觉自然性。

本文的贡献总结如下：

1. 我们提出了一个基于文本引导的、具有频域感知能力和场景特定性的掩码注意力网络TFS2Fusion，它结合了频域融合、空间域掩码注意力和文本-语义引导，以提高融合图像的质量。

2. 我们设计了一个多尺度补偿频域融合模块FFTFusion Block，通过快速傅里叶变换（Fast Fourier Transform）在频域中解耦和交互红外和可见光特征。这种方法结合了多尺度补偿路径，充分利用了全局光谱结构和局部细节之间的互补信息。

3. 我们开发了一个自适应的场景感知掩码注意力机制，采用多尺度深度可分离卷积生成针对场景内容的注意力掩码。这种方法自适应地增强关键目标区域，同时保留丰富的背景纹理。

4. 我们在TNO、RoadScene和M3FD数据集上将我们提出的方法与11种其他先进的融合方法进行了定量和定性比较。实验结果表明，我们的方法在下游目标检测和语义分割任务中表现出一定的优势，并取得了良好的性能。

本文的其余部分组织如下：第2节回顾了相关工作。第3节详细介绍了我们提出的方法模型，包括文本引导模块、频域融合模块和场景感知掩码注意力机制。第4节展示了实验参数设置、比较结果以及在下游检测和分割任务上的性能。第5节总结了未来的研究方向。

方法

在第3.1节中介绍了我们的模型架构。然后在第3.2节中详细介绍了融合策略。最后，在第3.3节中讨论了损失函数细节。

实验

在第4.1节中，我们介绍了实验设置和超参数调整。第4.2节在多个数据集上对我们的方法与最先进方法进行了定性和定量比较，并验证了其在下游任务上的性能。第4.3节对提出的模块进行了消融研究。

结论

在本文中，我们提出了一种基于文本引导的、具有频域感知能力和场景特定性的掩码注意力网络TFS2Fusion，用于红外和可见光图像融合。通过空间-频率协同学习框架，该网络创新性地整合了多尺度频率感知模块（MSFP）、场景特定掩码注意力网络（S2MAN）和特征交互引导融合（FIGF）。这种方法有效解决了传统空间融合方法的局限性，例如

CRediT作者贡献声明

Jiawei Liu：撰写——原始草稿、方法论、形式分析、概念化。Guiling Sun：撰写——审阅与编辑、资金获取。Liang Dong：撰写——审阅与编辑、数据整理。Haicheng Zhang：撰写——审阅与编辑、可视化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了天津市自然科学基金（24ZYCGYS00680）的支持，部分得到了天津光电子传感器与传感器网络技术重点实验室的支持，以及国家自然科学基金重大研究计划（编号92473208）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号