SGAFuse：一种基于动态门控机制的、用于RGB-热图像的语义引导自适应融合方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月02日 来源：Neural Networks 6.3

编辑推荐：

　　语义引导多模态融合方法通过双模态特征对齐与动态门机制自适应调整模态权重，有效解决不同场景下融合策略不统一的问题。

赵阳|苗德水|田超|朱国庆|何振宇

哈尔滨工业大学（深圳）计算机科学与技术学院，中国

摘要

可见光和红外图像融合旨在整合两种模态的互补信息，以生成高质量的融合图像，从而提升下游计算机视觉任务的性能。然而，现有的融合方法往往对图像使用相同的权重进行融合，忽略了两种模态在空间分布中的不同重要性，以及在不同场景下需要动态调整融合方法的需求。为了解决这些问题，我们提出了一种新的RGB-T融合方法，该方法通过语义引导的注意力机制和动态门控机制来提高对不同场景的鲁棒性。具体来说，通过结合语义注意力重要性图，我们提出了一个双模态语义驱动的特征对齐模块，该模块包括跨模态查询补偿模块和模内查询增强模块，用于探索两个输入图像中不同空间区域的重要性差异。随后，我们引入了一个动态多路径门控机制，使网络能够根据不同场景的输入调整每个模块的权重，从而最终提高融合算法在各种场景下的鲁棒性。在四个基准数据集上进行的全面实验表明，我们的方法在定性和定量评估中均取得了最先进的性能。

引言

可见光和红外图像（RGB-T）融合旨在结合两种模态的互补信息，生成保留每种模态最重要特征的高质量融合图像。这类融合图像在下游计算机视觉任务中发挥着关键作用，包括目标检测（Tian等人，2024年）；跟踪（Yin等人，2022年）和显著目标检测（Peng等人，2024年）。由于成像机制的不同，可见光图像在正常光照条件下擅长捕捉纹理细节和颜色信息，而红外图像依赖于热辐射，因此在遮挡环境中检测发热物体时具有更好的鲁棒性。

在过去的几年中，现有的融合方法通过各种途径取得了显著进展。具体而言，基于CNN的方法（Li和Wu，2018年；Li、Wu、Kittler，2021年；Li、Xu，2023年；Long等人，2021年；Zhang等人，2020年）利用了深度特征提取能力，DenseFuse（Li和Wu，2018年）引入了具有密集块的编码器-解码器架构，LRRNet（Li等人，2023年）通过分解提取低秩特征以减少噪声。同时，基于Transformer的方法（Li和Wu，2024年；Liu等人，2024年；Ma等人，2022年；Tang等人，2024年；Zhang等人，2025a）利用了长距离依赖性和全局上下文信息，SwinFusion（Ma等人，2022年）结合了Swin Transformer以增强细节表示，CrossFuse（Li和Wu，2024年）通过跨模态特征融合和深度监督学习实现了高质量的融合。此外，最近的方法（Li等人，2024年；Qian等人，2024年；Zhao、Bai等人，2023年；Zhao、Xu、Zhang、Liu、Zhang、Li，2020年）还探索了模态分解技术，以更好地处理RGB图像和热图像之间的异质性。BiDA（Zhang等人，2025b）通过领域不变的特征分离增强了跨域鲁棒性，用于高光谱分类。

然而，尽管取得了这些进展，当前的方法（Li和Wu，2024年；Ma等人，2022年；Tang等人，2024年）在所有空间区域和不同场景中应用了统一的融合策略，未能考虑到不同模态在不同区域和场景中的不同重要性。如图1所示，绿色和红色框突出显示了两种模态的关键区域和不同的融合结果。在基于Transformer的方法CrossFuse（Li和Wu，2024年）中，红外模态的目标没有完全保留，导致这些目标在融合图像中显得模糊。尽管LRRNet（Li等人，2023年）在白天场景中表现良好，但其性能在夜间会下降。DIDFuse（Zhao等人，2020年）通过解耦模态解决了这个问题，但其固定的融合策略可能导致融合图像中的行人模糊。通过上述分析，我们观察到红外和可见光模态具有不同的成像特性，每种模态的重要性和信息质量在空间区域和成像条件上差异显著。因此，对所有区域应用相同的融合策略不可避免地会导致次优结果，因为一种模态中具有高质量信息的区域可能会被另一种模态的低质量信息所影响。

为了解决上述挑战，我们提出了SGAFuse，这是一种新的融合框架，通过语义引导的注意力和动态门控机制系统地解决了自适应融合策略选择的问题。具体来说，我们利用对比语言-图像预训练（CLIP）模型（Jiang、Fang、Han、Lu、Xu、Liao、Chang、Liang，2025年；Jiang、Lu、Liang、Zhu、Zhang、Chang、Xu，2023年；Radford等人，2021年）和文本提示生成重要性图，有效地识别了红外和可见光图像中的显著区域，并提供了理解跨模态区域重要性变化的语义级指导。在此基础上，我们设计了一个双模态语义驱动的特征对齐（DSFA）模块，包括模内查询增强（IMQE）和跨模态查询补偿（CMQC）模块。IMQE模块使用语义引导的重要性图增强来自显著区域的查询，以提取模态特有的特征，而CMQC模块采用了一种互补策略，用另一种模态的高质量查询替换低信息查询。此外，我们引入了一种名为动态多路径门控（DMG）的自适应门控机制，将自适应门控集成到每个注意力组件中，根据样本的特定特征动态调整它们的权重，从而在各种场景中实现最佳融合性能。通过在四个基准数据集（包括TNO De With和Seinstra，2005年；RoadScene Xu等人，2020b；MSRS Tang等人，2022a；M3FD Liu等人，2022年）上进行的全面实验，我们的方法在定量指标和定性评估中均表现出优于现有最先进融合技术的性能。

我们方法的贡献如下：

•

我们开发了一个双模态语义驱动的特征对齐模块，以增强语义理解和空间建模，提取两种模态的互补特征和模态特有的特征。

•

我们设计了一个动态多路径门控机制，将不同样本中每种模态的不同注意力元素整合在一起。

•

在四个数据集上进行了广泛的实验评估，证明了我们方法的有效性以及每个提出组件的能力。

方法论

当前的RGB-T融合方法在所有空间区域应用统一的融合策略，未能考虑到不同模态在不同区域和场景中的不同重要性。为了解决这个问题，我们提出了SGAFuse，这是一种新的融合框架，通过语义引导的注意力和动态门控机制系统地解决了自适应融合策略选择的问题。

实验

在本节中，我们首先详细介绍了研究中使用的实验设置和配置。然后，我们展示了定量和定性实验，以证明我们提出方法的有效性。最后，为了验证提出的CMQC和IMQE模块的有效性，以及验证动态多路径门控（DMG）机制在不同场景下的有效性，我们进行了可视化和消融实验。

结论

在本文中，我们提出了SGAFuse方法，以提高融合模型在多种场景下的鲁棒性。首先，为了解决两种模态在空间分布中的不同重要性，我们设计了一个双模态语义驱动的特征对齐机制，包括跨模态查询补偿（CMQC）和模内查询增强（IMQE）模块，这些模块借助CLIP提取的语义图实现了语义互补性和空间建模。随后，为了

CRediT作者贡献声明

赵阳：撰写 – 审稿与编辑，撰写 – 原始草稿，方法论，调查，概念化。苗德水：撰写 – 审稿与编辑，撰写 – 原始草稿。田超：方法论，调查。朱国庆：资源。何振宇：监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究

方法论

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行