IRDFusion：基于迭代关系映射差异的特征融合方法，用于多光谱目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection

【字体：大中小】 时间：2026年02月01日 来源：Pattern Recognition 7.6

编辑推荐：

　　多光谱目标检测中，现有方法在特征融合时易受冗余背景干扰，本文提出基于跨模态特征对比与筛选的融合框架IRDFusion，通过迭代优化机制增强显著结构特征。创新性地设计MFRM模块提升模态间语义关联，DFFM模块利用差分反馈抑制共享背景噪声，实验表明在FLIR、LLVIP等数据集上实现最优检测性能。

江苏大学电气与信息工程学院，镇江，212013，中国

摘要

当前的多光谱目标检测方法在特征融合过程中常常会保留额外的背景或噪声，从而限制了感知性能。为了解决这个问题，我们提出了一种基于跨模态特征对比和筛选策略的特征融合框架，该方法与传统方法有所不同。所提出的方法通过融合具有目标意识的互补跨模态特征来自适应地增强显著结构，同时抑制共享的背景干扰。我们的解决方案重点关注两个新颖的、专门设计的模块：互特征细化模块（MFRM）和差分特征反馈模块（DFFM）。MFRM通过建模模态内和模态间的特征关系来增强特征表示，从而提高跨模态对齐性和判别能力。受反馈差分放大器的启发，DFFM动态计算模态间差分特征作为引导信号，并将其反馈给MFRM，以实现互补信息的自适应融合，同时抑制跨模态的共模噪声。为了实现稳健的特征学习，MFRM和DFFM被整合到一个统一的框架中，该框架被正式定义为迭代关系图差分引导特征融合机制（IRDFusion）。IRDFusion通过迭代反馈逐步放大显著的关系信号，同时抑制特征噪声，从而实现高质量的多光谱融合，显著提升了性能。在FLIR、LLVIP和M³FD数据集上的广泛实验表明，IRDFusion取得了最先进的性能，并且在各种具有挑战性的场景中始终优于现有方法，证明了其稳健性和有效性。代码将在https://github.com/61s61min/IRDFusion.git处提供。

引言

多光谱目标检测利用来自多个光谱带（如可见光和红外光）的数据进行目标识别和定位。它在自动驾驶和视频监控任务中得到广泛应用，尤其是在恶劣天气条件下（例如黑暗、雾、雨或雪）。与单光谱数据相比，多光谱数据可以更全面地反映目标及其背景的光谱特性，从而显著提高检测的稳健性和准确性。值得注意的是，多光谱目标检测与一般的多模态目标检测不同。多光谱检测关注的是来自光学传感器系统不同光谱带（例如RGB和红外）的信息[1]、[2]、[3]，这些模态在物理上是相关的，并且通常表现出强烈的结构一致性。相比之下，多模态检测通常涉及异构源，如图像、文本、LiDAR点云或音频[4]、[5]，这些模态不仅在物理特性上有所不同，在语义表示上也有所不同，需要更复杂的对齐和融合策略。

尽管当前的多光谱目标检测方法通过探索跨模态融合策略取得了显著进展，但仍存在一些固有的局限性。特定模态的重建方法（例如SCFR [6]）试图保留独特信息，但它们常常忽略了同时存在于两种模态中的冗余背景特征，从而削弱了融合表示的区分能力。基于Transformer的方法（例如DAMSDet [7]、ICAFusion [2]）试图捕获全局互补信息并解决不对齐问题，但它们对堆叠注意力块的依赖性较高，引入了较高的计算负担和过度的参数化，这限制了可扩展性和实时应用性。对齐驱动的策略（例如CAGT [8]）在区域层面减轻了空间不对齐问题，但在过滤模态共享噪声方面效果较差，导致融合特征仍然受到背景伪影的污染。

这些局限性凸显了一个根本性的挑战：我们如何在不引入不必要的复杂性的情况下，保留互补的、具有目标意识的跨模态结构，同时抑制模态共享的冗余背景？为了更好地理解这一挑战，我们从建模的角度重新定义了多光谱融合。RGB和IR特征自然表现出共享的结构模式（例如对象轮廓、场景布局）和互补的模态特定线索（例如热对比度、颜色纹理）。传统方法通常尝试通过单步融合函数来整合这些特征，隐含地假设可以在一次操作中提取互补信息。然而，在复杂的成像条件下，这种假设很少成立。实际上，显著的互补线索在一个模态中往往是微弱的、噪声较大的或部分缺失的；模态共享的背景干扰经常占主导地位；模态之间的关系在空间上和动态上都是变化的。我们将多光谱融合视为一个迭代细化问题，而不是一次性操作。在每次迭代中，模型共同考虑当前RGB/IR特征表示以及捕获上一次迭代中跨模态差异的差分引导信号。

这种差分信号选择性地突出模态特有的、具有目标意识的线索，同时抑制共模背景响应。将这个信号反馈到下一次迭代中，使模型能够逐步放大有信息的互补结构，并逐步过滤冗余噪声。这种重新定义自然导致了一个迭代融合框架，能够比单次通过的方法更有效地处理复杂的跨模态交互。

受此启发，我们提出了IRDFusion，如图1(c)所示，这是一个迭代关系图差分引导融合框架，它整合了两个相互加强的组件：（1）互特征细化模块（MFRM），用于增强模态内的和模态间的语义关系；（2）差分特征反馈模块（DFFM），用于提取、加权并重新注入差分线索以指导融合过程。通过这两个模块之间的反复交互，IRDFusion逐步增强显著的互补特征，同时抑制共享的背景噪声，从而得到高度区分性和对齐良好的融合表示。

我们在FLIR、LLVIP和M3FD数据集上进行了广泛的实验，证明了IRDFusion在所有指标和具有挑战性的场景中始终优于现有方法。消融研究进一步验证了迭代细化和差分反馈机制的有效性。除了定量结果外，定性可视化显示IRDFusion通过恢复先前方法通常忽略的弱互补线索，显著减少了误检测和漏检。

总结来说，我们的主要贡献如下：

•

提出了一种互特征细化模块（MFRM），用于在两种模态之间增强对象候选者的特定模态特征，确保特征的稳健对齐。

•

受反馈差分放大器电路的启发，提出了一种差分特征反馈模块（DFFM），用于计算两种模态之间的互补判别特征，并同时过滤冗余信息。

•

MFRM和DFFM共同优化，通过动态差分关系图反馈机制有效整合来自不同模态的判别互补信息，为渐进式多光谱特征融合提供了一种新策略。

•

所提出的方法IRDFusion在FLIR、LLVIP和M³FD数据集上取得了最先进的性能。

本文的其余部分组织如下：第2节回顾了多光谱目标检测的相关工作，总结了现有方法及其优点和局限性；第3节描述了我们提出方法的细节，包括模型架构和关键技术；第4节展示了实验结果，将我们的方法与现有方法的性能进行了比较；第5节总结了本文并讨论了未来的研究方向。

部分内容

目标检测

目标检测是计算机视觉领域的一个基本任务，主要分为一类和两类检测器。一类检测器，如YOLO [9]和RetinaNet [10]，直接对特征图进行回归，实现了高检测速度。像DETR [11]这样的方法通过直接回归对象中心点或使用Transformer进行端到端检测，进一步简化了检测流程。相比之下，两类检测器，如R-CNN [12]和FPN [13]

问题表述

设Fv, Ft∈RC×W

表示从可见光和热模态中提取的特征图。传统的融合方法，如MBNet [30]和ICAFusion [2]，通常学习一个静态的、一次性的映射函数，如方程（1）所示：

F_{fused} = F (F_{v}, F_{t})

虽然基于差分的方法（如MBNet[30]）利用差分特征进行模态加权，但它们将差异计算视为一个终端步骤，未能重新利用该信号来细化输入表示。这与之前的方法不同

实现细节

我们在实验中使用了[34]中的双检测器框架。所有实验都在配备了Intel i7-9700 CPU、64 GB RAM和Nvidia RTX 3090 GPU（24 GB内存）的系统上使用PyTorch进行。图像输入大小设置为640×640，数据增强遵循[34]中的v1版本，其他设置与原始论文中的设置保持一致。在最终实验中，FLIR和LLVIP数据集训练了12个周期，而M

结论

在本文中，我们提出了IRDFusion，这是一种通过迭代反馈机制逐步整合跨模态特征的新多光谱目标检测框架。通过结合互特征细化模块（MFRM）进行结构保持对齐和差分特征反馈模块（DFFM）进行动态差异引导，我们的方法有效地放大了显著的对象信号，同时抑制了共模背景噪声。在FLIR、LLVIP等数据集上的广泛实验表明

CRediT作者贡献声明

Jifeng Shen：撰写 – 审稿与编辑，撰写 – 原始草稿，监督，资源，方法论，调查，资金获取，概念化。Haibo Zhan：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，软件，方法论，调查，形式分析，数据管理，概念化。Xin Zuo：撰写 – 审稿与编辑，监督，资源，项目管理，方法论，资金获取，概念化。Heng Fan：撰写 –

利益冲突声明

请根据实际情况检查以下内容：所有作者都参与了（a）概念和设计，或数据和解释的分析；（b）文章的起草或对其重要内容的批判性修订；以及（c）最终版本的批准。本手稿尚未提交给其他期刊或其他出版机构，也没有正在接受审查。作者与任何在该主题上有直接或间接财务利益的组织无关

致谢

本工作部分得到了中国国家自然科学基金（项目编号61903164、62173186）和江苏省自然科学基金（项目编号BK20191427）以及浙江省重点研发计划（2024C04056(CSJ)）的支持。Heng Fan没有因本研究、作者身份和/或文章发表而获得任何财务支持。

联系信箱：

粤ICP备09063491号

摘要

引言