TCM跟踪:基于时间相关性的实时跨模态交互式RGBT跟踪

《Image and Vision Computing》:TCM-tracking: Real-time cross-modal interactive RGBT tracking based on temporal correlation

【字体: 时间:2026年02月27日 来源:Image and Vision Computing 4.2

编辑推荐:

  RGBT跟踪方法融合时间关联与跨模态交互机制,通过轻量级网络实现实时跟踪,有效抑制单模态污染并提升复杂环境下的长期稳定性,实验表明其跟踪速度达80.19 FPS且性能显著优于现有方法。

  
赵宇涵|吴月|曹克汉|张东翔|刘炳友|万国阳
安徽理工大学电气工程学院,中国芜湖241000

摘要

在RGBT跟踪中,由于目标变化、光照变化和复杂背景的影响,从可见光和红外两种模态中有效获取信息具有挑战性。为了解决这些问题,本文提出了一种结合时间相关性和跨模态交互的目标跟踪方法。首先,采用多种轻量级框架实现实时跟踪。鉴于这两种模态具有互补信息,本文引入了一种跨模态交互(CMI)机制,利用双模态模板标记序列来促进两种模态的融合与交互,从而防止单一模态的干扰进入全局上下文。其次,利用跟踪目标的时间连续性为跟踪器提供准确的动态模板参考,从而精确捕捉目标位置、形状和大小的微妙变化。最后,实验结果表明,与现有技术相比,我们的方法在五个跟踪基准测试中取得了显著的性能提升。特别是在复杂和动态环境中进行长期跟踪时,模型的稳定性得到了显著增强,跟踪速度达到80.19 FPS。

引言

RGBT跟踪旨在利用RGB和热成像模态的互补优势,实现鲁棒的视觉跟踪,在行人识别[1]、视频监控[2]和多传感器融合[3]等领域有重要应用。最近的研究在RGB-T特征融合[4]、[5]、[6]方面取得了显著进展,推动了RGBT跟踪技术的发展。然而,传统的融合结构在处理弱运动信号和动态结构响应的精确建模方面存在不足。RGB和热成像已成功应用于提取微小振动[7]、[8],但在复杂场景下的适应性和泛化能力仍面临挑战。传统方法在目标变形、光照变化和背景杂乱等动态条件下往往表现不佳。为了提高鲁棒性和准确性,我们提出了一种结合时间相关性和跨模态交互的跟踪框架。在搜索区域,我们利用前一帧的数据来利用时间连续性,提供更可靠的动态参考;在模板区域,帧提供了稳定的先验知识,但固定模板无法适应目标的变化。为此,我们采用了一种跨模态模板标记序列,根据时间相关性更新模板,实时捕捉外观变化并保持模态间的一致性。搜索区域和模板区域的图像被分割并平铺成补丁序列,作为输入传递给Transformer模块。
如图1(a)所示,传统方法依赖于VGG-M[9]框架,并使用注意力机制直接整合RGB和TIR搜索帧的整体特征。这种方法容易引入单一模态的干扰,从而降低模型的区分能力[10]、[11]、[12]。如图1(b)所示,每对ROI仅从搜索帧中提取有限数量的局部特征,且前景和背景信息较少,限制了两种模态之间的相互增强和互补效果[13]、[14]、[15]、[16]、[17]。如图1(c)所示,我们提出了跨模态交互(CMI)模块,该模块位于Transformer模块之前,首先融合两种模态的模板,然后将融合后的模板与搜索区域结合,并合并结果令牌,形成双模态模板标记序列(BTMS)。这为跟踪目标特征信息的收集和交互提供了媒介,确保两种模态搜索区域之间的交互不会受到模态干扰。最终,跟踪头利用从主干网络提取的RGB和TIR搜索区域特征作为输入,预测目标的当前状态。因此,我们的方法不仅提高了跟踪的鲁棒性和准确性,还在长期跟踪中显著增强了模型的稳定性,从而在动态环境中表现出更好的性能。
  • 我们提出了一种跨模态交互机制,通过融合模板来协调RGB和TIR搜索区域之间的交互,确保两种模态搜索区域之间的交互不受模态干扰的影响。
  • 我们提出了一种基于时间相关性的方法,通过使用多种融合模式将前一帧的模板区域和搜索区域与当前帧的相应区域进行融合,有效缓解目标外观变化的影响,确保跟踪器始终参考最新的目标特征。
  • 我们采用了一种轻量级框架,提高了目标跟踪任务的运行效率,加快了处理速度,降低了计算成本,同时保持了高准确性和稳定性。此外,这些算法被部署在无人机上,用于跟踪地面热源目标。

相关研究

相关工作

在本节中,我们简要概述了相关研究,重点关注三个领域:RGBT跟踪、特征融合机制和时间相关性机制。

整体结构

我们方法的总体框架如图2所示。首先将输入的RGB和TIR搜索区域与前一帧的搜索区域融合,得到具有时间相关性的搜索区域。随后,将搜索区域和模板图像分割并平铺成一系列补丁,然后输入到Transformer模块中,其中两种模态对应于Transformer模块同一层的权重被共享。

实现细节

我们的模型基于PyTorch[31]实现的OSTrack[32],并使用LaSOT[33]预训练的权重进行初始化。我们在NVIDIA 4070Ti GPU上使用批量大小为8的数据集,对模型进行了15个epoch的微调。主干网络的学习率设置为4e-5,其他参数的学习率设置为4e-4,并在10个epoch后采用10×的衰减率。优化使用AdamW[34]进行,权重衰减率为1e-4。添加的CMI模块采用随机初始化。我们记录了

算法部署

我们将轻量级跟踪算法TCM-tiny部署在配备Zenmuse H20T云台系统的DJI Matrice M300 RTK无人机上。该多传感器云台集成了20MP变焦相机、12MP广角RGB传感器和30 Hz高帧率热成像传感器,能够在复杂的空中环境中实现高效的多模态数据采集和实时跟踪。
对于机载推理,系统采用了NVIDIA Jetson AGX Xavier模块作为嵌入式计算平台

结论

在这项工作中,我们提出了一种基于时间相关性的跨模态交互方法,用于RGBT跟踪,深入探讨了时间相关性和跨模态交互,构建了具有连续性和抗模态干扰能力的多模态跟踪系统。实验表明,与现有的RGBT跟踪器相比,TCM在五个主流数据集上表现出更优的性能,体现了其优越性和有效性。我们观察到引入时间相关性

CRediT作者贡献声明

赵宇涵:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、软件实现、方法论研究、数据整理、概念构建。吴月:监督、资源协调、方法论指导。曹克汉:验证、软件实现。张东翔:方法论研究、资金筹集。刘炳友:软件实现、研究工作、资金筹集、形式化分析。万国阳:软件实现、数据整理、概念构建。

利益冲突声明

所有作者声明没有可能影响本文工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号