STIFormer：通过时空交互Transformer实现RGB-T跟踪

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月12日 来源：Image and Vision Computing 4.2

编辑推荐：

　　RGB-T目标跟踪框架STIFormer通过时空交互Transformer融合多模态特征，利用多帧模板和令牌传播增强跨帧信息交互，结合混合注意力机制有效融合RGB与热成像数据，实验证明在RGBT234和LasHeR数据集上性能最优。

作者：徐博月、方雅群、侯瑞超、任同伟

单位：南京大学新型软件技术国家重点实验室，中国南京 210008

摘要

现有的RGB-热成像（RGB-T）跟踪器通过使用交叉注意力机制整合RGB和热成像两种模态，并通过计算单个模板与搜索区域之间的相关性来估计目标位置。然而，由于这些跟踪器忽略了模态之间的帧间线索以及主导模态的动态变化，因此它们的性能往往不尽如人意。为了解决这个问题，我们提出了一种新颖的时空交互变换器（STIFormer），该变换器能够有效融合来自空间和时间域的多模态特征，从而提高RGB-T跟踪的鲁棒性。具体来说，我们设计了一个时空特征表示模块，通过令牌传播实现帧间信息交换，该模块能够编码多帧的特征和时间令牌；此外，我们还提出了一个基于令牌的混合注意力融合模块，用于融合不同模态的帧特征和令牌特征。大量实验表明，我们的方法在公开的RGB-T基准测试中取得了领先性能。项目页面地址为：https://github.com/xuboyue1999/STIFormer

引言

视觉目标跟踪（VOT）旨在持续获取给定序列中指定目标的位置[1]。它在自动驾驶、机器人技术、具身人工智能和人机交互等领域有着广泛的应用[2],[3],[4],[5],[6],[7],[8]。

为了克服单模态传感器的固有局限性，RGB-热成像（RGB-T）目标跟踪作为一种有前景的解决方案应运而生，它结合了RGB和热成像的优势，以提高全天候跟踪性能。RGB数据提供了丰富的细节和纹理信息，而热成像数据则提供了在各种条件下可见的目标表面热源信息。有效结合这两种模态可以显著提升目标跟踪的鲁棒性，尤其是在具有挑战性的环境中[9],[10],[11],[12]。

当前的RGB-T跟踪器通常通过在现有的RGB跟踪器基础上添加热成像分支并采用特征融合方法来结合这两种模态的特征。为了在复杂场景中提高跟踪稳定性，一些方法还实现了模板更新策略[13],[14]，如图1(a)所示。具体来说，利用主干网络从不同模态中提取特征，然后进行融合并通过预测头估计目标位置，最终根据预测结果更新模板。然而，这种方法存在一定的局限性：虽然模板更新策略可以在一定程度上提高复杂环境中的跟踪稳定性，但需要设计复杂的更新机制；此外，这些方法往往难以利用时间信息，使得在跟踪过程中难以跨帧关联特征。

为了解决这一问题，我们提出了一种基于时空交互变换器（STIFormer）的RGB-T跟踪框架，如图1(b)所示。在之前关于RGB单模态跟踪的研究[15],[16]的基础上，我们将跟踪任务定义为令牌传播任务，并引入了多帧模板来捕获比传统单帧模板更多的动态信息。同时，令牌在帧间传播，使得判别性特征能够传递到后续帧中，从而提升跟踪性能。对于RGB-T多模态跟踪，我们提出了一个基于令牌的混合注意力融合模块，该模块利用时间线索更有效地提取双模态信息，同时保持与时间动态的一致性。

具体而言，我们使用时空特征表示模块分别提取RGB和热成像特征，每种模态都包含帧特征和令牌特征。随后，我们采用基于令牌的混合注意力融合模块进行多模态特征融合。之后，通过多分支预测头获得预测结果，同时将令牌信息作为时空信息传递到下一帧以预测后续帧。在RGBT234和LasHeR数据集上的实验结果表明，我们的方法优于其他竞争性的RGB-T跟踪方法。

本文的主要贡献如下：

我们提出了一种基于时空交互学习的新型RGB-T跟踪框架，该框架利用多帧模板和令牌传播构建了全面的时空特征表示。
我们设计了一个基于令牌的混合注意力融合模块，该模块利用时空信息促进模态融合和帧间交互。

部分内容摘要

RGB-T跟踪

近年来，研究人员专注于将模态融合方法引入RGB目标跟踪中，以开发RGB-T跟踪器，这类跟踪器主要分为两大主流范式。一类方法基于MDNet[17],[18]，采用检测驱动的跟踪思路。例如，Lu等人[19]提出了一个双门控互条件网络，以充分利用两种模态的互补信息来指导模态融合。Hou等人[20]也提出了类似的方法……

概述

STIFormer的框架如图2所示，主要包括三个模块：时空特征表示、基于令牌的混合注意力融合和预测头。在时空特征表示模块中，RGB和热成像序列分别被编码，这是一种典型的对称双流架构。编码器用于从搜索帧、多模板帧以及初始为空的令牌中提取模态特征。

数据集与评估

在本文中，我们在两个大规模的RGB-T基准测试数据集RGBT234[45]和LasHeR[56]上与现有的最先进跟踪器进行了对比实验。RGBT234包含234对精确对齐的RGB-T视频序列和12个标注属性，总计约233.4K帧；LasHeR是最新的RGB-T跟踪数据集，包含1224个来自不同视角和场景的RGB-T视频，总计734.8K帧。

与以往的研究[56]一致，我们采用了……

结论

在本文中，我们提出了基于时空交互变换器的STIFormer这一新型RGB-T跟踪方法。为了利用帧间线索，我们引入了一个结合多帧模板和令牌传播的框架，以捕获全面的时空特征表示。此外，我们还提出了一个基于令牌的混合注意力融合模块，用于有效融合不同模态的帧特征和令牌特征。在公开测试数据集上的实验结果表明……

作者贡献声明

徐博月：验证、方法论、研究工作。 方雅群：撰写初稿、软件实现、方法论设计、概念构思。 侯瑞超：撰写初稿、项目管理工作。 任同伟：资源协调、资金争取。

资助

本研究得到了国家自然科学基金（62072232）、江苏省重点研发项目（BE2022138）、中央高校基本科研业务费（021714380026）、南京大学新型软件技术国家重点实验室创新项目（ZZKT2024B20）以及新型软件技术产业化协同创新中心的支持。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

联系信箱：

粤ICP备09063491号

摘要

引言

部分内容摘要

RGB-T跟踪

概述

数据集与评估

结论

作者贡献声明

资助

利益冲突声明

热点排行