RAATrack：一种用于视频级多模型跟踪的可靠外观聚合技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：RAATrack: Reliable Appearance Aggregation for Video-level Multimodel Tracking

【字体：大中小】 时间：2026年01月26日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　RAATrack提出基于可靠外观聚合的多模态视频级跟踪框架，利用Mamba的隐藏状态机制建模长时依赖，通过跨注意力层和动态模板机制持续更新外观信息，提升复杂场景下的跟踪鲁棒性。

金英然|高云|冯倩云

云南大学信息科学与工程学院，中国昆明，650504

摘要

多模态跟踪因其能够弥补传统基于RGB的跟踪方法的固有局限性而受到了广泛关注。然而，大多数现有的多模态跟踪器主要关注不同模态之间的空间特征融合与增强，或者仅利用视频帧之间的稀疏时间依赖性，这使得系统地捕捉和利用长距离时间相关性以及有效建模目标动态和运动信息变得困难。为了解决这个问题，我们提出了一种基于可靠外观聚合的新型上下文感知视频级多模态跟踪框架，称为RAATrack。在跟踪过程中，RAATrack持续聚合可靠的目标外观信息，并利用Mamba的隐藏状态机制记录和传播整个视频序列中的丰富上下文信息，从而提高跟踪的鲁棒性。RAATrack的核心组件是外观信息聚合（AIA）模块，该模块由交叉注意力层和Mamba层组成。交叉注意力层定期校准外观信息，而Mamba层则持续捕捉目标外观的变化并建立视频帧之间的长距离时间依赖性。在五个不同的多模态数据集（RGBT234、LasHeR、VisEvent、DepthTrack和VOT-RGBD2022）上进行的实验表明，RAATrack取得了先进的性能。

引言

视频对象跟踪（VOT）是计算机视觉中的一个基本任务，其目标是在给定目标初始状态的情况下估计后续帧中的目标位置。它在视频监控和安全、无人机侦察以及人机交互等领域有广泛的实际应用[1]、[2]、[3]。尽管已经开发了许多高性能的基于RGB的跟踪器[4]、[5]、[6]、[7]、[8]、[9]，但它们受到可见光成像的固有限制，在光照变化和遮挡等具有挑战性的场景中往往表现不佳。因此，多模态跟踪受到了越来越多的关注。

多模态跟踪利用不同模态之间的互补性来实现更强的性能，常见的组合包括RGB+热成像（RGB-T）、RGB+深度（RGB-D）和RGB+事件（RGB-E）。现有的多模态跟踪器大致可以分为两类：使用固定模板的离线跟踪器和在跟踪过程中更新参考信息的在线跟踪器。离线多模态跟踪器[10]、[11]、[12]主要关注多模态空间特征的融合。如图1(a)所示，这些跟踪器在整个跟踪过程中使用目标外观的固定初始模板作为参考信息。然而，随着跟踪的进行，目标的外观可能会受到遮挡或显著变化，这使得跟踪器仅依赖初始模板时难以捕捉到最新的目标状态。相比之下，在线跟踪器会持续更新参考信息以获取目标外观的最新特征[13]、[14]。一些方法采用动态模板来记录目标外观的演变——如图1(b)所示——并通过用新的外观特征更新这些模板来增强模型的鲁棒性。虽然这些方法取得了有希望的结果，但它们只能捕捉到目标的稀疏时间线索，未能充分利用视频序列中固有的长距离时间上下文信息。

为了解决这一限制，我们提出了一种基于可靠外观聚合的新型上下文感知视频级多模态跟踪框架，称为RAATrack，如图1(c)所示。RAATrack从动态更新的模板图像中收集可靠的目标变化线索，持续获取整个视频序列中的目标外观特征，并将这些信息压缩到隐藏状态空间中，从而建立视频帧之间的长距离上下文关系。

RAATrack使用模板令牌作为桥梁，从过滤后的动态模板中持续提取和聚合目标的上下文信息，从而提高置信度并减少噪声。具体来说，RAATrack使用三种类型的模板令牌：初始模板，代表目标的早期参考信息；动态模板，捕获目标最新的外观信息；以及时空上下文模板，聚合目标外观变化的线索。这三种模板的结合为跟踪器提供了丰富的时空上下文信息，使得跟踪更加准确和鲁棒。

RAATrack中的关键模块是外观信息聚合（AIA）模块。AIA模块基于Mamba构建，并结合了注意力机制，负责提取和聚合上下文信息。具体而言，我们引入了一种动态模板机制来记录时空建模过程中的目标外观。在AIA模块中，交叉注意力层校准目标信息，以减轻由于时间变化导致的特征漂移，而Mamba层从参考信息中提取和聚合上下文信息。在跟踪过程中，随着参考信息的持续更新，AIA模块逐步积累时间信息，并将历史信息整合到当前跟踪帧中以指导跟踪。

总结来说，本工作的主要贡献如下：

•

我们提出了RAATrack，这是一种上下文感知的视频级多模态跟踪框架，它持续聚合可靠的目标外观信息，并利用Mamba的隐藏状态机制在整个视频序列中记录和传播丰富的上下文信息，从而增强长距离上下文建模并提高跟踪的鲁棒性。

•

我们设计了AIA模块，该模块由交叉注意力层和Mamba层组成。该模块定期校准外观信息并持续捕捉目标外观的变化，建立视频帧之间的长距离时间依赖性。

•

我们在多个多模态基准数据集（包括LasHeR、RGBT234、VisEvent、VOT-RGBD22和DepthTrack）上进行了广泛的实验，证明RAATrack在各种场景中都取得了先进的性能。

部分摘录

多模态跟踪

近年来，多模态跟踪因其能够在复杂场景中实现强大的性能而受到了广泛关注。通过利用不同模态之间的互补性，它解决了单模态跟踪器无法处理的挑战。与传统基于RGB的跟踪相比，多模态跟踪需要仔细考虑不同模态之间的特征融合和交互。例如，APFNet [15]引入了基于ResNet的属性

方法论

在本节中，我们将详细描述RAATrack。首先，我们提供RAATrack的概述。然后，我们详细介绍模型架构，包括主干网络和AIA模块。最后，我们介绍预测头和相关损失函数。

实验

在本节中，我们首先描述了所提出的RAATrack的训练和推理过程。然后，我们将RAATrack与多个基准数据集上的最先进方法进行比较。

结论

在这项研究中，我们提出了RAATrack，这是一种视频级多模态跟踪方法，它引入了一种新颖的方法来从模板图像和跟踪结果中获取高可靠性的外观信息，提取时空上下文，并进行统一的时空建模。RAATrack结合了一个基于Mamba的上下文信息聚合模块（AIA模块），用于高效地进行时空特征聚合。该模块利用Mamba的选择性扫描机制

CRediT作者贡献声明

金英然：撰写——原始草稿、可视化、验证、软件、方法论、调查、数据整理、概念化。高云：撰写——审阅与编辑、监督、资源管理、项目协调、资金获取、形式分析、概念化。冯倩云：撰写——原始草稿、可视化、验证、调查、数据整理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（项目编号62266051和61802337）和云南大学专业学位研究生实践创新基金项目（项目编号ZC-24248298）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

多模态跟踪

方法论

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行