编辑推荐:
视频目标跟踪中时空信息利用不足,传统Transformer方法因平方复杂度受限。本文提出因果一致扫描机制,构建线性复杂度的ViM跟踪框架,通过优化视频扫描策略和时空信息融合,有效利用长序列时空信息,减少计算成本,在多个数据集上验证了其有效性。
张文康|徐天阳|谢飞|聂沐|杨万库
东南大学网络科学与工程学院,南京,210096,中国
摘要
视觉对象跟踪是一个复杂的在线关联问题,其特点在于时间和空间维度的复杂相互作用。在当前的主流处理流程中,图像通常被编码成一个序列,然后通过变换器进行处理和融合。然而,由于变换器的二次复杂性,它们只能精心设计复杂的融合模块来提取有限的时空线索,而忽略了视频帧本身提供的时空信息。在本文中,我们没有精心设计网络模块,而是探索了一个具有线性复杂性的基础跟踪器,以利用帧中固有的信息。具体来说,我们通过提出因果一致性扫描来改进视频扫描方法,该方法考虑了跟踪序列的因果性质。基于此,我们构建了一个简单的跟踪流程,以探索长序列建模(即长时间序列和高分辨率),以捕捉密集环境下的连续信息流。此外,我们从时间和空间维度的双重角度系统地开发了选择性扫描模式,并尝试进行详细分析。在多个公共数据集上的广泛实验表明,我们的方法参数更少,训练内存消耗更低,取得了令人鼓舞的结果。我们希望这项工作能为丰富跟踪任务中的时空信息提供有价值的灵感,代码也将被公开。
引言
视觉跟踪是计算机视觉中的一个基本问题,其目标是在视频序列中唯一地识别和跟踪一个对象,给定第一帧的初始状态(Bertinetto等人,2016年;Li等人,2019年;Wang等人,2024年;Zhang等人,2024年)。长期以来,主流方法将视觉跟踪视为一个目标匹配问题,在性能和简洁性之间取得了良好的平衡。然而,从视觉跟踪的固有性质来看,对象在视频序列中并不是孤立存在的;相反,它们位于空间背景和时间背景下。当目标随时间发生变形、尺度变化和部分遮挡时,就会出现挑战。在这种情况下,为跟踪器配备上下文推理和关联能力是跟踪领域中的一个关键挑战。
已经有人尝试将历史时空信息纳入当前的跟踪器中(Wei等人,2023年;Xie等人,2024c;Zhang等人,2025年;Zhou等人,2026年)。STARK(Yan等人,2021年)首次将动态模板概念引入对象跟踪领域,使用动态模板更新来表示目标的时间变化。ARTrack(Wei等人,2023年)将对象跟踪回归过程视为一个连续坐标生成问题,根据历史坐标信息回归当前坐标。TATrack(Zhang等人,2025年)将前一帧的边界框编码为提示,引导模板和搜索帧之间的融合过程。通过整合时空反馈循环,TSMMT(Wu等人,2024年)促进了多无人机视频之间的特征交互,以缓解由于意外退化导致的性能下降。总之,这些方法可以大致分为两类:1)模板更新和2)信息传播。前者采用在线更新技术创建一个动态模板来捕捉目标的当前状态,而后者利用压缩特征向量来传递时间信息。由于变换器的二次复杂性,这些方法只能利用有限的时间上下文,因为过长的令牌序列会显著增加训练成本。如图1所示,在处理细粒度信息时,内存使用量会急剧增加。这些受限的时空表示,即单个令牌或单帧动态模板,在涉及遮挡、长时间序列和形态变化的复杂环境中遇到了重大挑战。仍然迫切需要增强长距离上下文信息的整合。
最近,一种名为Mamba的新状态空间模型(Gu和Dao,2023年)展示了出色的长距离建模能力,其最显著的特点是将序列长度的复杂性从变换器的二次关系降低到线性关系。因此,一些开创性的工作(Li等人,2024年;Liu等人,2024b;Zhu等人,2024年)将Mamba引入了计算机视觉领域。由于其内存使用的优势,建模更长的序列变得可行。更长的序列,如具有更高图像分辨率和更长时间跨度的序列,对对象跟踪有显著影响。这自然引发了这样一个问题:Vision Mamba(ViM)能否用于探索对象跟踪中的长序列建模?最近的研究(Kang等人,2025年;Li等人,2025年)通过将ViM模块嵌入基于ViT的框架中,取得了最先进的性能。然而,它们依赖于复杂的架构,而且它们对视频任务的线性扫描探索仍然不足。
在本文中,我们仅使用了一个简单的跟踪架构,以更清楚地展示我们方法在长序列建模中的有效性,避免引入复杂和精细的模块。之前的ViM方法(Lai等人,2024年;Li等人,2024年)采用了一种朴素的双向扫描方法,在反向扫描期间反转时间序列。视频对象跟踪与其他离线视频任务不同,时间信息的因果性质意味着后续帧可以利用前序帧的信息,但反之则不行。为了缓解时间矛盾,我们引入了一种因果一致性扫描机制,纠正了传统双向扫描中发现的时间不对齐问题。这确保了在线跟踪过程的因果完整性得到最大程度的维护。基于此,我们构建了一个扫描跟踪主干网络,该网络整合了时空上下文,以利用视频帧中固有的时间信息,而无需额外的模块设计。其相对于输入序列长度的线性复杂性优势使得即使在实验室级别的GPU上也能进行训练,同时保持了对更长时间持续性的建模能力和更详细的空间表示能力。如表1所示,2080Ti和3090 GPU能够有效处理中等和丰富的时空线索。此外,我们系统地探索了不同扫描方法在帧内和帧间的效果,以及图像流的输入序列长度,旨在阐明利用丰富时空信息的有效方法。我们的方法在LaSOT(Fan等人,2019年)和GOT-10k(Huang等人,2019年)等公共数据集上取得了令人鼓舞的结果,同时使用的网络参数更少。与之前的基线模型相比,我们的方法在长序列建模方面展示了显著的潜力。如图2所示,我们的方法与其他时间建模方法(Cai等人,2024年;Xie等人,2023年;Zheng等人,2024年)的主要区别可以总结为以下两个方面:1)我们的长距离时间建模基于具有线性复杂性的SSM,而不是具有二次复杂性的变换器模型;2)我们避免了设计额外的模块,并使用一个简单的主干网络实现了上下文信息融合。
我们的贡献总结如下:
•我们提出了因果一致性扫描,利用跟踪序列的因果性质来改进视频扫描机制,并更好地利用视频本身固有的时空线索。
•我们提出了一个针对对象跟踪任务的长序列建模新框架,该框架以线性计算复杂性捕获更长的时间上下文和更细粒度的空间特征。
•我们从时间和空间维度的双重角度系统地探索了长序列中的扫描机制,试图揭示有效利用时空信息的根本原理。
•我们的跟踪器在几个公共数据集上取得了令人鼓舞的结果(例如,在TrackingNet上的AUC为84.3),展示了长序列建模在视频流中的强大能力。
章节片段
视觉跟踪中的时间建模
几种在线更新方法被精心设计用于在孪生架构中探索时空线索。STMTrack(Fu等人,2021年)采用时空记忆网络,利用与目标相关的历史信息来更好地适应跟踪过程中的外观变化。STARK(Yan等人,2021年)和Mixformer(Cui等人,2022年)精心设计了一个决策分支,以补充动态模板图像,以整合时空信息。最近,VideoTrack(Xie等人)
任务构建
最近,几项研究(Cai等人,2024年;Chen等人,2023年;Cui等人,2022年;Fei等人,2022年;Yan等人,2021年)在探索时空信息方面取得了显著成果,主要分为显式模板更新和隐式信息传播。时空跟踪可以表示为 B?←?Ψ: {T, Td, S} 和 B?←?Ψ: {T, S, th/Bh),其中 Td 表示动态模板,B 表示当前搜索帧的预测框坐标,th 和 Bh 表示
系统研究与分析
在本节中,我们系统地探索了对象跟踪中的长序列扫描方法。首先,我们描述了输入模板和搜索图像的分辨率。如图4所示,一个常见的设置是模板帧图像的分辨率是搜索区域的四分之一。在这里,我们添加了相同的输入分辨率作为对照实验。所有实验都是在LoongTrack256模型上进行的。
与基础跟踪器的比较
表5的上半部分展示了我们的方法与几种基线跟踪算法(例如,TransT、STARK、OSTrack和ODTrack)之间的比较。我们的目标是展示Vision Mamba主干在视觉对象跟踪任务中的有效性。因此,我们采用了一致的预训练策略,并从这些算法中移除了额外的设计组件,以便进行公平比较。具体来说,我们移除了ODTrack中的传播机制,同时保留了模板
结论
在本文中,我们介绍了LoongTrack,这是一种简单而有效的长期序列建模基础方法,用于视觉对象跟踪。概念上,我们将跟踪任务视为在密集时空背景下对指定目标的位置理解任务。具体来说,我们充分利用了Vision Mamba在内存使用方面的线性复杂性优势,用于长距离序列,并将其与单个对象跟踪任务固有的优势相结合。此外,我们系统地探索了
CRediT作者贡献声明
张文康:撰写——原始草稿,验证,软件,方法论,正式分析,数据整理。徐天阳:撰写——审阅与编辑,监督,正式分析。谢飞:撰写——审阅与编辑,监督,正式分析。聂沐:撰写——审阅与编辑,可视化,验证。杨万库:撰写——审阅与编辑,监督,项目管理,资金获取。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
杨万库,博士教授
中国东南大学自动化学院