通过自适应嵌入和时间上下文建模实现统一的时空跟踪

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Unified Spatio-Temporal Tracking via Adaptive Embedding and Temporal Context Modeling

【字体：大中小】 时间：2026年05月10日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　贾贤新|侯志强|马素刚|普雷本研究发表于西安邮电大学通信与信息工程学院及人工智能学院，中国西安710121。摘要：由于外观的动态变化、遮挡、快速运动以及背景杂乱，视觉对象跟踪仍然是一项基础且具有挑战性的任务。现有的基于单流转器的跟踪器通过统一特征提取和标记交互取得了显著进展，但在

　　贾贤新|侯志强|马素刚|普雷本研究发表于西安邮电大学通信与信息工程学院及人工智能学院，中国西安710121。摘要：由于外观的动态变化、遮挡、快速运动以及背景杂乱，视觉对象跟踪仍然是一项基础且具有挑战性的任务。现有的基于单流转器的跟踪器通过统一特征提取和标记交互取得了显著进展，但在复杂场景下仍存在三个关键限制：首先，生成的标记往往缺乏细粒度的空间细节，降低了目标与背景之间的区分度；其次，跨帧的时间建模要么过于浅薄，要么冗余，导致在遮挡或快速运动下不稳定；第三，历史标记的密集传播引入了不必要的计算，并可能稀释关键上下文，从而影响效率。为了解决这些问题，我们提出了通过自适应嵌入和时间上下文建模的统一时空跟踪（USACTrack）方法，该方法在单一端到端架构中集成了细粒度空间建模、时间连贯性和选择性上下文传播。具体来说，自适应嵌入模块通过自适应池化和方向感知的特征交互来增强视觉标记，提高了空间区分度；时间上下文聚合器细化历史上下文标记，以保持时间一致性并稳定外观转换；此外，基于状态空间对偶性的时空选择性传播器在保持长期依赖性的同时，选择性地跨帧传播关键信息。在八个公共基准测试上的广泛实验表明了USACTrack的有效性。它在大规模单对象跟踪（LaSOT）和基于自然语言的跟踪（TNL2K）数据集上的曲线下面积（AUC）得分分别为72.3%和61.2%，在LaSOT数据集上的性能优于基线算法2.7%。尽管有这些改进，该算法仍然保持轻量级，仅需要53.6吉次浮点运算（GFLOPs），并实现了每秒57.1帧（FPS）的实时推理速度。这些结果证实，USACTrack为自动驾驶、智能监控和人机交互等实际应用中的视觉跟踪提供了稳健高效的解决方案。代码和模型可在https://github.com/clbswdb/USACTrack获取。

引言：视觉对象跟踪旨在根据初始状态估计目标在后续视频帧中的位置和大小。它在自动驾驶、智能监控和人机交互等各种计算机视觉应用中发挥着重要作用。尽管深度学习取得了显著进展，但在遮挡、快速运动、背景杂乱和外观变形等复杂环境中实现稳定高效的跟踪仍然是一个挑战。传统跟踪器主要依赖于相关滤波器或孪生网络架构来建立目标模板和搜索区域之间的相似性。基于相关滤波器的方法（如MOSSE [10] 和 ECO [11]）通过频域相关性实现了高效，但在面对剧烈外观变化时表示能力有限。基于孪生网络的方法（如SiamFC [12] 和 SiamRPN++ [13]）引入了深度卷积神经网络（CNNs）来提取具有区分性的目标特征并进行交叉相关匹配。这些方法显著提高了跟踪精度和鲁棒性，但受到局部感受野的限制，且无法建模全局上下文或长期时间依赖性。基于转器的跟踪器的出现通过利用全局注意力机制和模板与搜索特征的统一建模，在视觉跟踪领域带来了重大突破。TransT [14] 和 STARK [15] 首次将Transformer架构引入跟踪，改进了全局依赖性建模和目标定位。后续的单流设计（如MixFormer [16]、OSTrack [17] 和 SimTrack [18]）进一步在单一架构中统一了特征提取和关系建模，简化了流程并增强了模板与搜索标记之间的交互。GRM [19] 提出了一种通用的关系建模方法，动态划分搜索标记以防止背景干扰破坏模板特征。AQATrack [20] 提出了一种自回归查询聚合机制，以保持时间一致性和在遮挡和运动模糊下的鲁棒性。同时，MIMTrack [21] 将跟踪任务重新构建为掩码图像建模过程，利用生成预训练模式在统一像素空间预测目标状态。LMTrack [22] 是一个基于单流的标记框架，学习了高质量的参考标记以实现高效的特征交互和跟踪稳定性。除了标记学习外，还探索了动态标记剪枝机制来减少统一架构中的计算冗余；例如，DyTrack [23] 自动配置推理路径以过滤信息较少的标记，实现了高效跟踪而不牺牲精度。最近的研究进一步强调了对时间建模和记忆机制的研究，以实现长期稳定性。ARTrack [24] 引入了自回归运动查询以增强轨迹连续性。HIPTrack [25] 利用历史提示结合先前的外观和运动线索来提高鲁棒性。SSTrack [26] 探索了自我监督的时间一致性学习以减少对标注数据的依赖，而EVPTrack [27] 采用显式视觉提示来提高多尺度时间交互效率。此外，ODTrack [28] 将跟踪重新构建为在线标记传播过程，以捕获密集的帧间依赖性而无需冗余的模板更新。为了进一步缓解标准自注意力在长期时间建模中的二次计算瓶颈，最近在跟踪社区引入了状态空间模型（SSMs）。例如，MambaVLT [29] 利用时间演变的多模态状态空间进行鲁棒的视觉语言跟踪，而SMTrack [30] 引入了状态感知的Mamba以线性复杂性捕获多样化的时间线索。尽管有这些进展，现有跟踪器仍面临三个关键限制：（1）生成的视觉标记通常未能完全捕获细粒度空间线索；（2）跨帧的时间上下文建模往往过于浅薄且不对齐；（3）密集的时间传播引入了不必要的计算开销和背景噪声。至关重要的是，这三个限制不是孤立的问题，而是在复杂跟踪场景中形成了一系列连锁故障。当跟踪器遇到视觉上相似的干扰物时，缺乏细粒度空间细节（问题1）会引发初始定位偏移。为了恢复这种偏移，模型必须依赖历史时间线索。然而，如果时间建模过于浅薄或不对齐（问题2），模型会从模糊的历史帧中累积跟踪错误，从而导致特定的失败情况，如长时间遮挡期间的不可逆身份（ID）切换。为了对抗这种时间不稳定性，最近的方法尝试密集传播所有过去的历史标记。然而，这种简单的改进引入了一个严重的困境（问题3）：从数量上看，它将计算复杂性爆发到O(N^2)；从质量上看，它将大量背景噪声注入内存队列，淹没了精确的目标状态。因此，现有方法无法通过简单的、渐进的改进来解决这些问题。例如，仅添加高分辨率CNN分支会破坏统一的单流架构，而使用简单的滑动窗口内存无法解决保持长期依赖性和防止O(N^2)复杂性爆炸之间的根本冲突。因此，必须同时解决这些相互关联的问题。这需要一个范式的转变：一个能够动态提取具有区分性的空间线索、对齐时间上下文并选择性地过滤传播噪声的统一框架。为了解决这些相互关联的问题，我们提出了USACTrack，一种统一时空自适应上下文跟踪框架，它在统一架构中集成了细粒度空间表示、时间连贯性和选择性上下文传播。具体来说，自适应嵌入模块通过自适应池化和方向感知的特征交互来提高视觉标记的质量，从而获得更具区分性的空间表示。时间上下文聚合器细化历史上下文标记，以保持时间一致性和稳定外观转换。此外，基于状态空间对偶性的时空选择性传播器选择性跨帧传播上下文信息，有效减少冗余性同时保留关键的时间依赖性。通过将这些模块集成到一个端到端框架中，USACTrack有效地统一了空间和时间建模，实现了在不同且具有挑战性的场景中的一致性和适应性跟踪。如图1所示，USACTrack在性能和效率之间实现了平衡，与最新的最先进跟踪器相比，保持了高精度，并显著减少了参数数量和计算成本。在包括LaSOT、LaSOText、GOT-10k、TrackingNet、VastTrack、TNL2K、UAV123和OTB100在内的八个公共基准测试上的广泛实验显示了该跟踪器的稳健性、效率和泛化能力。本文的主要贡献总结如下：
- 我们提出了一个统一的时空自适应上下文跟踪框架，它在单一端到端设计中共同建模了细粒度空间特征、时间连贯性和选择性上下文传播。
- 我们设计了一个自适应嵌入模块，通过自适应池化和方向感知的特征交互来提高视觉标记的质量，从而实现更具区分性的空间表示。
- 我们引入了时间上下文聚合器和时空选择性传播器，以在保持计算效率的同时有效捕获长期依赖性。
- 在八个基准测试上的综合实验表明，USACTrack在多样且具有挑战性的跟踪场景中实现了准确、稳定和高效的性能。

相关工作：视觉对象跟踪旨在根据初始位置连续地在视频序列中定位目标。它经历了两代主要方法的发展：传统跟踪器[35][36][37]和基于Transformer的跟踪器[26][38][39][40][41]。本节回顾了这两类中的代表性工作，并讨论了它们在处理复杂跟踪场景时的局限性。

方法：本节提供了所提出的USACTrack框架的详细描述。我们首先概述了整体架构，然后详细解释了三个核心模块——自适应嵌入（AE）、时间上下文聚合器（TCA）和时空选择性传播器（STSP）。最后，我们介绍了训练和推理流程。所提出的USACTrack的整体框架如图2所示。给定一个初始模板图像Z∈R^H×W^z×3和一个搜索…

实施细节：所提出的算法在Ubuntu 18.04.6 LTS上实现，配备Intel Xeon Silver 4310 CPU（2.10 GHz）和两个NVIDIA GeForce RTX 4090 GPU进行训练和测试。深度学习框架是PyTorch 1.12.1，使用CUDA 12.1和Python 3.10。我们采用OSTrack [17]的单流流程作为基线框架。为了增强细粒度空间细节的表示，我们用分层HiViT-B [88]替换了原始的ViT骨干。

结论：本文提出了USACTrack，这是一个统一的时空自适应上下文跟踪框架，它在单一端到端设计中共同建模了细粒度空间表示、时间连贯性和选择性上下文传播。首先，AE模块通过集成多分支特征提取和自适应池化来提高视觉标记的区分性，使模型能够捕获细粒度空间线索并更好地区分目标与复杂背景。

作者贡献声明：贾贤新：撰写——审查与编辑、撰写——原始草稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、形式分析、数据整理、概念化。侯志强：监督、资金获取。马素刚：监督、资金获取。普雷：监督、资金获取。

利益冲突声明：作者声明没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢：作者感谢国家自然科学基金（资助编号62072370）、陕西省自然科学基金（资助编号2023-JC-YB-598）、陕西省自然科学基础研究计划（资助编号2024JC-YBQN-0664）、中国博士后科学基金（资助编号2024M754276）以及匿名审稿人的宝贵评论和建议。贾贤新于2023年获得中国沈阳理工大学硕士学位，目前正在西安邮电大学通信与信息工程学院及人工智能学院攻读信息与通信工程博士学位。他的当前研究兴趣包括计算机视觉和视觉跟踪。

联系信箱：

粤ICP备09063491号

热点排行