RAP-SORT：适用于复杂场景的高级多目标跟踪技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：RAP-SORT: Advanced Multi-Object Tracking for complex scenarios

【字体：大中小】 时间：2026年01月24日 来源：Displays 3.4

编辑推荐：

　　多目标跟踪框架RAP-SORT通过引入轨迹置信建模、虚拟轨迹恢复、融合高度深度信息的IoU计算及窗口去噪模块，有效提升高密度场景下遮挡与非线性运动的跟踪精度，在DanceTrack和MOT20上HOTA分别达66.7和64.2。

张书明|朱宇航|孙彦辉|刘卫勇|黄张进

中国科学技术大学计算机科学与技术学院，合肥，230026，中国

摘要

多目标跟踪（MOT）旨在跨帧检测和关联对象，同时保持对象ID的一致性。虽然一些方法结合了强线索和弱线索以及相机补偿来提高关联精度，但在对象密度高或运动非线性的场景中仍存在困难。为了解决这些问题，我们提出了RAP-SORT这一新的MOT框架，该框架引入了四项关键创新。首先，鲁棒轨迹置信模型（RTCM）模块通过平滑更新和对低置信度情况应用二阶差分调整来建模轨迹置信度。其次，先进观测中心恢复（AOCR）模块通过线性插值和回溯来辅助轨迹恢复。第三，伪深度IoU（PDIoU）度量将高度和深度线索整合到IoU计算中，以增强空间感知能力。最后，窗口去噪（WD）模块专为DanceTrack数据集设计，有效减少了由于误检测而产生的新轨迹。RAP-SORT在DanceTrack和MOT20基准测试中取得了新的最佳成绩，HOTA分数分别为66.7和64.2，分别比之前的最佳成绩提高了1.0和0.3，并在MOT17上也表现出竞争力。代码和模型将很快在https://github.com/levi5611/RAP-SORT上发布。

引言

多目标跟踪（MOT）在自动驾驶、视频监控和智能交通等领域至关重要[1]。主要的跟踪范式是检测驱动跟踪（TBD）[2]、[3]、[4]、[5]、[6]，它包括两个核心步骤：检测和关联。在检测阶段，每个帧中的对象被识别出来；而在关联阶段，将检测到的对象与上一帧中的对应对象连接起来。匹配的对象保留原始ID，新检测到的对象则被赋予新的ID。位置和外观等强线索显著提高了关联精度。然而，在拥挤的环境中，严重的遮挡、大的对象运动和相似的外观常常会降低跟踪性能。

最近的研究提出了各种策略来应对这些挑战。例如，OC-SORT[6]重新审视了SORT[2]中的运动模型，指出了三个主要限制：对噪声的敏感性、随时间累积的误差以及过度依赖线性状态估计。它通过三个模块解决了这些问题：优化卡尔曼滤波器状态、重新识别被遮挡的对象，并将IoU成本与角度一致性成本相结合，以提高抗遮挡能力。此外，Hybrid-SORT通过利用速度方向、置信度分数和高度状态等弱线索来补充强线索，进一步提升了性能。尽管它利用了弱线索来补充强线索，但仍有很大的潜力可以进一步探索弱线索及其与强线索的结合。

其他工作也结合了外观特征来提高跟踪性能。Deep OC-SORT[7]引入了一个动态外观模型，根据检测器的置信度调整指数移动平均（EMA）权重，并根据特征的可区分性动态平衡目标与检测之间的相似性分数。虽然基于外观的跟踪器利用ReID网络[3]、[8]提高了准确性，但通常会带来计算开销增加，从而降低跟踪速度。此外，在实际拍摄过程中，如MOT17中的相机位移也会带来重大挑战。UCMCTrack[9]通过统一的相机运动补偿模块解决了这个问题，该模块采用统一参数而不是逐帧调整[10]、[11]、[12]，减少了相机运动引起的误差。然而，这种方法增加了算法复杂性，导致在线执行速度变慢。

此外，最近的一些通用视觉模型在特征表示和空间建模方面表现出强大的能力。例如，DeepLab[13]、[14]利用多尺度上下文聚合进行准确的语义分割，EfficientNet[15]、[16]使用复合缩放进行高效且强大的图像特征提取。虽然这些模型在一般视觉任务中表现出色，但RAP-SORT专注于利用伪深度和轨迹置信度等弱线索，以提高在拥挤和遮挡场景中的关联鲁棒性，从而补充了这些方法。

通过对数据集的详细分析，我们观察到行人跟踪场景（如MOT17和MOT20）通常涉及最小的检测框变形，简化了关联过程。相比之下，舞蹈场景（如DanceTrack）则表现出显著的框变形和不规则运动，使得关联变得更加困难。本文强调关联过程本身，同时保持相同的检测质量。同时，我们旨在有效结合强线索和弱线索，同时保持实时的在线跟踪能力。

因此，我们引入了一个新的RTCM模块，该模块基于检测可靠性采用两种方法来建模轨迹置信度。在正常条件或轻微遮挡下，我们使用卡尔曼滤波器[17]（连续状态估计的理想模型）和指数平滑来估计轨迹置信度。然而，当发生遮挡时，卡尔曼滤波器难以快速捕捉置信度的突然变化。为此，我们使用一阶和二阶差分来更好地建模这些变化，并在遮挡期间改进置信度估计。接下来，我们提出了一个受OC-SORT[6]中的OCR算法启发的AOCR模块，但增强了其鲁棒性。该模块通过线性插值生成虚拟轨迹并通过回溯创建虚拟框，帮助解决帧间间隙造成的距离问题。然后，我们引入了一个创新的PDIoU度量，将高度和深度——两个稳定且信息丰富的线索——整合到IoU计算中，从而提高空间感知和跟踪精度。这里的深度是“伪深度”，因为我们使用相对深度来反映遮挡关系，而不是依赖实际深度信息。鉴于DanceTrack中的大规模非线性运动和复杂动作，传统跟踪方法往往难以保持准确性。为了解决这个问题，我们开发了一个WD模块，有效减少了由于频繁遮挡和异常动作引起的误检测。通过结合先验知识，该模块有效地去除了检测结果中的错误，抑制了错误的ID生成和轨迹，同时显著提高了IDF1分数。

为了改进Simple, Online and Real-Time（SORT）[2]框架的性能，我们提出了RAP-SORT，这是一种基于SORT的新方法，并整合了上述组件。图1展示了我们的方法与其他流行方法的视觉比较。我们的贡献总结如下：

•
我们设计了RTCM模块，能够有效处理高和低检测置信度水平，利用置信度作为鲁棒的弱线索。此外，我们引入了PDIoU度量，将高度和深度信息整合到IoU计算中，减少了拥挤场景中的ID切换。
•
AOCR模块通过线性插值和回溯生成虚拟轨迹，确保在长时间遮挡期间的鲁棒跟踪。通过WD模块，我们有效过滤了由于误检测引起的错误新轨迹，特别是在DanceTrack上提高了丢失关联的恢复能力。
•
我们在MOT17、MOT20和DanceTrack数据集上进行了广泛实验，在DanceTrack和MOT20上取得了最佳性能，HOTA分数分别为66.7和64.2，并在MOT17上也展示了有竞争力的结果。这些结果验证了RAP-SORT在在线和实时方式下提升了跟踪性能。

概述

在本节中，我们提出了RAP-SORT，它通过四个关键组件扩展了SORT[2]框架：鲁棒轨迹置信模型（RTCM）、先进观测中心恢复（AOCR）、伪深度IoU（PDIoU）和窗口去噪（WD）。后续章节将详细讨论这些组件。RAP-SORT使用卡尔曼滤波器进行运动估计，使用ReID模块进行外观建模，并使用匈牙利算法进行轨迹匹配。

实验

结论

在本文中，我们展示了有效利用置信度、高度和深度等弱线索可以减轻仅依赖强线索时固有的空间和外观歧义，从而在涉及高人群密度、严重遮挡和不规则运动的复杂场景中提高跟踪性能。我们提出了RAP-SORT，这是一种简单、在线且实时的跟踪方法，无需额外训练，并通过启发式规则增强跟踪器的关联能力

作者贡献声明

张书明：概念化、方法论、软件、验证、写作——原始草稿。朱宇航：方法论、形式分析、可视化、写作——原始草稿。孙彦辉：概念化、数据管理、调查。刘卫勇：资源支持、监督。黄张进：监督、写作——审阅和编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了安徽省重大科技项目（编号202203a05020016）、浙江省“先锋”和“领头雁”研发计划（编号2023C01143）以及国家重点研发计划（编号2022YFB3303400和2021YFF0500900）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

概述

实验

结论

作者贡献声明

利益冲突声明

致谢

热点排行