MDATrack：一种适用于动态运动建模和数据关联的强大多行人跟踪系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：MDATrack: A Robust Multi-Pedestrian Tracker for Dynamic Motion Modeling and Data Association

【字体：大中小】 时间：2026年05月10日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　郝亚玲 | 吴伟内蒙古大学，呼和浩特，010021，中国摘要多目标跟踪仍然是一项具有挑战性的任务，原因包括目标遮挡、非线性运动模式和拥挤场景动态。为了解决这些限制，我们提出了MDATrack——一个强大的多行人跟踪框架，它结合了动态运动建模和自适应数据关联。我

　　郝亚玲 | 吴伟
内蒙古大学，呼和浩特，010021，中国

摘要
多目标跟踪仍然是一项具有挑战性的任务，原因包括目标遮挡、非线性运动模式和拥挤场景动态。为了解决这些限制，我们提出了MDATrack——一个强大的多行人跟踪框架，它结合了动态运动建模和自适应数据关联。我们的方法引入了一个时空上下文感知运动建模（STC-MM）模块，该模块可以根据环境人群密度和遮挡持续时间动态调整噪声参数。这一创新有效地减少了误差积累和轨迹漂移，同时通过时间衰减机制保持了目标身份的一致性。为了优化目标关联，我们开发了动态上下文注意力匹配（DCAM）机制。该组件结合了检测与预测之间的时空相似度测量以及跨帧的上下文关系。通过采用尺度归一化策略来实现对遮挡敏感的匹配标准，DCAM在具有挑战性的场景中实现了稳健的目标对应。此外，还提出了平滑时空关联网络（SSTAN）和混合核高斯插值技术（HKGI）来处理轨迹破碎和检测遗漏问题。在MOT17和MOT20基准测试上的实验结果表明，MDATrack在MOTA（MOT17上为81.5，MOT20上为78.8）、IDF1（MOT17上为79.7，MOT20上为77.9）和HOTA（MOT17上为65.4，MOT20上为64.1）指标上取得了先进性能。与强大的基线算法ByteTrack相比，MDATrack在MOT17上将MOTA提高了1.2%，在MOT20上提高了1.0%，突显了其在复杂跟踪场景中的稳健性和有效性。

引言
多目标跟踪（MOT）是计算机视觉系统的基本能力，旨在保持视频序列中多个目标的一致身份关联。这项技术支持从智能监控系统（Betke, Haritaoglu, & Davis (2000) 到自主导航（Luo, Kim, Stenger, Zhao, & Cipolla (2014); Spampinato et al. (2012)）等关键应用；可靠的轨迹估计直接影响操作安全和决策准确性。基于检测的跟踪（TBD）范式（Sheng, Zhang, Chen, Xiong, & Zhang (2018); Sun, Chen, Chao, Ruan, & Mukherjee (2020b); Zhou, Ouyang, Cheng, Wang, & Li (2018)）已成为主导框架，利用了对象检测、运动建模和数据关联的顺序过程。尽管取得了进展，但在高密度场景中——特别是在非线性运动模式、长时间遮挡和相机不稳定性下——现有方法仍然存在显著限制。这些限制不仅制约了理论进展，还对人群管理和车辆感知系统等安全关键应用构成了重大风险。

当前的多目标跟踪系统面临两个主要约束：
(1) 流行的卡尔曼滤波器（KF）框架（Kalman (1960); Zhang et al. (2022）假设线性运动动态，导致在非线性位移和遮挡事件期间误差累积——这是近期研究中的一个关键未解决的问题（Wojke, Bewley, & Paulus (2017a); Zhou, Koltun, & Kr?henbühl (2020)）；
(2) 传统的数据关联指标，如交并比（IoU）（Huang et al. (2023); Stone (2000)），对尺度变化和部分遮挡存在固有的敏感性，这在基准测试评估中表现得尤为明显（Aharon, Orfaig, & Bobrovsky (2022); Cao, Pang, Weng, Khirodkar, & Kitani (2023)）。

为了弥合这些差距，我们提出了MDATrack——一个将动态运动建模与自适应数据关联相结合的新跟踪框架。与将运动预测和目标匹配视为独立优化的现有解决方案不同（Du et al. (2021); Peng et al. (2020），我们的方法建立了一个整合了时空约束和环境上下文的综合优化空间，在MOT17和MOT20挑战中的主要多目标跟踪指标上超越了领先的跟踪器（图1）。

理论动机源于三个未解决的挑战：首先，基于KF的模型中的静态噪声假设对于动态拥挤环境来说是不够的，需要自适应噪声调节机制。其次，固定权重的关联指标无法考虑遮挡严重性和空间密度的上下文变化。第三，现有的后处理技术（Pang, Li, Zhang, Li, & Lu (2020); Zhang et al. (2022) 在恢复被遮挡和非线性运动轨迹时表现出计算效率低下。实际上，这些限制在监控系统中表现为身份切换和轨迹破碎，凸显了对稳健解决方案的迫切需求。我们的工作解决了四个关键研究空白：
(1) 以往的研究（Sheng et al. (2018); Sun et al. (2020b）忽略了环境密度与运动不确定性建模之间的相互依赖性；
(2) 现有的关联方法（Huang et al. (2023); Stone (2000）使用对上下文变化不敏感的静态相似度指标；
(3) OC-SORT（Cao et al. (2023）引入了一种以观测为中心的重新更新机制来减轻目标丢失期间的误差积累。虽然OC-SORT在遮挡场景中提高了跟踪的稳健性，但它没有明确建模环境密度变化或考虑群体运动约束；
(4) 传统的插值技术（Du et al. (2021); Zhang et al. (2022）和关联方法（Du et al. (2021); Peng et al. (2020); Yang, Chang, Sakti, Wu, & Nakamura (2021）在检测-关联间隙期间过度简化了运动动力学和时空信息。

为此，MDATrack框架引入了时空上下文感知运动建模（STC-MM）与动态噪声适应。STC-MM结合了基于局部环境密度和遮挡持续时间的动态噪声调整机制。通过扩展状态空间表示以整合环境密度因素和遮挡时间记忆，它动态调整过程和测量噪声矩阵，解决了高密度场景中的误差累积和长时间遮挡期间的轨迹发散问题。同时，群体运动模式约束和时间衰减机制确保了预测准确性和身份一致性。对于数据关联，MDATrack设计了动态上下文注意力匹配（DCAM）机制。DCAM采用动态注意力机制和多尺度归一化策略。具体来说，它通过结合检测与预测之间的时空相似度、跨帧的上下文关联以及尺度不变距离来自适应地调整匹配权重，克服了传统基于IoU的方法在处理尺度变化和密集场景时的局限性。

当前的多目标跟踪任务面临两个主要挑战：关联丢失和检测丢失。为了解决这些问题，我们提出了两种后处理技术。首先，为了解决由严重遮挡或检测错误引起的轨迹中断，我们引入了平滑时空关联网络（SSTAN）。该方法仅使用时空信息预测两条轨迹是否属于同一目标，结合了短期卷积响应和长期依赖性来重新连接破碎的轨迹。与传统的全球关联方法（Du et al. (2021); Peng et al. (2020); Yang et al. (2021）不同，SSTAN不依赖于计算密集型的外观模型，显著降低了计算开销。其次，为了缓解检测丢失，我们提出了混合核高斯插值（HKGI）。传统的线性插值方法（Du et al. (2021); Pang et al. (2020); Zhang et al. (2022）在插值过程中经常忽略运动信息，导致准确性有限。相比之下，HKGI采用混合核高斯过程回归模型来捕捉遮挡和非线性运动场景下的复杂运动模式，保留了关键的运动信息，同时过滤检测噪声以进行精确和稳定的轨迹估计。

本文的主要贡献如下：
• 提出了MDATrack：一个将动态运动建模与自适应数据关联相结合的强大多行人跟踪框架。MDATrack可以无缝集成到现有的检测框架中，并在多目标跟踪基准测试中表现出色，显著提高了在遮挡和非线性运动场景中的跟踪稳健性；
• 设计了时空上下文感知运动建模（STC-MM）：与使用固定噪声参数的传统卡尔曼滤波器不同，STC-MM根据局部密度和遮挡持续时间动态调整过程和测量噪声。它引入了速度一致性约束，使个体运动与群体运动对齐，减少了由运动差异引起的身份切换；
• 引入了动态上下文注意力匹配（DCAM）：DCAM用可学习的注意力机制替换了静态IoU，根据场景上下文自适应地加权空间、运动和外观特征。它将跨帧的上下文信息与基于深度网络的注意力相结合，提高了在遮挡、尺度变化和拥挤场景中的关联稳健性；
• 开发了轻量级即插即用技术：为了解决检测和关联丢失问题，我们提出了两种轻量级技术：混合核高斯插值（HKGI）和平滑时空关联网络（SSTAN）。这些方法可以无缝集成到现有跟踪框架中，计算开销极小，显著提升了跟踪性能。

部分摘录
多目标跟踪（MOT）是计算机视觉中的一个基本任务，从早期的基于滤波器的技术（如卡尔曼滤波（Kalman (1960); McGee, Schmidt, & Smith (1962）和粒子滤波（Gustafsson et al. (2002））发展到利用深度学习和变换器架构的现代方法。虽然卡尔曼滤波和粒子滤波在线性观测模型下提供了最优的状态估计，但它们计算成本较高。

整体架构
MDATrack采用了一种检测-跟踪范式，旨在增强涉及目标遮挡和非线性运动场景中的跟踪性能。如图2和图3所示，该框架通过协作多模块架构实现了稳健跟踪：首先使用YOLOX检测器生成带有置信分数的边界框；在轨迹预测过程中，时空上下文感知运动建模（STC-MM）模块预测当前帧中的目标位置。

数据集
MOT17数据集包含具有中等人群密度的多样化场景，而MOT20专为高遮挡的极端拥挤场景设计。因此，MOT20更具挑战性，可以测试跟踪器在密集环境中的稳健性。我们在“私有检测”协议下评估了MDATrack方法在MOT17（Dendorfer et al. (2021)）和MOT20（Dendorfer et al. (2020）数据集上的性能。MOT17数据集包含7个训练序列，总计5,316个样本。

联系信箱：

粤ICP备09063491号

热点排行