基于外观相似性引导的非最大值抑制（NMS）的多目标跟踪混合自注意力网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Visual Communication and Image Representation》：Mixed self-attention network for multi-object tracking with appearance similarity-guided NMS

【字体：大中小】 时间：2026年03月23日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　多目标跟踪算法通过混合自注意力网络（MSAN）联合学习检测与重识别任务的空间和通道特征，缓解特征冲突，并采用基于外观相似性的非极大值抑制（ASG-NMS）减少遮挡漏检，实验表明在MOT16/MOT17/MOT20数据集上性能优异。

刘志刚|冯涛|刘新阳|张新昌

东北大学计算机与通信工程学院，秦皇岛 066004，中国

摘要

联合检测与嵌入（JDE）方法由于高效性和有效性而得到了快速发展。然而，检测任务与重新识别任务之间的冲突成为了进一步提升性能的障碍。为了解决这个问题，我们设计了一个混合自注意力网络（MSAN），该网络从空间和通道两个角度联合学习检测和重新识别所需的特征，从而更好地增强每个任务的特征语义表达能力，并有效缓解特征冲突。此外，我们还提出了一种基于外观相似性的非最大值抑制算法（ASG-NMS），该算法在非最大值抑制过程中考虑了外观相似性，有效减少了遮挡情况下对象被错误过滤的情况。最后，我们在公开数据集MOT16、MOT17和MOT20上进行了全面实验，验证了所提算法的有效性。

引言

多目标跟踪（MOT）已成为一个热门的研究课题，在自动驾驶、视频监控、行人跟踪等领域有广泛的应用。得益于物体检测技术的进步，大多数多行人跟踪器采用了基于检测的跟踪（DBT）范式，可以分为单独检测与嵌入[1]、[2]、[3]、[4]、[5]、联合检测与嵌入（JDE）[6]、[7]、[8]以及联合检测与跟踪[9]、[10]。

JDE模型将外观特征提取整合到一个统一的网络中，使主干网络能够同时执行检测和重新识别（ReID）任务，显著提高了推理速度。然而，由于这两种任务的需求不同，共享主干网络会导致特征冲突问题[7]。Zhou [11] 提出了一种基于通道的解耦模块，该模块首先通过全局平均池化和全局最大池化沿特征通道维度计算全局上下文向量，然后使用自适应通道选择来解耦原始特征。Yang [12] 设计了一个与任务相关的注意力网络，利用自注意力关注特征通道中的任务特定特征。Liang [7] 引入了一个互惠网络，计算特征通道之间的自相关和交叉相关权重，以促使每个分支更好地学习任务依赖的表示。然而，这些方法主要关注两种任务所需的通道信息的差异，忽略了这些任务的感兴趣区域在空间维度上也存在差异。具体来说，对于检测分支，目标是区分行人与背景并定位它们，这需要关注行人的边缘；而对于ReID分支，则需要区分不同的行人，这需要关注显著的局部区域（例如面部和服装）。

为了解决上述问题，我们提出了一种多行人跟踪算法MATrack。首先，我们设计了一个混合自注意力网络（MSAN），它不仅考虑了两个子任务在特征表示上的不同关注点，还考虑了它们在空间区域上的差异。具体来说，我们首先设计了混合自注意力模块，然后使用该模块构建混合自注意力网络，将共享特征分为两个任务驱动的分支，并从每个分支的通道和空间维度联合学习任务相关特征。MSAN可以利用自注意力机制计算任何通道或空间特征之间的相互依赖性，捕捉通道和空间域中的长距离依赖性。对于检测分支，具有空间相似性的语义特征相互增强，提高了类别内的紧凑性和语义一致性，从而能够更全面地描述同一个个体。对于ReID分支，行人与周围区域之间的对比信息可以提高外观特征的区分能力，提高匹配精度。此外，我们还提出了一种基于外观相似性的非最大值抑制算法（ASG-NMS），以减少遗漏的检测结果，并增加遮挡场景中匹配被遮挡对象的机会。除了使用交并比（IOU）来抑制冗余候选框外，我们还结合外观相似性来确定重叠的候选框是否对应于同一个行人。

总结来说，本文的主要贡献如下：

(1)
我们设计了一个混合自注意力网络（MSAN），分别从空间和通道域学习与检测和ReID任务相关的特征，有效缓解了两种任务之间的特征冲突。
(2)
我们提出了一种基于外观相似性的非最大值抑制（ASG-NMS）方法，有效减少了遮挡情况下的遗漏检测。
(3)
通过结合MSAN和ASG-NMS，形成了我们的跟踪器MATrack。我们在MOT16、MOT17和MOT20等数据集上进行了广泛实验，结果表明MATrack与其他算法相比具有很强的竞争力。

本文的结构如下：第2节回顾了文献中的相关工作。第3节介绍了我们提出的方法。第4节提供了实验结果和分析。第5节总结了本文。

提出的MATrack方法

所提出的MATrack的整体框架如图1所示。首先，颈部金字塔网络整合了从主干网络提取的深度特征和浅层特征，输出共享特征

F_{i} |_{i = 1, 2, 3} \in R^{C H W}

在三个尺度（大、中、小）上学习不同尺度行人的表示。随后，在每个尺度上结合混合自注意力网络（MSAN）将特征解耦为两个任务特定的表示：

数据集和指标

我们在MOT16 [29]、MOT17 [29]和MOT20 [30]数据集上评估了跟踪器的性能。具体来说，MOT16包含14个视频序列，包括7个训练序列和7个测试序列，涵盖了各种场景、视角、相机姿态和天气条件。MOT17包含与MOT16相同的视频序列，但部分视频已重新标注。MOT20包含8个在极其拥挤的场景中捕获的视频序列，包括4个训练序列和4个测试序列

结论

在本文中，我们提出了一种基于联合检测与嵌入（JDE）范式的新型多目标跟踪（MOT）模型MATrack。首先，我们引入了一个混合自注意力网络（MSAN），它从空间和通道两个角度联合学习与检测和ReID任务相关的特征，有效缓解了两种任务之间的特征冲突。其次，我们提出了一种基于外观相似性的非最大值抑制（ASG-NMS）方法，该方法结合了外观相似性

CRediT作者贡献声明

刘志刚：软件、方法论、概念化。冯涛：写作——审阅与编辑、写作——初稿、数据整理。刘新阳：可视化、验证、软件。张新昌：验证、调查。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

本工作得到了国家自然科学基金的资助，项目编号分别为61973069和62306068。

刘志刚分别于2004年和2007年在沈阳的东北大学获得了硕士和博士学位。他目前是东北大学计算机与通信工程学院的教授，研究兴趣包括参数估计、自适应信号处理、计算机视觉和人工智能。

联系信箱：

粤ICP备09063491号

摘要

引言

相关文献片段

相关工作

提出的MATrack方法

数据集和指标

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行