通过抑制特征学习来防范针对多目标跟踪系统的隐形后门攻击

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Towards Invisible Backdoor Attacks on Multi-Object Tracking via Suppressed Feature Learning

【字体：大中小】 时间：2026年02月11日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对多目标跟踪（MOT）模型提出了一种仅污染数据集的后门攻击方法，通过构建多尺度特征图抑制损失和跨帧运动分析选择被污染帧，使触发对象无法被跟踪。实验验证了攻击的有效性和对抗常见防御的鲁棒性。

张一朗|郎波

北京航空航天大学复杂与关键软件环境国家重点实验室，北京，100191，中国

摘要

在当前的实践中，训练高效的多目标跟踪（MOT）模型通常需要收集大规模的第三方数据集。然而，直接使用这些未经验证的数据集会引入新的安全威胁。在本文中，我们揭示了这样的威胁：攻击者只需对数据集的一小部分进行篡改，就可以在MOT跟踪器中植入隐藏的后门。具体来说，我们提出了一种基于特征图抑制的“仅投毒”后门攻击方法，该方法采用样本特定的触发机制，并根据视频帧的多尺度特征图来优化触发条件。此外，我们还引入了一种帧间运动分析方法来选择被投毒的帧。在我们的攻击中，一旦跟踪器被植入后门，带有触发条件的目标对象将逃脱跟踪。在各种设置下的广泛实验表明，我们的攻击显著降低了基于检测的跟踪（Tracking-by-Detection）和联合检测与跟踪（Joint-Detection-and-Tracking）MOT跟踪器的性能。此外，我们还验证了我们的攻击对几种潜在后门防御方法的鲁棒性。代码将在https://github.com/Magic0825/MOT-BA处提供。

引言

随着深度学习技术的不断进步，视频中的多目标跟踪（MOT）已广泛应用于自动驾驶[1]和智能监控[2]等关键领域。MOT的主要任务是在视频流中检测多个对象，并关联不同帧中同一对象的身份。然而，随着MOT应用的日益普及，安全问题也开始显现，尤其是由于其训练过程中依赖于外部资源。例如，为了提高模型的准确性和效率，许多先进的MOT跟踪器[3]、[4]、[5]通常依赖于大量的第三方数据集、预训练模型和深度神经网络的骨干网络。尽管这些外部资源有助于减少训练时间并提高性能，但它们也可能引入潜在的安全风险，特别是当数据集或模型未经过彻底验证时。攻击者可能会利用这些漏洞，通过篡改数据集或修改模型来植入后门，导致MOT跟踪器在特定条件下失效或行为异常。此类后门攻击的主要目标是通过隐蔽的触发条件来操纵模型的行为，从而使跟踪器在关键时刻无法正常运行。

现有的后门攻击[6]、[7]、[8]、[9]已经在视觉对象跟踪（VOT）领域得到了一定程度的研究，但MOT和VOT之间存在显著差异。首先，MOT不仅需要准确跟踪单个对象，还需要在复杂环境中检测和关联多个对象（例如存在遮挡和重叠实例的情况），这使得攻击的实施更具挑战性。在图1中，我们展示了将VOT触发条件直接应用于MOT任务的局限性，并强调了我们提出的触发机制的优势。其次，MOT中的对象通常具有不同的轨迹初始化、终止和身份转换，而VOT主要关注单个对象的连续跟踪。这种差异使得为MOT设计评估攻击模型变得更加困难。因此，尽管VOT中的后门攻击提供了一些启示，但在MOT中实现有效的后门攻击仍然面临许多挑战。这引出了一个重要的问题：在仅投毒的情景下，后门攻击是否会对MOT模型构成威胁？

为了回答这个问题，我们提出了一种针对MOT系统的“仅投毒”后门攻击策略。我们从两个角度详细阐述了我们的攻击设计动机：1）视频帧的多尺度特征图。大多数主流的MOT模型采用基于检测的跟踪（TBD）或联合检测与跟踪（JDT）机制。值得注意的是，这两种机制都需要使用深度网络（例如ResNet [10]）从视频帧中提取对象特征。例如，基于TBD的跟踪器利用提取的特征进行检测以获得对象边界框（例如ByteTrack [3]），而基于JDT的跟踪器则利用这些特征在连续帧之间进行自注意力计算（例如TransTrack [5]）。因此，我们通过构建特征图抑制损失来优化触发条件，从而降低带有触发条件的对象在多尺度特征图中的激活值，从而实现使对象逃脱跟踪的攻击目标。2）选择被投毒的帧。现有的VOT后门攻击[8]通常会投毒连续的或间歇性的帧。然而，由于对象之间的高动态性和复杂交互，这些选择策略在MOT场景中效果较差，简单的帧选择策略不足以覆盖所有对象的轨迹。为了克服这一限制，我们提出了一种帧间运动分析方法来选择被投毒的帧。主要思想是通过评估每个帧相对于前一个帧的所有对象的轨迹速度、轨迹方向和边界框面积变化来计算得分，然后选择得分较高的帧作为被投毒的帧。此外，为了使触发条件不显眼，我们用微小的对抗性扰动对其进行初始化[11]，并用总变分损失对其进行约束。最后，为了增强攻击对现有防御措施的鲁棒性，我们采用了样本特定的触发机制[12]，确保同一对象在不同帧上的触发条件表现出动态变化。我们攻击与以往方法的区别总结在表1中。

本文的主要贡献如下：

•

我们首次揭示了MOT模型容易受到“仅投毒”后门攻击的影响。攻击者只需对训练数据集的一小部分进行篡改，就可以植入后门。

•

我们提出了一种基于特征图抑制的“仅投毒”后门攻击方法，以及一种帧间运动分析方法来选择被投毒的帧。一旦后门被植入MOT模型，带有触发条件的对象将不再被跟踪。

•

我们将样本特定的触发机制应用于MOT任务，确保触发条件具有多样性和动态性。此外，为了使触发条件不显眼，我们用总变分损失对其进行约束。在各种设置下的广泛实验验证了我们攻击的成功及其对潜在防御措施的鲁棒性。

部分摘录

后门攻击

根据攻击者的能力，现有的后门攻击可以分为两类：1）“仅投毒”攻击，攻击者仅限于篡改训练数据的一小部分，而无法修改模型架构、损失函数或其他相关组件。2）基于模型修改的攻击，攻击者可以控制模型的训练过程。

攻击者的能力

我们参考了BadNets [13]、BadDet [15]和BadTrack [8]等先前的工作来定义我们的威胁模型。我们假设攻击者可以从互联网上获取一小部分干净的训练数据，但没有权限或能力修改模型的训练过程或其他训练组件（例如模型架构和损失函数）。在推理阶段，攻击者可以使用任何视频查询来测试训练好的模型并获取跟踪结果。

实验

在本节中，我们评估了我们攻击的有效性和隐蔽性，以及其对几种现有后门防御措施的抵抗能力。此外，我们还进行了消融研究和t-SNE可视化分析，以证明我们设计的重要性。

讨论

在本节中，我们以ByteTrack跟踪器和MOT17数据集为例，研究了几个关键超参数对所提出攻击的影响，并进一步分析了我们方法的局限性。

结论

在本文中，我们首次提出了针对MOT模型的“仅投毒”后门攻击。与之前预定义和可见的触发条件不同，我们通过构建特征图抑制损失和总变分损失生成了具有特征语义的不可察觉的触发条件，并采用了样本特定的攻击机制。此外，我们还提出了一种帧间运动分析方法来选择被投毒的帧，进一步增强了后门效果。在各种设置下的广泛实验表明……

CRediT作者贡献声明

张一朗：撰写——原始草案、可视化、验证、方法论、调查。郎波：撰写——审阅与编辑、资源整理。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

后门攻击

攻击者的能力

实验

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行