基于注意力驱动的伪标签自训练方法，用于弱监督视频异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Attention-Driven Pseudo-Label Self-Training for Weakly Supervised Video Anomaly Detection

【字体：大中小】 时间：2026年03月03日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对弱监督视频异常检测中伪标签生成与自训练的局限性，提出同步双分支框架，通过自注意力与跨注意力分离正常/异常片段，结合均值-方差去噪策略生成高质量伪标签，并设计多尺度时间特征交互模块增强片段区分度，实现伪标签生成与模型训练的协同优化。

杨志伟|刘静|庞冠松|吴鹏|吴朝阳

中国广东省广州市510555，广州工业大学，西安电子科技大学

摘要

近期，基于生成伪标签的两阶段自训练方法在弱监督视频异常检测（WSVAD）领域取得了显著进展。然而，生成的伪标签往往存在不完整和噪声问题，这限制了性能的提升。为了实现更好的伪标签生成和自训练效果，我们受到人类注意力机制的启发，提出了一种新颖的双分支框架，用于同步进行伪标签生成和自训练。第一个分支引入了基于自注意力机制和交叉注意力机制的视频片段分离与融合（VSSF）模块。随后，视频分类模块对融合后的视频特征表示进行分类，从而进一步增强了异常片段与正常片段之间的区分度。在此基础上，我们设计了一个基于注意力机制的伪标签生成（PLG）模块，并配备了去噪策略。该模块在紧凑性-分离损失和分布差异损失的指导下，从分离过程中推断出准确且全面的片段级伪标签。在第二个分支中，我们设计了一个多尺度时间特征交互学习模块，以捕捉视频片段之间的丰富时间依赖关系，从而提高它们的区分能力。然后，第二个分支同步接收来自第一个分支的最新伪标签，用于片段分类器的学习，从而减少噪声片段的影响，提高自训练性能。在三个基准数据集上的广泛实验表明，我们的方法始终优于现有的两阶段和多阶段自训练框架，并且与最近的一阶段方法相比具有竞争力或更优的性能，突显了我们提出框架的有效性。我们的代码可在以下链接获取：https://github.com/Beyond-Zw/ADPLG-VAD

引言

从视频监控数据中自动检测异常事件对于确保公共安全和工业安全至关重要。因此，视频异常检测（VAD）已成为计算机视觉领域的一个热门研究课题。VAD的主要目的是自动识别视频中偏离正常模式的事件或行为。

迄今为止，已经提出了许多方法[1]、[2]、[3]来解决VAD任务。其中，弱监督视频异常检测（WSVAD）[4]、[5]、[6]因其仅依赖于视频级标签而受到越来越多的关注，从而避免了繁琐的帧级注释需求。例如，Sultani等人[4]首次提出了一个用于WSVAD的深度多实例学习（MIL）排名模型。此后，基于此模型开发了许多方法[7]、[8]，并且性能不断提高。然而，由于缺乏片段级标签，基于MIL的框架只能关注异常最明显的少数几个片段，可能导致异常评分不准确和不完整。

为了解决这些问题，引入了基于生成伪标签进行自训练的两阶段方法[9]、[10]、[11]。这些方法通常在第一阶段使用分类器或MIL框架生成伪标签，然后在第二阶段使用这些伪标签训练片段分类器。尽管当前的两阶段自训练方法表现出有希望的性能，但仍存在两个主要限制，阻碍了进一步的发展。首先，最初生成的伪标签不完整且噪声水平较高。尽管最先进的两阶段方法CU-Net[10]在第一阶段使用了多个分类器来检测多个异常片段，但这仍然无法准确覆盖所有可能的异常片段，因为分类器的数量是固定的。其次，伪标签的去噪不够彻底。CU-Net[10]将伪标签生成和片段分类器学习分为两个独立阶段，伪标签去噪主要依赖于第二阶段的采样选择。这并没有完全解决伪标签噪声问题，且方法的性能容易受到第一阶段结果的影响。这些两阶段方法将伪标签生成和自训练视为两个独立且分离的阶段，限制了它们逐步优化伪标签和提高整体训练性能的能力。相比之下，实现两个阶段之间的协作机制，即同步伪标签生成与自训练，代表了一个有前景但尚未充分探索的范式，有望克服这些限制。

在这项工作中，我们提出了一种新颖的双分支框架，用于同步伪标签生成和自训练。与现有的先生成伪标签再固定用于后续训练的两阶段流程不同，我们的框架执行同步的伪标签生成和自训练。在两阶段方案中，生成的标签中的早期噪声会不断累积，导致错误传播和误报过拟合。相比之下，同步机制使伪标签能够随着模型信度的提高而演变，从而在每次迭代中纠正噪声预测，减少误差累积。为了进一步稳定这一过程，我们提出了一种基于均值-方差统计的去噪策略，该策略能够自适应地过滤不可靠的片段，成为我们框架的关键去噪机制。

为了开发基于这种同步双分支框架中生成的伪标签的自训练异常检测方法的潜力，我们需要关注的关键问题是：如何生成完整且无噪声的伪标签？显然，未裁剪的异常视频既包含异常片段也包含正常片段，而正常视频完全由正常片段组成，可以直接获得无噪声的片段级标签。因此，我们的主要目标是尽可能准确地识别异常视频中的异常片段和正常片段，然后为它们分配二进制标签。

基于人类注意力机制，我们可以有意识地分别关注未裁剪异常视频中的异常片段和正常片段，以便将它们分离出来，如图1所示。受此过程的启发，我们设计了一个用于同步伪标签生成和自训练的注意力驱动双分支框架，如图2所示。第一个分支通过细粒度的视频分类间接推断伪标签，将异常视频中的正常片段和异常片段分离出来。第二个分支在第一个分支生成的伪标签的监督下，同步进行视频片段分类的自训练。具体来说，在第一个分支中，我们提出了一种基于自注意力机制和交叉注意力机制的视频片段分离与融合（VSSF）模块。随后，视频分类模块对融合后的视频特征表示进行分类，进一步增强异常片段与正常片段之间的区分度。在此基础上，我们设计了一个基于注意力机制的伪标签生成（PLG）模块，该模块采用均值-方差统计的去噪策略从视频片段分离过程中生成高质量的伪标签。为了确保注意力权重与真实的片段标签分布更好地对齐，我们引入了两个损失函数：紧凑性-分离（CS）损失和分布差异（DD）损失。这些损失函数的组合指导VSSF模块有效分离异常片段和正常片段，从而生成更完整、噪声更少的伪标签。

在第二个分支中，我们利用第一个分支生成的片段伪标签来训练片段分类器。由于视频包含丰富且复杂的时间关系，这些关系对于视频片段分类至关重要。因此，我们设计了一个多尺度时间特征交互学习（MS-TFIL）模块，以学习片段之间的更全面的时间依赖关系，进一步提高片段特征的区分能力。然后，第二个分支同步接收来自第一个分支的最新伪标签，以指导片段分类器的训练，从而减少噪声片段的影响，提高自训练性能。广泛的实验表明，我们的框架在三个基准数据集上表现出一致且具有竞争力的性能，明显优于之前的两阶段和多阶段自训练方法，并且在XD-Violence数据集上的性能可与最佳的一阶段方法相媲美。

总结来说，我们的贡献如下：

•

VSSF模块（表5 ①）：我们提出了一种基于自注意力和交叉注意力的VSSF模块，有效分离异常片段和正常片段，为可靠的伪标签推断奠定基础。

•

PLG去噪（图4）（b）：我们设计了一个基于注意力机制的PLG模块，并配备了基于均值-方差的去噪策略，显著提高了伪标签的准确性和完整性。

•

MS-TFIL模块（表5 ② ③）：我们开发了一个MS-TFIL模块，以捕捉片段之间的多尺度时间依赖关系，提高片段区分能力。

•

同步训练（表5 ④）：我们提出了一种双分支框架，用于同步伪标签生成和自训练，有效减少累积噪声传播。

本文的其余部分组织如下：第2节回顾了VAD的相关工作。第3节介绍了我们的VAD方法。第4节给出了在基准数据集上的实验结果。最后，第5节给出了我们的结论。

方法

在本节中，我们介绍了所提出的方法，详细介绍了整体架构和各个组件及其执行过程。

数据集和评估指标

我们在三个基准数据集UCF-Crime [4]、XD-Violence [34] 和 ShanghaiTech [35] 上进行实验，以评估该方法的性能。

UCF-Crime 数据集总时长为128小时，包含1,900个未裁剪的视频，其中1,610个是带有视频级标签的训练视频，290个是带有帧级标签的测试视频。UCF-Crime涵盖了13种真实的异常事件，包括虐待、逮捕、纵火、袭击、事故、入室盗窃、爆炸、斗殴、抢劫、枪击等。

结论

在这项工作中，我们专注于提高两阶段WSVAD范式中伪标签生成的质量和自训练性能。为此，我们提出了一种具有同步伪标签生成和自训练的新型双分支WSVAD框架。在第一个分支中，我们引入了VSSF模块，该模块利用人类注意力机制有效分离视频中的异常片段和正常片段。结合更细粒度的视频分类任务，

CRediT作者贡献声明

杨志伟：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，软件，资源，项目管理，方法论，调查，形式分析，数据管理，概念化。刘静：撰写 – 审稿与编辑，撰写 – 原稿，验证，监督，资源获取，项目管理，方法论，概念化。庞冠松：撰写 – 审稿与编辑，撰写 – 原稿，软件，方法论，

CRediT作者贡献声明

杨志伟：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，软件，方法论，调查，形式分析，数据管理，概念化。刘静：撰写 – 审稿与编辑，撰写 – 原稿，监督，资源获取，项目管理，方法论，概念化。庞冠松：撰写 – 审稿与编辑，撰写 – 原稿，验证，方法论，形式分析，概念化。吴鹏：

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62471371）的支持，部分得到了广东省高水平创新研究机构项目（项目编号2021B0909050008）的支持，以及广州市关键研发计划（项目编号202206030003）的支持。

杨志伟于2019年在中国郑州中原工业大学获得通信工程学士学位，目前正在中国广州工业大学攻读博士学位。他的当前研究兴趣包括计算机视觉、深度学习、视频理解和视频异常检测。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

数据集和评估指标

结论

CRediT作者贡献声明

CRediT作者贡献声明

利益冲突声明

致谢

热点排行