显性知识驱动的、基于结构化弱监督的视频异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：Explicit Knowledge-Structured Weakly Supervised Video Anomaly Detection

【字体：大中小】 时间：2026年03月24日 来源：Digital Signal Processing 3

编辑推荐：

　　针对弱监督视频异常检测中时空定位不精准和语义区分不足的问题，提出EKS-WSVAD框架。通过批统计自适应挖掘策略动态选择高置信度异常片段，结合双流架构实现时空特征与跨模态提示对齐，有效提升异常事件的时间定位精度和语义类别区分度。实验在UCF-Crime和XD-Violence数据集上达到86.76% AUC和85.30% AP，优于现有方法。

陈阳|唐学松|郝匡荣|李玉冰|王志奇

中国上海东华大学数字化纺织与服装技术工程研究中心，教育部，201620

摘要

视频异常检测（VAD）对于智能城市监控和自动驾驶等安全关键应用至关重要。虽然弱监督视频异常检测（WSVAD）通过使用视频级标签降低了标注成本，但许多现有方法依赖于一种僵化的top-k片段选择策略，这可能会引入噪声监督，并忽略推断异常发生时间、位置和语义类别所需的显式先验知识。因此，我们提出了显式知识结构化弱监督视频异常检测（EKS-WSVAD），该方法使用批量统计自适应地挖掘高置信度的异常片段，而不是固定的top-k配额。此外，我们设计了一种双流动态-静态架构，以结合显式多模态知识，对运动线索、语义类别和空间布局进行联合推理。实验表明，EKS-WSVAD在UCF-Crime数据集上的AUC达到了86.76%，在XD-Violence数据集上的AP达到了85.30%，优于大多数现有方法。

引言

视频异常检测（VAD）[1]旨在识别和定位视频流中的异常事件。这项任务在智能城市系统[2]、安全监控[3]和自动驾驶[4]等实际应用中具有广泛的前景。然而，构建具有精确时间标注的大规模异常事件数据集既费时又费力。因此，异常检测通常被构建为一个半监督学习问题，其中模型仅学习正常模式，并将任何偏差视为异常[5]。尽管这种范式避免了详尽标注的需要，但当前模型的有限表示能力可能导致许多以前未见但无害的行为被错误分类为异常，从而提高了误报率。

最近，弱监督视频异常检测（WSVAD）受到了相当多的关注[6]，[7]。这种范式仅依赖于视频级的二进制标签，将每个视频标记为“正常”或“异常”，从而消除了对异常边界的逐帧标注需求。与完全无监督的方法相比，它利用了粗略的先验知识来限制搜索空间，从而降低了误报率[8]。同时，通过免除昂贵的帧级标签，它还减轻了强监督技术的标注负担，实现了标注成本和检测精度之间的有利平衡。

尽管弱监督视频异常检测非常实用，但由于它仅依赖于缺乏精确时间戳的视频级标签，其在准确的时间定位和可靠的异常区分方面的能力仍然有限。此外，异常事件的多样性和复杂性，以及异常中的行为混合，对时空定位和语义区分提出了重大挑战。例如，抢劫、枪击和爆炸具有明显不同的视觉外观和运动模式。相比之下，打斗和拥抱具有类似的低级线索，如近距离的身体接触，但表现出完全不同的高级语义。

为了从标记较少的异常视频中挖掘监督信号，许多方法采用某些异常标准，如特征幅度[6]，[9]或注意力机制[10]，来选择得分最高的top-k个潜在异常片段。这种“固定配额”策略隐含地假设每个视频中的异常比例是相似的。我们将异常比率定义为视频中所有片段中异常片段的比例。当这个比率在不同视频之间有很大差异时，固定的top-k选择会引入偏见：它可能会忽略异常比率高的视频中的关键片段，并在异常比率低的视频中引入噪声片段，从而削弱监督信号并加剧时间定位错误。

为了进一步提高异常时空定位和区分的鲁棒性，最近的方法[11]专注于构建正常行为的紧凑流形，并引入额外的约束以实现判别性表示学习。吴等人引入了一个弱监督时空异常检测（WSSTAD）框架，该框架使用双分支网络来建模异常定位的时空关系[12]。同时，其他研究[13]结合了运动和音频等多模态信息来增强视频特征的鲁棒性。尽管取得了这些进展，但由于缺乏对“什么”和“哪里”的显式语义建模，特征空间中的类间分离不足，导致特征混淆和边界不稳定，从而增加了误报率和误分类率。

因此，在视频异常检测中，精确描述异常事件的细粒度特征并在视频级监督下提取判别性表示仍然是一个基本挑战。这一挑战主要源于两个方面：（i）时间证据挖掘通常由一个僵化的固定top-k启发式方法执行，该方法对视频之间未知且变化较大的异常比率敏感，因此容易受到噪声或不完整伪标签的影响；（ii）当模型不明确推理异常是什么以及它出现在哪里时，语义和空间模糊性持续存在，导致类间可分性有限和预测不稳定。为了解决这个问题，我们提出了显式知识结构化弱监督视频异常检测（EKS-WSVAD），这是一种新颖的弱监督框架。该框架包括两个互补的模块，共同回答异常发生的时间、内容和位置问题，从而提高检测精度和可靠性。图1展示了这三个方面。首先，为了定位异常的时间位置（何时），我们开发了一种统计自适应的批量片段挖掘机制，从大量未标记的片段中动态选择最具代表性的异常片段，从而减轻时间定位错误和噪声。其次，为了确定异常是什么以及它出现在哪里，我们通过基于Kullback-Leibler（KL）散度的跨模态对齐损失，在双流架构中融合了互补的动态-静态线索。这种策略减轻了异常片段内的模态模糊性，并在嵌入空间中增强了类间可分性。这三个方面的联合推理实现了精确的异常检测，并在仅视频级监督下提供了定性可解释性。

据我们所知，EKS-WSVAD是第一个在片段级别显式同步视频片段、图像和语言线索的弱监督VAD框架。相比之下，以前的方法[14]利用预训练的视觉-语言模型，通常会附加额外的并行分支，将数据集中的每个片段重新编码为辅助嵌入，这增加了参数数量并减慢了推理速度。除了这种三模态对齐之外，自适应异常片段挖掘（AASM）还提供了一个对异常密度变化较大的视频具有鲁棒性的分布感知选择器，这是以前的自适应挖掘器所没有解决的。

EKS-WSVAD框架提高了模型理解异常事件的能力，并且具有高度的可扩展性，能够在多样和复杂的真实世界场景中部署。总体而言，这项工作做出了三个主要贡献。首先，我们提出了一种统计自适应的批量片段挖掘机制，取代了传统的固定top-k选择，显著提高了异常的时间定位（何时）。其次，我们设计了一种双流动态-静态架构，利用跨模态提示注入显式的空间（哪里）和分类（什么）先验，实现了对异常的细粒度理解。最后，我们使用EKS-WSVAD取得了最先进的性能，在UCF-Crime数据集上的AUC达到了86.76%，在XD-Violence数据集上的AP达到了85.30%，均超过了现有方法。

本文的其余部分组织如下。第2节回顾了有关无监督和弱监督视频异常检测以及视频理解的提示学习的相关工作。第3节介绍了提出的EKS-WSVAD框架，包括整体架构和关键组件，然后是训练和推理过程。第4节报告了在基准数据集上的实验结果，并提供了消融研究和分析，以验证每个组件的有效性。最后，我们总结了本文并讨论了局限性和未来方向。

章节片段

无监督视频异常检测

由于收集和标注大规模异常视频的难度，无监督视频异常检测（UVAD）[15]在文献中受到了相当多的关注。在训练过程中，UVAD模型只能访问正常视频。因此，它们学习正常模式的分布，并将异常识别为与该分布的偏差。这个过程本质上被视为一个单类分类问题。典型的UVAD方法可以大致分为两类

方法

在本节中，我们介绍了所提出的弱监督视频异常检测方法。我们首先在第III-A节介绍了整体框架。然后详细介绍了EKS-WSVAD的核心组件——双范围距离调制时间注意力（第III-B节）、通过批量统计的自适应异常片段挖掘（第III-C节）和dummyTXdummy-（双流提示对齐（第III-D节）。最后，在第III-E节详细介绍了训练和测试过程。

实验

本节首先介绍数据集、评估指标和实现细节。然后将该方法与最先进的方法进行比较。最后，消融研究量化了每个组件对整体性能的贡献。

结论

在本文中，我们提出了EKS-WSVAD，这是一种显式知识结构化的弱监督视频异常检测框架，它通过批量统计自适应片段挖掘共同建模异常发生的时间，并通过动态-静态双流提示对齐策略建模异常的内容/位置。通过用基于比率意识的批量级自适应标准替换僵化的top-k选择，所提出的挖掘模块减少了标签噪声并提高了时间定位的鲁棒性。

未引用的浮点数

表C1。

作者声明

我们声明本手稿是原创的，之前未发表过，目前也没有被其他地方考虑发表。

我们确认所有列出的作者都已阅读并批准了本手稿，并且没有其他符合作者资格但未列出的人。我们进一步确认手稿中列出的作者顺序得到了所有人的批准。

CRediT作者贡献声明

陈阳：概念化、数据策划、形式分析、调查、方法论、软件、数据策划、可视化、验证、写作——原始草稿、写作——审阅与编辑。唐学松：概念化、资金获取、资源、监督、写作——审阅与编辑。郝匡荣：资源、资金获取。李玉冰：监督、写作——审阅与编辑。王志奇：方法论、调查。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言