视频异常检测(VAD)[1]旨在识别和定位视频流中的异常事件。这项任务在智能城市系统[2]、安全监控[3]和自动驾驶[4]等实际应用中具有广泛的前景。然而,构建具有精确时间标注的大规模异常事件数据集既费时又费力。因此,异常检测通常被构建为一个半监督学习问题,其中模型仅学习正常模式,并将任何偏差视为异常[5]。尽管这种范式避免了详尽标注的需要,但当前模型的有限表示能力可能导致许多以前未见但无害的行为被错误分类为异常,从而提高了误报率。
最近,弱监督视频异常检测(WSVAD)受到了相当多的关注[6],[7]。这种范式仅依赖于视频级的二进制标签,将每个视频标记为“正常”或“异常”,从而消除了对异常边界的逐帧标注需求。与完全无监督的方法相比,它利用了粗略的先验知识来限制搜索空间,从而降低了误报率[8]。同时,通过免除昂贵的帧级标签,它还减轻了强监督技术的标注负担,实现了标注成本和检测精度之间的有利平衡。
尽管弱监督视频异常检测非常实用,但由于它仅依赖于缺乏精确时间戳的视频级标签,其在准确的时间定位和可靠的异常区分方面的能力仍然有限。此外,异常事件的多样性和复杂性,以及异常中的行为混合,对时空定位和语义区分提出了重大挑战。例如,抢劫、枪击和爆炸具有明显不同的视觉外观和运动模式。相比之下,打斗和拥抱具有类似的低级线索,如近距离的身体接触,但表现出完全不同的高级语义。
为了从标记较少的异常视频中挖掘监督信号,许多方法采用某些异常标准,如特征幅度[6],[9]或注意力机制[10],来选择得分最高的top-k个潜在异常片段。这种“固定配额”策略隐含地假设每个视频中的异常比例是相似的。我们将异常比率定义为视频中所有片段中异常片段的比例。当这个比率在不同视频之间有很大差异时,固定的top-k选择会引入偏见:它可能会忽略异常比率高的视频中的关键片段,并在异常比率低的视频中引入噪声片段,从而削弱监督信号并加剧时间定位错误。
为了进一步提高异常时空定位和区分的鲁棒性,最近的方法[11]专注于构建正常行为的紧凑流形,并引入额外的约束以实现判别性表示学习。吴等人引入了一个弱监督时空异常检测(WSSTAD)框架,该框架使用双分支网络来建模异常定位的时空关系[12]。同时,其他研究[13]结合了运动和音频等多模态信息来增强视频特征的鲁棒性。尽管取得了这些进展,但由于缺乏对“什么”和“哪里”的显式语义建模,特征空间中的类间分离不足,导致特征混淆和边界不稳定,从而增加了误报率和误分类率。
因此,在视频异常检测中,精确描述异常事件的细粒度特征并在视频级监督下提取判别性表示仍然是一个基本挑战。这一挑战主要源于两个方面:(i)时间证据挖掘通常由一个僵化的固定top-k启发式方法执行,该方法对视频之间未知且变化较大的异常比率敏感,因此容易受到噪声或不完整伪标签的影响;(ii)当模型不明确推理异常是什么以及它出现在哪里时,语义和空间模糊性持续存在,导致类间可分性有限和预测不稳定。为了解决这个问题,我们提出了显式知识结构化弱监督视频异常检测(EKS-WSVAD),这是一种新颖的弱监督框架。该框架包括两个互补的模块,共同回答异常发生的时间、内容和位置问题,从而提高检测精度和可靠性。图1展示了这三个方面。首先,为了定位异常的时间位置(何时),我们开发了一种统计自适应的批量片段挖掘机制,从大量未标记的片段中动态选择最具代表性的异常片段,从而减轻时间定位错误和噪声。其次,为了确定异常是什么以及它出现在哪里,我们通过基于Kullback-Leibler(KL)散度的跨模态对齐损失,在双流架构中融合了互补的动态-静态线索。这种策略减轻了异常片段内的模态模糊性,并在嵌入空间中增强了类间可分性。这三个方面的联合推理实现了精确的异常检测,并在仅视频级监督下提供了定性可解释性。
据我们所知,EKS-WSVAD是第一个在片段级别显式同步视频片段、图像和语言线索的弱监督VAD框架。相比之下,以前的方法[14]利用预训练的视觉-语言模型,通常会附加额外的并行分支,将数据集中的每个片段重新编码为辅助嵌入,这增加了参数数量并减慢了推理速度。除了这种三模态对齐之外,自适应异常片段挖掘(AASM)还提供了一个对异常密度变化较大的视频具有鲁棒性的分布感知选择器,这是以前的自适应挖掘器所没有解决的。
EKS-WSVAD框架提高了模型理解异常事件的能力,并且具有高度的可扩展性,能够在多样和复杂的真实世界场景中部署。总体而言,这项工作做出了三个主要贡献。首先,我们提出了一种统计自适应的批量片段挖掘机制,取代了传统的固定top-k选择,显著提高了异常的时间定位(何时)。其次,我们设计了一种双流动态-静态架构,利用跨模态提示注入显式的空间(哪里)和分类(什么)先验,实现了对异常的细粒度理解。最后,我们使用EKS-WSVAD取得了最先进的性能,在UCF-Crime数据集上的AUC达到了86.76%,在XD-Violence数据集上的AP达到了85.30%,均超过了现有方法。
本文的其余部分组织如下。第2节回顾了有关无监督和弱监督视频异常检测以及视频理解的提示学习的相关工作。第3节介绍了提出的EKS-WSVAD框架,包括整体架构和关键组件,然后是训练和推理过程。第4节报告了在基准数据集上的实验结果,并提供了消融研究和分析,以验证每个组件的有效性。最后,我们总结了本文并讨论了局限性和未来方向。