《Neurocomputing》:SCOPE-diff: A spatiotemporal comprehensive perception diffusion framework for video anomaly detection
作者:蔡佳蒂 | 赵旭迅 | 刘艳 | 钟婷 | 周帆
中国电子科技大学信息与软件工程学院,成都,610054,四川,中国
摘要
现有的基于扩散的视频异常检测方法主要关注多模态生成或多样性建模,但在完全感知时间和空间维度上的异常线索方面往往存在不足。在这项工作中,我们致力于确保广泛的建模覆盖范围,同时明确增强对时间动态和空间粒度的感知。为此,我们提出了SCOPE-Diff,一个时空综合感知扩散框架,它在保持扩散模型生成优势的同时,系统地增强了两个维度上的异常检测能力。具体来说,我们引入了双粒度全时感知范式(DOPP),以实现双向时间推理和多密度时间建模;以及全局-局部协同感知模块(GLSPM),以共同捕捉整体身体结构和细粒度的关节级偏差。通过将这些组件集成到一个统一的扩散框架中,SCOPE-Diff实现了更完整和深入的时空异常感知。在四个基准数据集上的广泛实验证明了其有效性和鲁棒性。
引言
视频异常检测(VAD)是计算机视觉中的一个关键任务,旨在识别偏离正常模式的事件或行为[30]、[39]、[45]、[51]。计算能力的快速进步显著推动了基于深度学习的方法在这一任务中的发展。VAD在公共安全领域具有广泛的应用,能够对潜在威胁(如网络入侵和暴力事件)进行早期预警,从而提高安全性[36]、[37]、[46]。
由于现实世界场景中异常样本的稀缺性,VAD通常被构建为单类分类(OCC)任务,模型仅基于正常数据进行训练以学习规律的时空模式。根据异常定位的粒度,VAD方法可以大致分为视频级、片段级和帧级范式。帧级VAD为单个帧分配异常分数,能够实现细粒度的时间定位,因此特别适用于监控和早期预警应用;因此,本研究重点关注帧级检测。现有的帧级VAD方法主要遵循两种范式:基于分类的方法和基于重建的方法。然而,常见的重建模型(如自编码器[8])往往能够很好地重建正常和异常帧,导致异常区分能力有限,这促使人们转向预测建模。
因此,最近的研究越来越多地采用预测和基于扩散的框架来建模正常运动模式。尽管这些方法显著提高了建模覆盖范围和生成灵活性,但它们在异常感知方面仍面临根本性限制。
具体来说,现有方法通常面临以下挑战:
1)有限的时空覆盖范围:现有方法通常只建模单一模态或有限的时空线索[20]、[33],导致对多样化的运动模式和空间依赖性的覆盖不足。因此,它们难以全面表示现实世界场景中遇到的复杂和异构的时空动态。
2)有限的时间推理:大多数现有方法依赖于单向时间预测,仅关注正向动态而忽略反向推理[10]、[53],而未来的观测可以为解释过去的运动提供有价值的上下文。此外,它们通常假设时间结构是均匀和连续的,忽略了对于准确异常建模至关重要的时间密度变化。
3)有限的空间粒度:大多数现有方法[10]、[21]、[32]主要关注全局异常感知,将人体视为一个整体实体,而没有明确建模细粒度的局部结构(例如身体部位或关节)。然而,这些局部空间线索通常包含精确识别微妙和局部异常的关键信息。不同模型在这三个方面的关注点在表1中进行了总结。
对于第一个挑战,现有方法专注于单一的时空模态,限制了它们捕捉多样化正常行为的能力。最近的研究[10]、[22]采用了扩散模型来进行未来帧的预测。受其启发,我们采用了一个基于骨架的扩散框架来更有效地建模人体运动语义。
为了解决第二个挑战,我们提出了一个双粒度全时感知范式(DOPP),它能够在两个时间方向上进行互补的生成。与传统的单向预测不同,我们的基于扩散的框架对过去和未来的序列进行相互去噪,促进了双向时间信息的交换。此外,在训练过程中,我们在连续帧提取的基础上进一步引入了跨间隔帧采样策略,增强了模型对时间密度和尺度的感知。
为了解决第三个挑战,我们提出了一个全局-局部协同感知模块(GLSPM),以明确增强模型对局部关节模式的敏感性。在获得视频帧的潜在表示后,完整的人体姿态被层次化地划分为解剖区域,包括头部、四肢和躯干。然后在全局姿态和局部关节级别计算异常分数。通过这种双粒度设计,GLSPM共同建模了整体身体结构和细粒度的关节偏差,实现了更全面的空间异常感知。
基于以上内容,我们提出了一个全面的异常检测框架。
所提出方法的概述如图1所示。我们的主要贡献总结如下:
•我们提出了一个时空综合感知扩散框架(SCOPE-Diff),它从全局和局部角度联合且解耦地感知视频序列的关键特征,从而提高了检测性能。
•我们提出了一个双粒度全时感知范式(DOPP),它在扩散框架内进行双向去噪,以实现过去和未来序列之间的信息交换。
•我们提出了一个全局-局部协同感知模块(GLSPM),它共同建模了整体身体结构和细粒度的关节交互,从而增强了空间表示并提高了模型对局部异常的敏感性。
•在多个基准数据集上的广泛实验证明了SCOPE-Diff在视频异常检测任务中的有效性和准确性。
本文的其余部分组织如下。第2节回顾了VAD和扩散模型的相关工作。第3节详细介绍了我们提出的方法。第4节提出了广泛的定量和定性实验来验证我们方法的有效性。第5节进一步讨论了我们的方法与几种最先进方法之间的差异。第6节分析了SCOPE-Diff的局限性和失败案例。最后,第7节总结了本文的结论和未来研究的潜在方向。本文中使用的缩写列表在表2(图2)中进行了总结。
部分摘录
视频异常检测
视频异常检测(VAD)旨在识别偏离正常或预期模式的事件,由于其在监控和公共安全领域的广泛应用[30]、[39]、[45]、[51],因此受到了越来越多的关注。早期的VAD方法通常遵循两阶段范式,首先基于领域专业知识提取手工制作的特征,然后使用统计或基于规则的模型进行异常判断。然而,这种手工制作的表示往往缺乏鲁棒性
方法论
我们提出了一个基于扩散的VAD框架SCOPE-Diff,它充分利用时空信息来准确区分正常和异常事件。第3.1节介绍了去噪扩散概率模型(DDPMs)的基本概念。第3.2节详细介绍了我们方法的训练过程,包括提出的DOPP和GLSPM模块。第3.3节描述了推理阶段的采样过程。
数据集
在本文中,我们使用了UBnormal数据集[4],该数据集使用Cinema4D软件从2D自然图像中合成了29个场景。每个场景包含19个视频片段,其中包含正常和异常事件。遵循开放集原则,数据集被划分为训练集、验证集和测试集,这些集合之间的异常类型是互斥的。根据单类分类(OCC)设置,训练集仅包含正常行为样本。此外,我们
与基于扩散的方法的比较
如表4所示,最近的基于扩散的方法通过利用正常运动模式的生成建模,在基于骨架的视频异常检测方面展示了有希望的结果。这种范式特别适合基于骨架的异常检测,它自然遵循单类或少量样本设置,其中异常样本稀缺,建模正常运动模式至关重要。
MoCoDAD将异常检测构建为未来姿态生成任务,并进行测量
推理效率:
SCOPE-Diff依赖于具有双向时间预测的迭代扩散过程,这比基于单次预测的方法具有更高的推理成本。这种开销主要来自多步去噪和使用重叠的时间窗口,其中每个帧被多次评估。在这种设置下,处理HR-Avenue测试集(超过15,000帧)在单个NVIDIA RTX 4090 GPU上大约需要16分钟。虽然不是实时的,但SCOPE-Diff的目标是
结论和未来工作
本文提出了SCOPE-Diff,一个用于基于骨架的视频异常检测的时空扩散框架。与之前依赖于单向时间预测的重建或基于轨迹的方法不同,SCOPE-Diff采用了一种综合感知范式来共同建模时间动态和空间运动模式。
具体来说,提出的双粒度全时感知范式(DOPP)能够在多个时间密度下实现双向时间推理
CRediT作者贡献声明
蔡佳蒂:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论,概念化。赵旭迅:验证,方法论,调查。刘艳:可视化,验证,数据 curation。钟婷:监督,资金获取,数据 curation。周帆:监督,资源,资金获取。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
蔡佳蒂(第一作者)目前是中国电子科技大学(UESTC)的软件工程博士候选人。他的研究兴趣包括计算机视觉、扩散模型和医疗AI。