《ACM Transactions on Multimedia Computing, Communications, and Applications》:A New Semi-Supervised Video Anomaly Detection Baseline in Lack of Anomalous Samples
【字体:
大中小
】
时间:2026年03月04日来源:ACM Transactions on Multimedia Computing, Communications, and Applications
视频异常检测(VAD)因其在该领域的广泛应用而受到广泛研究。最近,提出了许多基于弱监督的学习方法(WS-VAD),这些方法倾向于将 VAD 视为分类任务,并通过多实例学习来进行处理,这需要收集足够的异常类别和样本来训练分类器。然而,在实际应用中,异常事件往往是开放集且稀少的,因此我们经常难以收集到所有异常类别和足够的异常样本,这对 WS-VAD 来说是一个挑战。为此,我们考虑将 VAD 视为一种分布外检测任务,而非分类任务,并提出了一种简单但有效的半监督基线方法。首先,我们利用大型视觉语言模型的强大零样本能力为视频生成摘要文本描述,并提取视觉特征作为后续处理的中间结果。接下来,我们使用文本编码器提取语言特征,并将其与视觉特征结合,以获得鲁棒的多模态特征。最后,我们引入了一种分布外检测方法,该方法从正常样本和未标记样本中学习多模态空间的“正常中心”,并将异常样本从该中心偏离,以应对异常样本的稀缺性。为了实现我们的基线方法,我们还通过重新组织现有的基准数据集提供了一个新的半监督数据集,这是 VAD 领域中首个提供包含完整异常事件的修剪视频的数据集。实验表明,当收集到的异常类别和样本较少时,我们的方法表现更为稳健。