HyPCV-Former:一种用于三维点云视频异常检测的双曲时空变换器
《ADVANCED ENGINEERING INFORMATICS》:HyPCV-Former: Hyperbolic spatio-temporal transformer for 3D point cloud video anomaly detection
【字体:
大
中
小
】
时间:2026年03月06日
来源:ADVANCED ENGINEERING INFORMATICS 9.9
编辑推荐:
基于双曲时空Transformer的3D点云视频异常检测方法HyPCV-Former通过Lorentzian空间建模提升事件层次结构和时空连续性捕捉能力,直接在双曲空间完成特征变换与异常评分,显著优于传统方法,在TIMo和DAD数据集上实现最佳性能。
曹家平|周康康|杜娟
香港科技大学(广州),中国广州,511453
摘要
视频异常检测是视频监控中的基本任务,在公共安全和智能监控系统中有着广泛的应用。尽管以往的方法利用了RGB或深度域中的欧几里得表示,但这种嵌入在捕捉层次事件结构和时空连续性方面存在固有的局限性。为了解决这些局限性,我们提出了HyPCV-Former,这是一种用于3D点云视频异常检测的新型双曲时空变换器。我们的方法首先通过点云提取器从点云序列中提取每帧的空间特征,然后将它们嵌入到洛伦兹双曲空间中,这能够更好地捕捉事件的潜在层次结构。为了建模时间动态,我们引入了一种双曲多头自注意力(HMHA)机制,该机制利用洛伦兹内积和曲率感知的softmax来在非欧几里得几何下学习时间依赖性。所有特征转换和异常评分都在完整的洛伦兹空间内直接进行。广泛的实验表明,HyPCV-Former在多个异常类别上实现了最先进的性能,在TIMo数据集上提高了7%,在DAD数据集上提高了5.6%。
引言
视频异常检测(VAD),通常也称为视频暴力检测,是视频监控中的基本任务,旨在识别偏离预期模式的异常事件[1]。视频监控中的典型场景级异常包括街头斗殴、超市抢劫以及火车上无人看管的行李[2]、[3]。此外,人群聚集或人们朝同一方向奔跑可能表明与应急管理相关的潜在异常[4]。为了解决这个问题,当前的方法通常依赖于RGB图像[5]、[6],这些图像提供了丰富的语义信息。这些方法在欧几里得空间中提取每帧的特征,并预测每一帧是否对应于异常事件。
与图像中常见的异常不同,视频中的暴力或异常事件很难从单帧中检测出来,因为这些帧往往缺乏明显的几何缺陷或颜色不规则性。因此,视频异常检测需要分析一系列帧,这些帧共同描绘了异常发生前、发生中和发生后的层次结构,如图1(a)所示。然而,基于RGB图像的异常检测往往对光照条件敏感,并且缺乏聚合的缺陷特征。为了利用准确的3D空间信息而不是传统的2D数据,一些方法使用人体姿态估计[7]、[8]或距离图像[9]、[10],如图1(b)和(c)所示。尽管如此,姿态估计方法通常是从2D图像间接重建3D坐标,而用于异常检测任务的距离图像计算量较大,不适合分析复杂的空间结构[11]。相比之下,3D点云本质上是无结构且无序的,由分布在物体表面的离散点组成。
3D点云视频,也称为3D点云流,由连续的3D点云帧组成[12]。据我们所知,3D点云视频中的异常检测尚未得到广泛探索。值得注意的是,一些现有研究[13]直接使用3D点云来分析人体动态和检测异常,但它们仅在欧几里得空间中学习点表示,从而忽略了正常帧和异常帧之间距离的指数级增长。双曲空间在表示层次或树结构方面特别有效,因为其节点数量与树深度之间存在指数关系,这与欧几里得空间的多项式关系形成对比。现有研究已将双曲表示学习应用于视频异常检测任务[1]、[14]。例如,HyperVD[14]使用双曲图卷积网络(HGCN)在双曲空间中捕获特征相似性和时间关系,而DSRL[1]结合了欧几里得和双曲表示来提高异常检测性能。然而,HyperVD[14]和DSRL[1]都在切线空间而不是直接在双曲空间中执行关键操作,如线性变换、邻居聚合、丢弃和非线性激活。正如先前的工作[15]所讨论的,这种基于切线空间的设计通常需要频繁的对数和指数映射,这可能会增加计算开销并导致累积的数值误差。这一观察激发了最近朝着完全双曲操作的努力的方向。
为了解决上述缺点和挑战,我们提出了一种基于双曲时空变换器的新型3D点云视频异常检测方法,简称HyPCV-Former。我们使用3D点云模态来有效捕捉几何特征[13],并引入双曲空间来区分正常和异常事件,特别是在监控视频中难以区分的暴力事件[1]、[14]。为了更好地学习帧序列中的时间依赖性,我们设计了双曲多头自注意力(HMHA)机制。此外,为了有效管理不规则和无序的前景点,我们首先使用专为距离图像设计的一种运动检测方法[16]进行背景去除。洛伦兹内在距离被用作异常评分,确保所有计算都在双曲空间内完成。我们的主要贡献可以总结如下:
- •
我们提出了一种用于3D点云视频的双曲时空变换器,它放大了正常和异常实例之间的分离,从而增强了异常区分能力。
- •
我们引入了一种完全在洛伦兹空间中运行的HMHA机制,用于建模帧级动态并增强异常预测的时空表示。
- •
据我们所知,HyPCV-Former是第一个利用双曲几何进行3D点云视频异常检测的方法,在暴力事件检测方面实现了最先进的性能。
本文的其余部分组织如下:第2节回顾相关文献。第3节描述双曲几何的基本信息。第4节详细介绍我们提出的方法。第5节展示实验评估,第6节总结本文。
节选
3D点云分析
3D点云数据因其出色的准确性和在各种不利情况下的鲁棒性而受到了很多关注[17]。一些先前的工作首先将点云转换为八叉树[18]或哈希体素列表[19],以应对3D点云的无结构挑战。其他研究使用基于点的深度架构来学习单个点的表示,例如PointNet[20]和PointNet++[21]。此外,还有一些
问题定义
点云视频异常检测旨在识别3D点云帧序列中的空间和时间维度上的异常事件。形式上,点云视频表示为序列,其中第帧包含个点,每个点由其3D坐标。每一帧都有其标签,可用于监督异常评分的训练。在我们的研究中,根据不同的
方法
在本节中,我们介绍了HyPCV-Former的总体框架,用于3D点云视频中的异常检测,如图2所示。我们的方法包括两个阶段:(1)HyPCV-Former编码器,(2)异常检测。编码器中有两个操作,包括双曲表示学习和双曲时空变换。在整体编码器模块之前,我们首先将距离图像投影到3D点云中,然后去除背景点,因为异常
数据集
我们在两个专为3D视频异常检测设计的公共数据集上评估我们的方法:TIMo [44]和DAD [10]。目前,还没有专门用于3D点云视频异常检测的数据集。为了解决这一限制,我们通过反投影将深度视频数据集转换为3D点云,并据此评估我们的方法。所有用于比较的基线方法最初都是为深度视频异常检测设计的,因为目前没有公开可用的方法
结论
在本文中,我们提出了HyPCV-Former,这是一种基于双曲时空变换器的新型框架,用于3D点云视频中的异常检测。我们的方法首先使用基于点的网络提取每帧的特征,然后将它们投影到洛伦兹双曲空间中,利用点云序列丰富的时空结构
CRediT作者贡献声明
曹家平:撰写——原始草稿,可视化,验证,软件,方法论,调查,形式分析,数据整理,概念化。周康康:可视化,验证,软件,概念化。杜娟:撰写——审稿与编辑,监督,资源管理,项目协调,资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
这项工作部分得到了国家自然科学基金(项目编号:72371219)、广东省项目(项目编号:2024TQ08A432)和广州市科技项目(项目编号:2025A04J5288)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号