随着监控、医疗保健、自动驾驶和娱乐等领域视频数据的呈指数级增长,对时空信息处理的高效模型需求日益增加。传统的深度学习(DL)架构,如卷积神经网络(CNNs)和循环神经网络(RNNs)在视频分析中取得了显著成就,但它们仍然计算成本高且能耗大。这限制了它们在实时和资源受限环境(如边缘设备)中的应用。即使在高性能计算(HPC)和GPU加速技术的推动下,深度神经网络(DNNs)在能效和适应性方面仍不如生物系统。它们密集的静态计算方式与生物神经元的稀疏、事件驱动和适应性特征形成了鲜明对比(Mehlin等人,2023年;Wang等人,2020b年)。这些挑战促使人们探索替代范式,如神经形态计算和脉冲神经网络(SNNs),后者在模仿大脑高效信息处理的同时,还提升了可扩展性和时间学习能力。
SNNs由Maass(1997年)提出,作为第三代神经网络,解决了人工神经网络(ANNs)和DNNs的关键局限性。它们通过离散的脉冲来处理信息,这些脉冲是二进制的、时间上定位的事件,在SNNs中表示信息(如图1所示),从而实现了与生物神经元高度相似的事件驱动计算。这种基于脉冲的通信方式自然捕捉到了时间动态,使得SNNs特别适合视频分析和时间依赖型任务(Chen等人,2020年)。一个脉冲神经元会整合传入的信号,直到其膜电位超过阈值,触发一个脉冲,影响连接的神经元——这一过程被称为“整合-发射”机制。这种操作支持低延迟和节能的计算,同时固有地编码了时间信息。
在传统的ANNs中,连续值的输入或基于帧的像素强度通过加权求和和静态激活函数进行处理,产生瞬时输出,缺乏内在的时间建模。相比之下,SNNs处理的是时间编码的脉冲输入,神经元将传入的脉冲整合成随时间变化的膜电位,并在达到发射阈值时发出输出脉冲。因此,信息由离散的、带有时间戳的事件表示,而不是连续的激活值。
这种脉冲动态使得SNNs具有状态性、事件驱动性和时间精确性,使其天然适合时间依赖型的视频分析。与将视频视为独立帧序列处理的ANNs不同,SNNs直接通过脉冲时序和神经元动态来建模时间信息。视频数据可以通过基于事件的视觉传感器获得,或者使用基于速率或时间的编码方案将基于帧的视频转换为脉冲序列。这种表示方式使SNNs能够高效捕获时空模式,同时支持节能和生物学上合理的计算。
在实践中,基于脉冲的表示是通过多种机制获得的。基于事件的传感器(如动态视觉传感器DVS)会根据像素强度的变化异步生成脉冲,自然产生事件驱动的视频流。对于传统视频,编码方法(如速率编码、时间编码或延迟编码)将像素强度或特征激活映射到脉冲时序或发射频率上。这些表示方式突出了运动和时间相关性,同时抑制了冗余的静态信息。在SNN内部,神经元利用泄漏膜动态随时间整合传入的脉冲,从而在帧间保持短期时间上下文。当累积的电位超过阈值时,会生成并异步传播输出脉冲。这种事件驱动的处理方式实现了低延迟和高效计算,同时固有地编码了时间信息。
最近开发的神经形态硬件平台(如Intel Loihi(Davies等人,2018年)、IBM TrueNorth(Haessig等人,2018年)、NeuroGrid(Benjamin等人,2014年)和SpiNNaker(Furber等人,2014年)提高了SNNs的实际可行性。这些平台实现了视频分析的实时事件驱动计算,与传统架构相比显著降低了功耗。
由于SNNs的时间处理能力和能效优势,它们在各种与视频相关的任务中显示出巨大潜力,包括对象检测与跟踪、动作识别、异常检测和自动驾驶(Zhang等人,2024年)。它们的异步操作确保神经元仅在受到足够刺激时才发射脉冲(Pfeiffer和Pfeil,2018年),从而能够高效处理稀疏输入数据。此外,输入的泄漏整合提供了内在的时间记忆,使SNNs比传统DNNs更有效地建模动态视觉模式,后者缺乏神经元级别的时间表示。这些特性使SNNs成为下一代神经形态视频智能系统的有希望的基础。
鉴于实时时空数据处理中对节能模型的需求,本文探讨了脉冲神经网络在视频分析任务中的应用,如对象检测、跟踪、分割、活动识别和异常检测。传统的深度学习模型(如CNN、RNN和Transformer)在计算效率和适应性方面往往存在不足,尤其是在资源受限的环境中。SNNs凭借其异步处理和基于脉冲的计算方式提供了有希望的替代方案。本文回顾了最新的算法、架构和应用,强调了SNNs在视频分析中的潜力。主要贡献包括:
- •
我们全面调查了基于SNN的视频分析方法,系统地分类了现有模型、训练方法和架构设计。该研究总结了最新的发展,并指出了神经形态视频分析中的新兴研究趋势。
- •
我们研究了SNNs在关键视频分析任务中的应用,包括对象检测、动作识别和异常检测,强调了它们在能效、鲁棒性和可扩展性方面的优势。
- •
我们提出了SpikeActNet,这是一个基于SNN的动作识别框架,以展示SNNs在视频理解中的实际有效性。与C3D、I3D和ResNet等传统CNN架构的实验评估表明,SNNs具有竞争力的性能和强大的实际应用潜力。
- •
我们概述了SNN驱动视频分析中的开放性挑战和未来研究方向,包括混合SNN-Transformer架构、可扩展的学习框架以及用于分布式视频处理的联邦SNN训练。这些见解旨在为未来的神经形态计算发展提供指导和启示。
本文的其余部分安排如下:第2节概述了SNN中神经元动态的背景。第3节深入探讨了为视频分析设计的SNN模型和架构。第4节讨论了训练SNN模型时遇到的挑战,并探索了各种优化技术。第5节详细介绍了用于动作识别的SpikeActNet模型。第6节展示了实验分析和关键发现,并进行了深入讨论。第7节强调了SNN在视频分析中的新兴趋势和未来研究方向。第8节总结了本文的贡献和意义。