综述:用于视频分析的脉冲神经网络:模型与架构的深入研究

【字体: 时间:2026年03月13日 来源:Neural Networks 6.3

编辑推荐:

  本文系统综述了脉冲神经网络(SNN)在视频分析中的应用,提出SpikeActNet模型,实验表明其相比传统CNN模型在能效和实时性上更具优势,为下一代视频智能系统奠定基础。

  
S.K. Sudha | S. Aji
计算机科学系,洛约拉社会科学学院,特里凡得琅,喀拉拉邦,印度

摘要

深度学习(DL)已经彻底改变了各个行业,并不断通过新的架构和概念进行发展。其中,脉冲神经网络(SNNs)作为一种有前景的、节能的、受生物学启发的计算范式脱颖而出,特别是在需要空间和时间特征处理的视频分析任务中。凭借其事件驱动的设计和内在的时间处理能力,SNNs在实现实时、节能的系统方面具有巨大潜力。本文全面回顾了SNN在视频分析领域的最新进展,重点介绍了模型、架构、训练策略以及用于时空数据处理的优化技术。同时,还强调了基准测试、评估指标和新兴趋势,为未来的研究提供了路线图。为了证明SNNs的有效性,我们引入了SpikeActNet这一动作识别模型,并将其性能与传统的CNN模型(如C3D、I3D和ResNet)进行了比较。实验结果验证了SNNs的鲁棒性和泛化能力,使其成为下一代视频分析的有力候选者。我们的发现为基于SNN的视频分析的未来研究和发展奠定了宝贵基础。

引言

随着监控、医疗保健、自动驾驶和娱乐等领域视频数据的呈指数级增长,对时空信息处理的高效模型需求日益增加。传统的深度学习(DL)架构,如卷积神经网络(CNNs)和循环神经网络(RNNs)在视频分析中取得了显著成就,但它们仍然计算成本高且能耗大。这限制了它们在实时和资源受限环境(如边缘设备)中的应用。即使在高性能计算(HPC)和GPU加速技术的推动下,深度神经网络(DNNs)在能效和适应性方面仍不如生物系统。它们密集的静态计算方式与生物神经元的稀疏、事件驱动和适应性特征形成了鲜明对比(Mehlin等人,2023年;Wang等人,2020b年)。这些挑战促使人们探索替代范式,如神经形态计算和脉冲神经网络(SNNs),后者在模仿大脑高效信息处理的同时,还提升了可扩展性和时间学习能力。
SNNs由Maass(1997年)提出,作为第三代神经网络,解决了人工神经网络(ANNs)和DNNs的关键局限性。它们通过离散的脉冲来处理信息,这些脉冲是二进制的、时间上定位的事件,在SNNs中表示信息(如图1所示),从而实现了与生物神经元高度相似的事件驱动计算。这种基于脉冲的通信方式自然捕捉到了时间动态,使得SNNs特别适合视频分析和时间依赖型任务(Chen等人,2020年)。一个脉冲神经元会整合传入的信号,直到其膜电位超过阈值,触发一个脉冲,影响连接的神经元——这一过程被称为“整合-发射”机制。这种操作支持低延迟和节能的计算,同时固有地编码了时间信息。
在传统的ANNs中,连续值的输入或基于帧的像素强度通过加权求和和静态激活函数进行处理,产生瞬时输出,缺乏内在的时间建模。相比之下,SNNs处理的是时间编码的脉冲输入,神经元将传入的脉冲整合成随时间变化的膜电位,并在达到发射阈值时发出输出脉冲。因此,信息由离散的、带有时间戳的事件表示,而不是连续的激活值。
这种脉冲动态使得SNNs具有状态性、事件驱动性和时间精确性,使其天然适合时间依赖型的视频分析。与将视频视为独立帧序列处理的ANNs不同,SNNs直接通过脉冲时序和神经元动态来建模时间信息。视频数据可以通过基于事件的视觉传感器获得,或者使用基于速率或时间的编码方案将基于帧的视频转换为脉冲序列。这种表示方式使SNNs能够高效捕获时空模式,同时支持节能和生物学上合理的计算。
在实践中,基于脉冲的表示是通过多种机制获得的。基于事件的传感器(如动态视觉传感器DVS)会根据像素强度的变化异步生成脉冲,自然产生事件驱动的视频流。对于传统视频,编码方法(如速率编码、时间编码或延迟编码)将像素强度或特征激活映射到脉冲时序或发射频率上。这些表示方式突出了运动和时间相关性,同时抑制了冗余的静态信息。在SNN内部,神经元利用泄漏膜动态随时间整合传入的脉冲,从而在帧间保持短期时间上下文。当累积的电位超过阈值时,会生成并异步传播输出脉冲。这种事件驱动的处理方式实现了低延迟和高效计算,同时固有地编码了时间信息。
最近开发的神经形态硬件平台(如Intel Loihi(Davies等人,2018年)、IBM TrueNorth(Haessig等人,2018年)、NeuroGrid(Benjamin等人,2014年)和SpiNNaker(Furber等人,2014年)提高了SNNs的实际可行性。这些平台实现了视频分析的实时事件驱动计算,与传统架构相比显著降低了功耗。
由于SNNs的时间处理能力和能效优势,它们在各种与视频相关的任务中显示出巨大潜力,包括对象检测与跟踪、动作识别、异常检测和自动驾驶(Zhang等人,2024年)。它们的异步操作确保神经元仅在受到足够刺激时才发射脉冲(Pfeiffer和Pfeil,2018年),从而能够高效处理稀疏输入数据。此外,输入的泄漏整合提供了内在的时间记忆,使SNNs比传统DNNs更有效地建模动态视觉模式,后者缺乏神经元级别的时间表示。这些特性使SNNs成为下一代神经形态视频智能系统的有希望的基础。
鉴于实时时空数据处理中对节能模型的需求,本文探讨了脉冲神经网络在视频分析任务中的应用,如对象检测、跟踪、分割、活动识别和异常检测。传统的深度学习模型(如CNN、RNN和Transformer)在计算效率和适应性方面往往存在不足,尤其是在资源受限的环境中。SNNs凭借其异步处理和基于脉冲的计算方式提供了有希望的替代方案。本文回顾了最新的算法、架构和应用,强调了SNNs在视频分析中的潜力。主要贡献包括:
  1. 我们全面调查了基于SNN的视频分析方法,系统地分类了现有模型、训练方法和架构设计。该研究总结了最新的发展,并指出了神经形态视频分析中的新兴研究趋势。
  2. 我们研究了SNNs在关键视频分析任务中的应用,包括对象检测、动作识别和异常检测,强调了它们在能效、鲁棒性和可扩展性方面的优势。
  3. 我们提出了SpikeActNet,这是一个基于SNN的动作识别框架,以展示SNNs在视频理解中的实际有效性。与C3D、I3D和ResNet等传统CNN架构的实验评估表明,SNNs具有竞争力的性能和强大的实际应用潜力。
  4. 我们概述了SNN驱动视频分析中的开放性挑战和未来研究方向,包括混合SNN-Transformer架构、可扩展的学习框架以及用于分布式视频处理的联邦SNN训练。这些见解旨在为未来的神经形态计算发展提供指导和启示。
本文的其余部分安排如下:第2节概述了SNN中神经元动态的背景。第3节深入探讨了为视频分析设计的SNN模型和架构。第4节讨论了训练SNN模型时遇到的挑战,并探索了各种优化技术。第5节详细介绍了用于动作识别的SpikeActNet模型。第6节展示了实验分析和关键发现,并进行了深入讨论。第7节强调了SNN在视频分析中的新兴趋势和未来研究方向。第8节总结了本文的贡献和意义。

章节片段

神经元动态的背景

脉冲神经网络受到大脑生物过程的启发,使用离散的电脉冲(即脉冲)来编码和处理信息。这种事件驱动的机制使得时空模式的传输更加高效,使SNNs特别适合处理涉及时间动态和空间丰富的视频帧。SNNs的基础在于建模神经元行为和相互作用,这对于需要精确时间模式的任务至关重要。

用于视频分析的SNN模型和架构

已经提出了多种脉冲神经元模型,每种模型都在生物准确性和计算效率之间取得了平衡。选择合适的模型取决于具体的用户需求。本节研究了基于脉冲的神经元模型、网络架构、学习机制以及适应视频数据复杂时空动态的新颖设计,重点关注它们的计算性能和生物学合理性。
SNN框架利用了...

训练挑战和优化技术

由于SNNs的事件驱动特性和脉冲性质,训练SNN模型面临独特挑战。这些挑战源于脉冲事件的非可微分性、深度架构中的梯度消失问题以及大规模视频数据集带来的计算开销。然而,通过新颖的技术和策略,许多这些挑战都可以得到解决,从而实现对象检测、跟踪和活动识别等任务的高效训练和优化。

SpikeActNet用于动作识别

我们提出了SpikeActNet,这是一个用于动作识别的事件驱动卷积脉冲神经网络(CSNN),使用snnTorch库和PyTorch后端实现。该模型在支持cuDNN的环境中,使用NVIDIA GeForce GTX 1050 Ti GPU进行训练。该架构包括五个核心阶段,旨在高效处理和分类基于事件的视觉数据:
  • 1.
    事件表示:将异步的DVS事件流转换为体素化的脉冲张量,通过离散化事件来实现

实验和讨论

所有实验都在UCF101-DVS(Li等人,2021年)和HMDB51-DVS(Kuehne等人,2011年)数据集上进行,用于动作识别。UCF101-DVS是一个大规模数据集,包含13,320个视频片段,涵盖101个动作类别,包括体育、演奏乐器和服务家务等。HMDB51-DVS数据集包含6,766个视频片段,标注了51个人类动作类别。模型采用渐进式、逐层策略进行训练,从浅层开始

新兴趋势和未来方向

SNN领域正在快速发展,预计未来几年将取得重大进展。虽然SNN模型在视频分析方面具有巨大潜力,但仍需解决若干挑战,以便在现实世界系统中有效应用。随着SNNs的成熟及其与现代计算技术的融合更加无缝,它们有望彻底改变视频分析,特别是在实时和资源受限的环境中(Maqueda等人,2018b年;Zhu等人)

结论

脉冲神经网络由于其能效、事件驱动的计算方式以及与神经形态硬件的兼容性,为视频分析提供了一种有前景的方法。然而,它们的应用受到脉冲动态不可微分性、深度架构中的优化挑战以及大规模视频数据集的可扩展性问题的限制。本文通过对SNNs在视频分析中的全面研究,解决了这些挑战,涵盖了神经元动态、架构和基准测试等方面。

作者贡献

S. S. K. 负责概念化、方法论、实验和撰写;A. S. 负责验证和审阅。

CRediT作者贡献声明

S.K. Sudha:撰写——原始草稿、方法论、研究、概念化。S. Aji:撰写——审阅与编辑、验证、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号