SGSSA：用于脉冲神经网络的时空粒度阈值脉冲自注意力机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：SGSSA: Spatio-temporal granular-threshold spiking self-attention for spiking neural networks

【字体：大中小】 时间：2026年02月10日 来源：Neurocomputing 6.5

编辑推荐：

　　脉冲神经网络中的多阈值自注意力机制与时空建模优化

张恒|耿丽青|杨庚黄|张永峰

天津职业技术大学自动化与电气工程学院，中国天津300222

摘要

脉冲神经网络（SNNs）受到生物神经系统计算原理的启发，在时空信息处理方面具有固有的优势。在人类视觉注意力中，预测性重映射依赖于时空特征的有效积累。然而，大多数基于SNN的预测性重映射方法仅从单个时间步的脉冲张量中提取特征，并主要依赖于脉冲神经元的内在记忆，而未能充分利用SNN在动态时间建模方面的潜力。为了克服这一限制，我们引入了脉冲自注意力（SSA）机制来捕捉多步时空依赖性，并重建注意力和脉冲神经元之间的整合方案。传统的SSA依赖于矩阵乘法进行特征交互，导致相当大的计算和内存开销。为了解决这个问题，我们提出了一种轻量级的颗粒阈值脉冲自注意力（GSSA）机制，该机制用多阈值变体替换了传统的脉冲神经元层，并采用了循环求和以及Hadamard（逐元素）交互。这种设计有效抑制了量化误差，保持了输入数据的分布特性，并显著降低了计算复杂性和能耗。从理论角度来看，我们证明了多阈值脉冲神经元层具有数据保持和误差抑制的特性，并提供了阈值配置的系统策略。在三个代表性的事件驱动数据集——DVS-Gesture、MNIST-DVS和CIFAR10-DVS上的实验结果表明，我们的方法分别实现了99.3%、99.3%和85.4%的分类准确率，达到了最先进的性能水平。这些结果验证了所提出方法在增强SNN的时空建模能力和能效方面的有效性，并突显了其在实时神经形态计算应用中的潜力。

引言

脉冲神经网络（SNNs）或第三代人工神经网络，与典型的人工神经网络（ANNs）不同，它们使用稀疏的、事件驱动的脉冲编码来表示神经元通信特性。这种新的计算范式使系统能够在信号突触发生时才使用能量，显著减少了不必要的连续计算负担，展示了出色的能效。训练SNNs比学习常规ANNs更困难，因为脉冲是不可微分的。目前，SNNs的训练技术分为三类。第一类基于生物启发式的学习原理，包括无监督技术，如时序依赖性可塑性（STDP）和奖励调节的时序依赖性可塑性（R-STDP），这两种技术都受到突触可塑性的启发[1]。第二类关注学习方法的转换：首先训练一个连续值的传统神经网络，然后将其权重映射到SNNs上，确保SNNs模型在特定情况下能够达到可比的性能[1]、[2]、[3]、[4]、[5]、[6]。第三类是直接训练技术，为不可微分的放电函数开发出模拟梯度，并推导出适应SNNs的反向传播算法[7]、[8]、[9]、[10]。在这些方法中，时空反向传播算法是一种强大的学习策略，用于高效SNNs模型的训练。

视觉注意力是一个关键的认知过程，使人类能够选择性地将有限的注意力资源分配给潜在的目标[11]、[12]。这种生物机制对于视觉处理至关重要，允许个体快速准确地响应环境中的相关刺激，同时过滤掉不相关的干扰。预测性注意力重映射是视觉注意力的一个重要组成部分[13]、[14]、[15]、[16]、[17]、[18]。通过测量快速眼球运动（扫视）期间的注意力时空动态，人们广泛观察到注意力会在眼睛移动到目标区域之前就转移到该区域。进一步的注意力重映射实验研究表明，精确的预测性重映射高度依赖于注意力的时空动态，并需要足够的时空信息积累[16]、[17]。

近年来，视觉注意力在计算机视觉领域取得了显著进展。最初为自然语言处理设计的Transformer架构（Vaswani等人，2017年）[19]在各种计算机视觉任务中得到了广泛应用。自注意力是Transformer的核心组成部分，能够选择性地关注感兴趣的信息，也是生物系统的一个重要特征[20]。视觉注意力机制在传统的人工神经网络（ANNs）中取得了巨大成功，而与注意力相关的机制也越来越应用于脉冲神经网络（SNNs）中。Yao等人（2022年）[21]首次将自注意力引入SNNs，提出了脉冲自注意力（SSA）机制，该机制通过脉冲神经元层将查询、键和值转换为脉冲序列，同时省略了softmax归一化。随后，Yao等人（2023年）[22]提出了Meta-SpikeFormer框架，该框架在主干层将多头自注意力与脉冲神经动态相结合，构建了一个具有强大泛化表示能力的脉冲Transformer主干。这种架构在基于事件的视觉和多模态数据集上取得了出色的性能。Cai等人（2023年）[23]提出了SCTFA模块，该模块结合了空间-通道-时间融合注意力来提取时间维度上的时空特征，并将其与脉冲神经元融合。然而，SSA仍然存在显著的量化误差和大量的乘积累（MAC）开销。另一方面，Guo等人在ECCV 2022和ICCV 2023中分别引入了膜电位塑形和分布正则化：前者通过塑形膜电位减少了二值化引起的信息损失[24]，而后者应用RMP-Loss来规范膜电位分布并进一步抑制量化误差[25]。尽管如此，这些方法对超参数非常敏感——特别是正则化权重

——并且通常需要在不同数据集和主干之间进行重新优化，导致高昂的调整和复制成本。此外，SCTFA仅在单个时间步提取脉冲张量，其脉冲神经元在放电后将膜电位重置为零，这削弱了时空信息的连续积累。因此，沿时间维度操作以提取时空特征的脉冲注意力机制仍然相对较少。

因此，在本研究中，我们提出了一种低成本的颗粒阈值脉冲自注意力（GSSA）机制。GSSA通过用多阈值脉冲神经元层替换传统的脉冲神经元层来抑制量化误差，并通过采用循环求和和Hadamard（逐元素）交互代替传统的矩阵乘法来降低计算复杂性和能耗。在此基础上，我们进一步将GSSA与Leaky Integrate-and-Fire（LIF）神经元集成，形成了LIF-SGSSA（LIF-时空颗粒脉冲自注意力）模块。通过将GSSA嵌入LIF神经元的时间维度，LIF-SGSSA模块有效地捕捉了多个时间步之间的时空依赖性，从而增强了模型的时间序列建模能力。此外，LIF-SGSSA模块具有很强的结构通用性，可以无缝集成到各种主干架构中，包括基于卷积的SNNs（Conv-SNN）和基于Transformer的SNNs（Meta-SpikeFormer），实现了跨架构的统一时空特征建模和能效优化。在统一的帧基础表示和训练协议（非流式设置）下，我们将LIF-SGSSA集成到Conv-SNNs（MNIST-DVS、DVS-Gesture）和Meta-SpikeFormer（CIFAR10-DVS）中。实验结果表明，LIF-SGSSA在不同主干和数据集上一致地提高了时空特征建模能力和能效。

本研究的主要贡献如下：

我们提出了一种颗粒阈值脉冲自注意力（GSSA）机制，通过引入多阈值脉冲神经元层并用循环求和和Hadamard（逐元素）交互替换传统的矩阵乘法，有效抑制了量化误差，从而显著降低了计算复杂性和能耗。此外，我们从理论上证明了该层具有误差抑制和数据分布保持的特性，并提供了阈值配置的系统策略。

我们将提出的多阈值脉冲注意力机制扩展到时间维度，并引入了LIF-时空颗粒脉冲自注意力（SGSSA）模块，该模块旨在捕捉多个时间步之间的动态时空依赖性，并增强LIF神经元的时间建模能力。

我们通过将提取的时空特征加性地注入泄漏因子，重新设计了时空信息与脉冲神经元之间的融合机制，使得融合强度同时受到时空特征的大小和放电的调节

部分摘录

脉冲自注意力

受生物启发的脉冲神经网络（SNNs）结合了最先进的深度学习技术和神经科学见解[26]、[27]、[28]、[29]。许多生物机制被用来指导SNN神经元的建模[30]、[31]、学习规则的开发[32]及相关研究领域。Spikformer[21]代表了第一个直接训练的脉冲视觉Transformer，具有完全基于SNN的架构。它实现了脉冲自注意力

LIF神经元模型

为了模拟真实神经元的放电动态，已经开发了几种模型。LIF神经元模型是最常用的模型之一[57]。作为SNNs的基本构建块，LIF接收合成电流并建立膜电位，然后将其与阈值进行比较以确定是否产生脉冲。LIF的动态模型描述如下：

热点排行

新闻专题

联系信箱：

粤ICP备09063491号