SQKformer:通过自适应批量归一化增强稀疏QKformer模型,用于膜电位分析
《Neurocomputing》:SQKformer: Spiking sparse QKformer with adaptive batch normalization for membrane potential
【字体:
大
中
小
】
时间:2026年01月18日
来源:Neurocomputing 6.5
编辑推荐:
脉冲神经网络与Transformer融合模型SQKformer提出信息增强通道注意力机制、膜电位自适应批量归一化及门控空间注意力模块,有效解决SNN注意力机制不足、BN受残膜电位干扰及MLP参数过多问题,在CIFAR-10和100上分别达到97.3%和82.51%准确率,优于现有SNN模型。
陈云华|谢泽权|钟金宇|陈平华|肖金生
广东工业大学计算机科学与技术学院,广州,中国
摘要
Spiking Transformers结合了Spiking Neural Networks(SNNs)和Transformer架构,由于其低能耗和高性能的潜力而受到了广泛关注。然而,现有的spiking自注意力模块主要模拟空间或时间相关性,而忽略了通道维度上的重要性分布。此外,SNNs固有的稀疏放电特性加剧了静默值对批量归一化(BN)的影响,并引入了残余膜电位的干扰。此外,当前的MLP前馈模块通常受到高参数数量的限制。我们提出了SQKformer来解决上述问题。首先,我们提出了信息增强型通道注意力模块(IECA)来增强Q-K注意力模块。然后我们提出了膜电位自适应批量归一化(MABN),它使用动态阈值来过滤关键尖峰信号并减少静默值和残余膜电位的影响。最后,我们设计了一个高效且参数数量少的spiking门控空间注意力模块(SGSA)来替代Spiking MLP。广泛的实验表明,SQKformer在各种数据集上的表现可以超越或与最先进的技术(SOTA)相当。特别是在CIFAR10和CIFAR100数据集上,我们分别取得了97.3%和82.51%的准确率,标志着SNN领域的最先进水平。
引言
Spiking神经网络(SNNs)作为第三代神经网络[30],由于其受大脑启发的时空动态和事件驱动的计算范式[36],在人工智能和神经科学领域受到了广泛关注。与传统的人工神经网络(ANNs)不同,SNNs模拟了神经元的生物尖峰机制,处理二进制事件驱动的激活[5],从而实现了高能效和超低功耗。这种计算范式使SNNs在处理时空信息和动态数据方面具有独特优势[14]。然而,尽管能效很高,SNNs在任务准确性方面仍存在局限。
许多研究人员为提高Spiking神经网络(SNNs)的性能做出了重大努力。将Spiking Neural Networks(SNNs)与Transformers[9]结合在各种任务中取得了显著的性能提升。Spikformer[60]是第一个直接训练纯SNN架构的先驱,利用尖峰神经元激活Q、K和V。QKFormer[55]通过将Spiking Transformers中的自注意力复杂性从二次降低到线性来解决计算瓶颈。然而,所有现有的spiking自注意力模块,无论是二次还是线性复杂性,都使用点积或Hadamard积操作来模拟时空相关性,忽略了通道维度上的重要性分布[57]。例如,在QKFormer中,QKTA[55]中的显式通道维度求和操作导致对关键特征通道和不太重要的特征通道进行相同的处理,从而忽略了通道特异性。通道注意力机制通常首先应用平均池化将特征图信息压缩为单个特征值,然后通过MLP范式生成通道级权重系数。虽然这种压缩方法简单有效,但它可能会丢弃特征中固有的有价值的空间分布模式,并且对异常值敏感,个别异常像素可能会显著影响通道权重[46]。
由于尖峰神经元模型和人工神经网络(ANNs)在时空动态方面的根本差异,直接将传统的批量归一化(BN)技术应用于SNNs仍然具有挑战性。研究人员探索了将这些技术应用于SNNs的方法,从而引入了NeuNorm[45],它沿通道维度进行归一化。后续的发展包括基于阈值的批量归一化(tdBN)[56],它将批量归一化扩展到包含时间维度,以及时间有效批量归一化(TEBN)[10],它调整不同时间步的数据流。然而,现有的SNNs BN技术存在两个主要限制。首先,在卷积之后,数据流受到之前时间步的残余膜电位的干扰,这种扰动会引入梯度噪声,干扰参数优化。其次,由于SNNs的固有稀疏性——许多静默神经元产生零输出——全局BN统计受到均值偏移和方差膨胀的不利影响。为了解决这些问题,Guo等人[13]提出了基于膜的激活后归一化(MPBN),它在膜电位更新后使用固定阈值进行归一化以抑制静默值。Jiang等人[21]引入了时间累积归一化(TAB),通过结合时间累积统计来减轻均值和方差失真。然而,MPBN需要一个计算成本高昂的两步归一化过程,而TAB缺乏动态响应波动信号模式的自适应过滤机制。
此外,大多数针对基于Spiking Neural Network的Transformer模型的改进主要集中在自注意力模块上,而很大程度上忽略了MLP前馈组件的潜在改进[17]、[18]。Spiking MLP通常用于从输入数据中学习特征表示;然而,这种方法存在几个限制——特别是在处理高分辨率图像时——例如计算需求更高和过拟合的风险增加[41]。
为了解决上述问题,我们对QKFormer框架内的Q-K Attention和Spiking MLP(SMLP)模块进行了修改,从而形成了一个新的尖峰架构SQKformer,如图1所示。主要改进包括:(i)信息增强型通道注意力机制;(ii)结合膜电位过滤的自适应阈值批量归一化;(iii)参数效率高的注意力增强型尖峰前馈模块。这些创新不仅保留了Q-K注意力机制的线性复杂性,还显著减少了参数数量,并提高了信息流和特征提取能力。我们的主要贡献如下:
•我们设计了一个信息增强型通道注意力模块(IECA),它在平均池化后使用深度卷积来保留特征图中的更多信息。IECA与自注意力模块并行工作,实现了时空-通道双路径异构动态门控融合。
•我们提出了一种新颖的膜电位自适应批量归一化(MABN)方法。它通过使用可学习的阈值自适应过滤膜电位,从而减轻了残余膜电位和静默值对归一化统计的影响。
•我们提出了一种简化的前馈网络SGSA,它具有更好的性能并且需要的参数显著减少。
广泛的实验表明,所提出的SQKformer模型在多个静态和神经形态数据集上的表现与最先进的Spiking神经网络相当或超越了它们。值得注意的是,我们的模型在直接训练下在CIFAR-10数据集上达到了97.3%的准确率,在CIFAR-100数据集上达到了82.51%的准确率,这标志着SNN领域的最先进水平。
部分片段
Spiking Transformers
Transformer及其变体被广泛应用于各种任务中。然而,由于它们的固有复杂性,在资源有限的设备上部署这些模型仍然具有挑战性[47]。Spiking Transformers迅速引起了广泛关注,它们结合了尖峰自注意力机制,将浮点乘法转换为稀疏加法。这种架构可以高效处理时空信息,同时保持低功耗。
Spikformer [60]利用
Leaky Integrate-and-Fire模型
在本文中,我们选择了广泛使用的Leaky Integrate-and-Fire(LIF)模型[4]、[11],其公式如下:
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号