《Neurocomputing》:Enhancing ANN-SNN conversion: Addressing low latency and negative thresholds with modified activation and BPTT fine-tuning
编辑推荐:
针对人工神经网络(ANN)转换为突触神经网络(SNN)时存在的性能下降和负阈值问题,本研究提出阈值校正函数和基于时序回传(BPTT)的微调框架,显著提升模型稳定性和精度,在ImageNet数据集上实现75.59%的准确率,仅用两个时间步。
龙夏 | 王晓然 | 王如国 | 尹盈盈 | 徐浩楠 | 李向宇
南京理工大学,中国江苏省南京市玄武区小灵威200号,210094
摘要
将人工神经网络(ANNs)转换为脉冲神经网络(SNNs)是实现高效、低功耗SNNs的关键方法。然而,在追求低延迟的过程中,这一过程往往会导致性能显著下降。此外,现有转换技术中使用的可训练阈值机制可能导致与生物学合理性不符的负阈值,从而引入转换错误并降低模型稳定性。为了解决这些核心问题,本研究首先对负阈值问题进行了系统分析,揭示了其源于训练动态以及由此导致的致命信息流中断。基于这一分析,我们提出了一个双管齐下的解决方案:首先,我们引入了一个优化的阈值校正函数,从机制上确保发射阈值始终为正,从而增强模型稳定性;其次,我们构建了一个基于时序反向传播(BPTT)的SNN微调框架,该框架采用复合损失函数和动态加权策略,使转换后的SNN能够更好地适应其固有的时间动态。广泛的实验结果表明,与多种最先进的转换方法相比,我们的方法在CIFAR-10/100和ImageNet等基准数据集上表现出更优越的性能。值得注意的是,在大规模的ImageNet数据集上,我们的方法仅用两个时间步就实现了75.59%的准确率,展示了其在超低延迟条件下的高效率。此外,通过对关键超参数的详尽消融研究和深入的能效分析,我们不仅验证了所提方法的鲁棒性,还为静态视觉任务的SNNs的能效-延迟权衡提供了更细致的视角。这些发现强调了正确处理阈值问题以及采用直接SNN优化技术以实现高精度、低延迟SNNs的关键重要性。
引言
脉冲神经网络(SNNs)[1]作为第三代人工神经网络,因其生物学合理性[2]、低功耗和快速推理潜力而受到广泛关注,在神经形态硬件领域[4][5]具有巨大前景。将人工神经网络(ANNs)转换为SNNs是获得高性能SNNs的主流方法。它利用成熟的ANN训练范式,并且在长时间模拟步长(T)下可以达到与源ANN相当的性能。然而,当缩短T以追求低延迟时,SNNs的性能往往会显著下降,限制了其应用。
本研究进一步指出了使用可训练阈值[6][7][8][9]的高级转换技术中出现的特定问题——在ANN训练阶段可能出现负发射阈值。负阈值不仅因为与神经元的生物学解释相矛盾而存在问题,还可能导致意外的虚假发射,从而增加转换错误并降低系统稳定性。此外,即使采用了改进的转换技术,源ANN与转换后的SNN之间仍常常存在性能差距,尤其是在考虑SNNs的固有时间动态时,这表明需要后续的适应。为了解决这些挑战,本研究提出了以下主要贡献:
负阈值问题的系统分析:我们首次对负阈值问题的根本原因和失败机制进行了深入分析,从训练动态和微观失败机制的角度进行了研究。这一分析为从根本上解决问题提供了坚实的理论基础。
优化的阈值校正方案:我们提出并验证了一个优越的阈值校正函数,确保转换到SNN的阈值始终为正,从而从根本上消除了由负阈值引起的网络不稳定性和计算错误。
高效的SNN微调框架:我们设计了一个基于时序反向传播(BPTT)的微调过程,该过程采用复合损失函数和动态加权策略,使转换后的SNN能够更好地适应其时间动态,并显著缩小与源ANN的性能差距,特别是在低延迟条件下。
相关工作
ANN到SNN的转换旨在结合ANN的训练优势与SNN的能效[10]。该领域的研究致力于提高转换性能,主要关注减少转换错误,而提高模型规则性的研究相对较少。
目前的主要研究焦点是减少转换错误。早期工作集中在CNN的转换[11]上,随后开发了权重和阈值标准化技术(例如,
神经元模型
人工神经元:本研究中用于转换的激活函数在这里进行了定义。它们的数学表达式可以简化为:
其中
其中表示第层的神经元激活输出,是权重矩阵,是前一层的输出。
脉冲神经元:本研究在SNN中采用了积分-发射(IF)[22]神经元模型,并进行了明确配置
方法
在利用可训练阈值的ANN-SNN转换框架(例如QCFS [6]和COS [7])的基础上,本研究识别并解决了负阈值这一潜在问题。此外,它引入了一个新的SNN微调阶段以进一步提高转换精度。所提出的方法包括两个核心组成部分:首先,一个修改后的激活函数,用于确保阈值的正性和稳定性;其次,一个基于BPTT的微调模块
实验
本节旨在系统地从实证角度评估所提出的方法。评估主要涵盖两个方面:首先,包含阈值校正机制的修改后激活函数的有效性;其次,设计的SNN微调模块带来的性能提升。为了分离每个方法组件的独立贡献,进行了细致的消融研究。最后,整合了所有优化策略的完整模型
结论
本研究提出了一个全面的解决方案,以解决ANN到SNN转换中的两个关键挑战:低延迟下的性能下降和负阈值的破坏性问题。我们的主要贡献有三个方面:首先,我们首次对负阈值问题的根本原因和失败机制进行了深入、系统的分析。通过广泛的实证证据,我们揭示了由训练动态驱动的“灾难性阈值效应”
CRediT作者贡献声明
龙夏:撰写——原始草稿、验证、方法论、概念化。王晓然:撰写——原始草稿、验证、形式分析。王如国:撰写——审阅与编辑、调查。尹盈盈:监督、资源协调、概念化。徐浩楠:调查、数据管理、概念化。李向宇:资源协调、方法论、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
龙夏于2024年获得中国南京邮电大学信息与计算科学学士学位。他目前正在中国南京理工大学攻读计算机技术硕士学位。他的研究兴趣包括脉冲神经网络和机器学习。