脉冲神经网络(SNNs)与人工神经网络(ANNs)的不同之处在于,它们通过离散的脉冲来传递信息,这些脉冲模仿了生物神经元的活动方式。由于其基于事件驱动的特性和生物学上的可解释性,SNNs在资源受限的边缘图像处理应用中受到了广泛关注[1],[2],[3],[4],[5],[6],[7],[8]。然而,现有的SNNs主要采用单阈值触发和统一的正脉冲发射机制。虽然这种机制简化了计算逻辑,但导致膜电位强度信息和负膜电位信息的丢失,从而限制了SNNs的图像处理性能[9],[10]。
为了解决SNNs中的信息丢失问题,研究人员从多个角度改进了神经模型。InfLoR-SNN[11]提出了软重置IF神经元和膜电位整流器来减少信息丢失;SPIDEN[12]采用自适应阈值IF神经元来优化发射时机,并将其应用于图像去噪。然而,这些方法仍然局限于单阈值触发模式,无法有效编码膜电位强度。受生物神经元分层响应特性的启发,多阈值神经元的概念应运而生。Spiking-UNet[14]采用了固定的前向多阈值设计,而Leaky Integrate and Fire(IF&B)神经元[15]实现了多阈值触发的自适应脉冲发射。尽管这些方法初步实现了膜电位强度的编码,但都忽略了负膜电位中包含的信息。实际上,生物神经系统中兴奋性和抑制性信号的合作作用是复杂信息处理的基础[16],表明负膜电位中的抑制性信息尤为重要。一些研究,如Ternary Spike[17]和TS-MLE[18],试图引入负脉冲以丰富信息容量,但这些方法未能实现多级强度编码、负信息利用和神经元的动态适应的协同优化。
近年来,SNNs与U-Net[19]的融合架构在图像生成和分割等任务中展现了潜力。SUM[20]和SDDPM[21]在图像生成方面取得了突破性成果,而Spiking-UNet[22]通过图像分割实现了能效高的频谱检测。Spike-UNet[23]则针对低功耗SAR相干变化检测进行了优化。然而,这些研究保留了传统U-Net的深度架构,缺乏轻量化设计,导致参数冗余和计算延迟。此外,所采用的神经模型缺乏多阈值分层响应和负膜电位信息的处理。
常见的SNN训练方法包括ANN-SNN转换和直接训练。前者通过将预训练的ANN转换为SNN并匹配激活率来实现SNN训练[24],[25],[26],但这种方法需要更长的推理时间步长才能达到与ANN相当的性能。后者使用替代梯度函数来近似脉冲步长函数,实现了SNN的端到端直接优化[27],[28],[29],显著减少了所需的推理时间步长。因此,本文采用直接训练方法。
在本文中,我们提出了一种双向多阈值LIF(BMT-LIF)神经元模型和轻量级高效的Spiking-UNet(LES-UNet)。通过BMT-LIF神经元对膜电位的细粒度编码,LES-UNet实现了高效的图像特征提取能力。此外,我们提出了一种多阈值梯度贡献机制,实现了LES-UNet的直接训练。主要贡献如下:
- •
受生物神经元分层响应和双向调节机制的启发,我们提出了一种BMT-LIF神经元模型,该模型采用学习型双向多阈值编码,显著减少了SNNs中的信息丢失。
- •
我们基于BMT-LIF神经元开发了LES-UNet。其简化的编码器-解码器设计相比传统U-Net和其他Spiking-UNet架构减少了94%的参数数量,同时BMT-LIF的细粒度膜电位编码保持了强大的特征提取能力。
- •
我们提出了一种多阈值梯度贡献机制,用于支持LES-UNet的直接训练。通过分别为BMT-LIF神经元的每个阈值计算替代梯度并进行加权聚合,该方法显著减少了推理时间步长,同时保持了有效的反向传播。
- •
在BSD68和CBSD68图像去噪数据集以及DRIVE和CamSeq01图像分割数据集上的实验表明,所提出的LES-UNet在更少的时间步长内取得了更好的性能,充分验证了其在推理时间和图像处理效果方面的优势。