《Frontiers in Neuroscience》:Spike-based Q-learning in a non-von Neumann architecture
编辑推荐:
本文提出一种基于脉冲神经网络(SNN)的非冯·诺依曼架构,通过分布式存储Q值、局部突触更新和延迟同步机制,在硬件层面实现高效Q学习。该架构利用事件驱动特性与局部计算优势,显著降低数据迁移能耗,并通过3-5比特低精度存储实现与传统算法相当的平衡车任务性能,为边缘智能设备提供高能效强化学习解决方案。
1 引言
强化学习(RL)框架通过智能体与环境的交互反馈优化策略,在机器人、物联网(IoT)等低功耗实时场景中具有广泛应用需求。传统冯·诺依曼架构存在内存-计算分离瓶颈,而脉冲神经网络(SNN)的生物启发性事件驱动特性可显著提升能效。然而,现有神经形态处理器(如英特尔的Loihi)仍依赖可编程虚拟突触,难以完全消除内存访问延迟。本研究提出一种硬连线非冯·诺依曼架构,将状态-动作对映射为神经元,Q值存储于局部突触计数器,通过脉冲事件直接驱动Q表更新。
2 背景
Q学习作为离线时序差分(TD)学习算法,其更新规则为:
Q(S,A) ← Q(S,A) + α[R + γmaxaQ(S′,a) - Q(S,A)]
其中α为学习率,γ为折扣因子,maxaQ(S′,a)需通过下一状态的最大Q值计算。传统实现中,集中式存储Q值导致频繁内存访问,而本研究通过分布式突触存储与脉冲编码实现并行更新。
3 方法
3.1 SNN架构设计
状态-动作映射:状态集合S={s1,…,sp}与动作集合A={a1,…,aq}分别映射为漏电积分发放(LIF)神经元,突触权重编码Q(sn,am)。环境观测状态经独热编码激活对应状态神经元,其脉冲传递至动作神经元群。
策略实现:ε-贪婪策略通过横向抑制结构(利用阶段)和随机选择电路(探索阶段)混合实现。当探索信号επ=1时,随机动作被激活;επ=0时仅最高Q值对应动作神经元发放脉冲。
脉冲编码更新:将Q学习更新要素编码为脉冲信号:
- •
Q(S,A)直接取自动作神经元脉冲频率
- •
γmaxaQ(S′,a)由独立γam神经元通过横向抑制生成
- •
奖励R与惩罚P分别由专用神经元生成正负脉冲
- •
通过延迟电路将Am(t)延迟τd生成Adm(t),使当前Q值与下一状态最大Q值脉冲在时间上重叠
3.2 突触更新电路
每个突触包含资格迹生成器与升降计数器。当延迟状态脉冲Sdn(t)与动作脉冲Adm(t)重合时,生成资格迹信号ETnm(t),其时间窗口τetw确保学习有效性。更新信号由全局脉冲(R、P、γa)与局部脉冲(Adm)组合生成:
- •
LTPnm脉冲由[R(t) OR γa(t)] AND α(t) AND ETnm(t)生成,提升Q值
- •
LTDnm脉冲由[P(t) OR Adm(t)] AND α(t) AND ETnm(t)生成,降低Q值
计数器以比特精度限制(2-5比特)存储Q值,每脉冲触发单步更新。
3.3 平衡车任务验证
以平衡车任务为基准环境,状态变量包括小车位置x、速度?、杆角度θ、角速度θ?,离散化为19个状态(含失败状态)。动作空间为{+10N, -10N},共38个突触。参数设置:α=1, γ=0.99,状态神经元脉冲频率10kHz,动作神经元频率201-1610Hz。
4 实验结果
学习性能:3比特计数器在100回合内成功实现平衡(最高得分200),4-5比特性能与标准Q学习相当,2比特因精度不足失败。统计学分析(单因素方差分析与Tukey HSD检验)显示3-5比特与未量化结果无显著差异(p≥0.987),验证低精度可行性。
硬件特性分析:
- •
能效优势:局部计数器存储避免Loihi等架构的地址事件表示(AER)解码与数据包传输开销
- •
时序容差:10kHz信号下,1%时序容差对应1μs延迟,在22nm工艺中需>555mm线长才产生影响,实际芯片尺度内可忽略
- •
规模扩展性:突触数增长为O(pq),但分布式架构避免内存瓶颈,仅需关注布线延迟
5 讨论
本研究通过算法-硬件协同设计,实现基于生物启发机制的高效能Q学习架构。与生物神经系统的相似性体现在:
- •
全局奖励信号(如多巴胺)与局部突触事件(如STDP)的协同机制
- •
轴突传导延迟与架构中τd延迟的功能一致性
未来工作将探索大规模状态空间下的泛化能力,并通过相似性更新策略优化稀疏更新问题。