基于脉冲神经网络的非冯·诺依曼架构Q学习硬件实现与能效优化研究

《Frontiers in Neuroscience》:Spike-based Q-learning in a non-von Neumann architecture

【字体: 时间:2026年02月03日 来源:Frontiers in Neuroscience 3.2

编辑推荐:

  本文提出一种基于脉冲神经网络(SNN)的非冯·诺依曼架构,通过分布式存储Q值、局部突触更新和延迟同步机制,在硬件层面实现高效Q学习。该架构利用事件驱动特性与局部计算优势,显著降低数据迁移能耗,并通过3-5比特低精度存储实现与传统算法相当的平衡车任务性能,为边缘智能设备提供高能效强化学习解决方案。

  

1 引言

强化学习(RL)框架通过智能体与环境的交互反馈优化策略,在机器人、物联网(IoT)等低功耗实时场景中具有广泛应用需求。传统冯·诺依曼架构存在内存-计算分离瓶颈,而脉冲神经网络(SNN)的生物启发性事件驱动特性可显著提升能效。然而,现有神经形态处理器(如英特尔的Loihi)仍依赖可编程虚拟突触,难以完全消除内存访问延迟。本研究提出一种硬连线非冯·诺依曼架构,将状态-动作对映射为神经元,Q值存储于局部突触计数器,通过脉冲事件直接驱动Q表更新。

2 背景

Q学习作为离线时序差分(TD)学习算法,其更新规则为:
Q(S,A) ← Q(S,A) + α[R + γmaxaQ(S′,a) - Q(S,A)]
其中α为学习率,γ为折扣因子,maxaQ(S′,a)需通过下一状态的最大Q值计算。传统实现中,集中式存储Q值导致频繁内存访问,而本研究通过分布式突触存储与脉冲编码实现并行更新。

3 方法

3.1 SNN架构设计

状态-动作映射:状态集合S={s1,…,sp}与动作集合A={a1,…,aq}分别映射为漏电积分发放(LIF)神经元,突触权重编码Q(sn,am)。环境观测状态经独热编码激活对应状态神经元,其脉冲传递至动作神经元群。
策略实现:ε-贪婪策略通过横向抑制结构(利用阶段)和随机选择电路(探索阶段)混合实现。当探索信号επ=1时,随机动作被激活;επ=0时仅最高Q值对应动作神经元发放脉冲。
脉冲编码更新:将Q学习更新要素编码为脉冲信号:
  • Q(S,A)直接取自动作神经元脉冲频率
  • γmaxaQ(S′,a)由独立γam神经元通过横向抑制生成
  • 奖励R与惩罚P分别由专用神经元生成正负脉冲
  • 通过延迟电路将Am(t)延迟τd生成Adm(t),使当前Q值与下一状态最大Q值脉冲在时间上重叠

3.2 突触更新电路

每个突触包含资格迹生成器与升降计数器。当延迟状态脉冲Sdn(t)与动作脉冲Adm(t)重合时,生成资格迹信号ETnm(t),其时间窗口τetw确保学习有效性。更新信号由全局脉冲(R、P、γa)与局部脉冲(Adm)组合生成:
  • LTPnm脉冲由[R(t) OR γa(t)] AND α(t) AND ETnm(t)生成,提升Q值
  • LTDnm脉冲由[P(t) OR Adm(t)] AND α(t) AND ETnm(t)生成,降低Q值
    计数器以比特精度限制(2-5比特)存储Q值,每脉冲触发单步更新。

3.3 平衡车任务验证

以平衡车任务为基准环境,状态变量包括小车位置x、速度?、杆角度θ、角速度θ?,离散化为19个状态(含失败状态)。动作空间为{+10N, -10N},共38个突触。参数设置:α=1, γ=0.99,状态神经元脉冲频率10kHz,动作神经元频率201-1610Hz。

4 实验结果

学习性能:3比特计数器在100回合内成功实现平衡(最高得分200),4-5比特性能与标准Q学习相当,2比特因精度不足失败。统计学分析(单因素方差分析与Tukey HSD检验)显示3-5比特与未量化结果无显著差异(p≥0.987),验证低精度可行性。
硬件特性分析
  • 能效优势:局部计数器存储避免Loihi等架构的地址事件表示(AER)解码与数据包传输开销
  • 时序容差:10kHz信号下,1%时序容差对应1μs延迟,在22nm工艺中需>555mm线长才产生影响,实际芯片尺度内可忽略
  • 规模扩展性:突触数增长为O(pq),但分布式架构避免内存瓶颈,仅需关注布线延迟

5 讨论

本研究通过算法-硬件协同设计,实现基于生物启发机制的高效能Q学习架构。与生物神经系统的相似性体现在:
  • 全局奖励信号(如多巴胺)与局部突触事件(如STDP)的协同机制
  • 轴突传导延迟与架构中τd延迟的功能一致性
    未来工作将探索大规模状态空间下的泛化能力,并通过相似性更新策略优化稀疏更新问题。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号