基于脉冲神经网络的非冯·诺依曼架构Q学习硬件实现与能效优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Neuroscience》：Spike-based Q-learning in a non-von Neumann architecture

【字体：大中小】 时间：2026年02月03日 来源：Frontiers in Neuroscience 3.2

编辑推荐：

　　本文提出一种基于脉冲神经网络（SNN）的非冯·诺依曼架构，通过分布式存储Q值、局部突触更新和延迟同步机制，在硬件层面实现高效Q学习。该架构利用事件驱动特性与局部计算优势，显著降低数据迁移能耗，并通过3-5比特低精度存储实现与传统算法相当的平衡车任务性能，为边缘智能设备提供高能效强化学习解决方案。

1 引言

强化学习（RL）框架通过智能体与环境的交互反馈优化策略，在机器人、物联网（IoT）等低功耗实时场景中具有广泛应用需求。传统冯·诺依曼架构存在内存-计算分离瓶颈，而脉冲神经网络（SNN）的生物启发性事件驱动特性可显著提升能效。然而，现有神经形态处理器（如英特尔的Loihi）仍依赖可编程虚拟突触，难以完全消除内存访问延迟。本研究提出一种硬连线非冯·诺依曼架构，将状态-动作对映射为神经元，Q值存储于局部突触计数器，通过脉冲事件直接驱动Q表更新。

2 背景

Q学习作为离线时序差分（TD）学习算法，其更新规则为：

Q(S,A) ← Q(S,A) + α[R + γmax_aQ(S′,a) - Q(S,A)]

其中α为学习率，γ为折扣因子，max_aQ(S′,a)需通过下一状态的最大Q值计算。传统实现中，集中式存储Q值导致频繁内存访问，而本研究通过分布式突触存储与脉冲编码实现并行更新。

3 方法

3.1 SNN架构设计

状态-动作映射：状态集合S={s₁,…,s_p}与动作集合A={a₁,…,a_q}分别映射为漏电积分发放（LIF）神经元，突触权重编码Q(s_n,a_m)。环境观测状态经独热编码激活对应状态神经元，其脉冲传递至动作神经元群。

策略实现：ε-贪婪策略通过横向抑制结构（利用阶段）和随机选择电路（探索阶段）混合实现。当探索信号ε_π=1时，随机动作被激活；ε_π=0时仅最高Q值对应动作神经元发放脉冲。

脉冲编码更新：将Q学习更新要素编码为脉冲信号：

•
Q(S,A)直接取自动作神经元脉冲频率
•
γmax_aQ(S′,a)由独立γa_m神经元通过横向抑制生成
•
奖励R与惩罚P分别由专用神经元生成正负脉冲
•
通过延迟电路将A_m(t)延迟τ_d生成A_dm(t)，使当前Q值与下一状态最大Q值脉冲在时间上重叠

3.2 突触更新电路

每个突触包含资格迹生成器与升降计数器。当延迟状态脉冲S_dn(t)与动作脉冲A_dm(t)重合时，生成资格迹信号ET_nm(t)，其时间窗口τ_etw确保学习有效性。更新信号由全局脉冲（R、P、γa）与局部脉冲（A_dm）组合生成：

•
LTP_nm脉冲由[R(t) OR γa(t)] AND α(t) AND ET_nm(t)生成，提升Q值
•
LTD_nm脉冲由[P(t) OR A_dm(t)] AND α(t) AND ET_nm(t)生成，降低Q值

计数器以比特精度限制（2-5比特）存储Q值，每脉冲触发单步更新。

3.3 平衡车任务验证

以平衡车任务为基准环境，状态变量包括小车位置x、速度?、杆角度θ、角速度θ?，离散化为19个状态（含失败状态）。动作空间为{+10N, -10N}，共38个突触。参数设置：α=1, γ=0.99，状态神经元脉冲频率10kHz，动作神经元频率201-1610Hz。

4 实验结果

学习性能：3比特计数器在100回合内成功实现平衡（最高得分200），4-5比特性能与标准Q学习相当，2比特因精度不足失败。统计学分析（单因素方差分析与Tukey HSD检验）显示3-5比特与未量化结果无显著差异（p≥0.987），验证低精度可行性。

硬件特性分析：

•
能效优势：局部计数器存储避免Loihi等架构的地址事件表示（AER）解码与数据包传输开销
•
时序容差：10kHz信号下，1%时序容差对应1μs延迟，在22nm工艺中需>555mm线长才产生影响，实际芯片尺度内可忽略
•
规模扩展性：突触数增长为O(pq)，但分布式架构避免内存瓶颈，仅需关注布线延迟

5 讨论

本研究通过算法-硬件协同设计，实现基于生物启发机制的高效能Q学习架构。与生物神经系统的相似性体现在：

•
全局奖励信号（如多巴胺）与局部突触事件（如STDP）的协同机制
•
轴突传导延迟与架构中τ_d延迟的功能一致性

未来工作将探索大规模状态空间下的泛化能力，并通过相似性更新策略优化稀疏更新问题。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号