一款40纳米制程的209-TOPS/W强化学习处理器，具备全面的推测执行能力以及推理与训练的并行处理功能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Solid-State Circuits》：A 40-nm 209-TOPS/W Reinforcement Learning Processor With Full Speculation Exploitation and Inference-Training Parallel Processing

【字体：大中小】 时间：2026年02月27日 来源：IEEE Journal of Solid-State Circuits 5.6

编辑推荐：

　　强化学习处理器通过并行误差传播（DFA降低23%复杂度）、全推测优化（再降87%）、时空数据编码（缩减65%位宽）及块式转置（SRAM访问降39%和35%）实现能效提升，40nm CMOS下达2341 GOPS/mm2和209 TOPS/W，较SOTA提升7.3倍/7.1倍。

摘要：

强化学习（RL）在各个领域得到了广泛应用，因此实现高效的能效至关重要。本文介绍了一种高效的RL处理器，该处理器充分利用了推测执行和并行处理技术，用于推理和训练。采用二进制直接反馈对齐（DFA）技术并行进行误差传播，从而将计算复杂度降低了23%。提出了一种全推测方案，用于估计前向传播、误差传播和梯度计算的稀疏性，进一步将计算复杂度降低了87%。同时，提出了一种高效的数据编码方案，利用空间和时间数据相关性将位掩码大小减少了65%。该架构设计为在支持稀疏性和推测执行的同时保持高硬件利用率。处理器还支持并行进行推理和训练。基于块的转置方案将矩阵转置所需的静态随机存取存储器（SRAM）访问次数减少了39%，而共享的输入/输出（I/O）缓冲区用于内部数据转换，进一步将输入和输出特征的SRAM访问次数减少了35%。该RL处理器采用40纳米CMOS工艺制造，实现了2341 GOPS/mm2的面积效率和209 TOPS/W的能效。与现有最先进设计相比，本文在面积效率和能效方面分别提高了7.3倍和7.1倍。

引言

强化学习（RL）在众多领域都展现出了出色的效果。由于其能够探索未知环境并处理序列决策，RL在解决各种任务时表现出色。与传统依赖大型预标注数据集的机器学习（ML）方法不同，RL擅长在动态环境中通过试错来获取知识。这一能力使得RL能够广泛应用于各种问题领域。在游戏应用（包括视频游戏[1]、围棋[2]和星际争霸[3]）中，RL已经达到了与人类玩家相当的性能水平。此外，RL在自主系统领域也取得了显著进展，包括自动导航[4]、自主控制[5]和工业自动化[6]，如图1所示。RL的多功能性还扩展到了辅助机器学习任务，例如神经架构搜索。图1.

RL在自主系统中的应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号