一款40纳米制程的209-TOPS/W强化学习处理器,具备全面的推测执行能力以及推理与训练的并行处理功能

《IEEE Journal of Solid-State Circuits》:A 40-nm 209-TOPS/W Reinforcement Learning Processor With Full Speculation Exploitation and Inference-Training Parallel Processing

【字体: 时间:2026年02月27日 来源:IEEE Journal of Solid-State Circuits 5.6

编辑推荐:

  强化学习处理器通过并行误差传播(DFA降低23%复杂度)、全推测优化(再降87%)、时空数据编码(缩减65%位宽)及块式转置(SRAM访问降39%和35%)实现能效提升,40nm CMOS下达2341 GOPS/mm2和209 TOPS/W,较SOTA提升7.3倍/7.1倍。

  

摘要:

强化学习(RL)在各个领域得到了广泛应用,因此实现高效的能效至关重要。本文介绍了一种高效的RL处理器,该处理器充分利用了推测执行和并行处理技术,用于推理和训练。采用二进制直接反馈对齐(DFA)技术并行进行误差传播,从而将计算复杂度降低了23%。提出了一种全推测方案,用于估计前向传播、误差传播和梯度计算的稀疏性,进一步将计算复杂度降低了87%。同时,提出了一种高效的数据编码方案,利用空间和时间数据相关性将位掩码大小减少了65%。该架构设计为在支持稀疏性和推测执行的同时保持高硬件利用率。处理器还支持并行进行推理和训练。基于块的转置方案将矩阵转置所需的静态随机存取存储器(SRAM)访问次数减少了39%,而共享的输入/输出(I/O)缓冲区用于内部数据转换,进一步将输入和输出特征的SRAM访问次数减少了35%。该RL处理器采用40纳米CMOS工艺制造,实现了2341 GOPS/mm2的面积效率和209 TOPS/W的能效。与现有最先进设计相比,本文在面积效率和能效方面分别提高了7.37.1

引言

强化学习(RL)在众多领域都展现出了出色的效果。由于其能够探索未知环境并处理序列决策,RL在解决各种任务时表现出色。与传统依赖大型预标注数据集的机器学习(ML)方法不同,RL擅长在动态环境中通过试错来获取知识。这一能力使得RL能够广泛应用于各种问题领域。在游戏应用(包括视频游戏[1]、围棋[2]和星际争霸[3])中,RL已经达到了与人类玩家相当的性能水平。此外,RL在自主系统领域也取得了显著进展,包括自动导航[4]、自主控制[5]和工业自动化[6],如图1所示。RL的多功能性还扩展到了辅助机器学习任务,例如神经架构搜索。

RL在自主系统中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号