一种用于无地图自主导航的实时深度强化学习处理器，采用统一的演员-评论家网络以及按需推理调度机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Solid-State Circuits》：A Real-Time Deep Reinforcement Learning Processor for Mapless Autonomous Navigation With Unified Actor-Critic Network and Inference-on-Request Scheduling

【字体：大中小】 时间：2026年02月27日 来源：IEEE Journal of Solid-State Circuits 5.6

编辑推荐：

　　无地图自主导航依赖实时深度强化学习，本文提出一种低功耗处理器架构，通过统一演员-批评者网络和特征图缓存减少95.6%参数量、84.1%内存访问及85.4%运算量，结合按需推理调度实现71%的高效处理单元利用率，28nm CMOS工艺下功耗仅2.68mW，并在真实机器人上验证了有效性和实用性。

摘要：

本文提出了一种实时深度强化学习（DRL）处理器，用于无需地图的自主导航，适用于资源和能量受限的移动机器人。该处理器采用统一的演员-评论家网络架构，并结合特征图缓存机制，实现了参数共享，消除了冗余计算。这种方法将总参数数量、外部内存访问次数（EMA）以及整体运算量分别降低了95.6%、84.1%和85.4%，同时不影响学习性能。处理器还采用了按需推理（IoR）调度方案，实现了训练和推理的并发进行，从而确保了较低的推理延迟，并保持了71.0%的处理元素利用率（包括外部I/O开销）。一种列式零跳过分类投影技术通过仅处理稀疏矩阵中的非零元素，加速了分布式强化学习过程，使得投影操作量减少了99%。该芯片采用28纳米CMOS工艺制造，工作频率为10兆赫，功耗仅为2.68毫瓦，满足了实时延迟的要求。该处理器已在真实机器人上进行了验证，展示了其在未知环境中的强大自主导航能力。据我们所知，这是首个支持分布式强化学习的架构设计，实验结果证实了该设计的有效性和实际可行性。

引言

无需地图的自主导航是指在没有任何预先存在的地图信息的情况下进行导航，这对于部署在未知或动态环境中的移动机器人来说是一个关键需求[1]、[2]、[3]。如图1所示，这种导航方式仅依赖于机器人自身的传感器数据来完成导航任务，使机器人能够灵活适应未知和变化的环境。传统的基于全局地图和精确定位的方法往往不切实际，因为环境数据经常不可用或不可靠，同时在现实环境中构建和维护地图的成本也非常高[1]。深度强化学习（DRL）的最新进展使得可以直接从传感器数据和目标坐标中学习导航策略，无需人工设计特征或专家指导。基于DRL的无需地图导航技术在多种机器人平台上展现了强大的性能和泛化能力，包括地面、空中和水下机器人，这些机器人利用稀疏的距离测量数据和相对定位作为输入特征[1]、[2]。图1.

无需地图自主导航的示例。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号