
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于无地图自主导航的实时深度强化学习处理器,采用统一的演员-评论家网络以及按需推理调度机制
《IEEE Journal of Solid-State Circuits》:A Real-Time Deep Reinforcement Learning Processor for Mapless Autonomous Navigation With Unified Actor-Critic Network and Inference-on-Request Scheduling
【字体: 大 中 小 】 时间:2026年02月27日 来源:IEEE Journal of Solid-State Circuits 5.6
编辑推荐:
无地图自主导航依赖实时深度强化学习,本文提出一种低功耗处理器架构,通过统一演员-批评者网络和特征图缓存减少95.6%参数量、84.1%内存访问及85.4%运算量,结合按需推理调度实现71%的高效处理单元利用率,28nm CMOS工艺下功耗仅2.68mW,并在真实机器人上验证了有效性和实用性。
无需地图的自主导航是指在没有任何预先存在的地图信息的情况下进行导航,这对于部署在未知或动态环境中的移动机器人来说是一个关键需求[1]、[2]、[3]。如图1所示,这种导航方式仅依赖于机器人自身的传感器数据来完成导航任务,使机器人能够灵活适应未知和变化的环境。传统的基于全局地图和精确定位的方法往往不切实际,因为环境数据经常不可用或不可靠,同时在现实环境中构建和维护地图的成本也非常高[1]。深度强化学习(DRL)的最新进展使得可以直接从传感器数据和目标坐标中学习导航策略,无需人工设计特征或专家指导。基于DRL的无需地图导航技术在多种机器人平台上展现了强大的性能和泛化能力,包括地面、空中和水下机器人,这些机器人利用稀疏的距离测量数据和相对定位作为输入特征[1]、[2]。
无需地图自主导航的示例。