深度强化学习在移动机器人控制中的应用：实现朝向指定位置的移动

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Robotics and Autonomous Systems》：Deep reinforcement learning for mobile robot control for motion toward a given position

【字体：大中小】 时间：2026年02月11日 来源：Robotics and Autonomous Systems 5.2

编辑推荐：

　　移动机器人强化学习控制研究：通过改进DDPG算法的神经网络架构与奖励分配机制，结合超参数优化，在仿真环境（基于OpenAI Gym）和物理平台进行验证，发现网络设计和奖励策略显著影响控制性能，提出定制化仿真框架和统计对比方法。

I.S. Zvonarev | Yu.L. Karavaev

卡拉什尼科夫伊热夫斯克国立技术大学，俄罗斯伊热夫斯克

摘要

本研究探讨了在深度确定性策略梯度（DDPG）算法中实现多种神经网络架构和奖励分配方案，以控制差动驱动移动机器人完成目标到达任务。研究包括超参数优化，并在仿真和实际应用中评估了算法性能。我们开发了一个符合OpenAI Gymnasium框架原则的专用仿真环境，用于预训练；该环境能够真实模拟差动驱动机器人的运动学特性，确保训练条件的真实性。我们对改进后的DDPG实现与stable_baselines3库提供的经典DDPG进行了统计比较。优化后的模型随后被应用到物理机器人原型上，该原型配备了运动捕捉系统，以确保精确的位置反馈。通过一系列实验，系统地评估了不同的网络架构，并确定了每个训练周期中最有效的奖励分配策略。结果表明，架构设计和奖励 shaping 对移动机器人控制性能有显著影响，强调了仔细调整网络超参数的必要性。

引言

路径规划是机器人控制系统开发中的基本问题之一[1,2]。在传统解释中，路径规划算法基于数学模型，其复杂性取决于运动学模型、自由度、运动约束、对外部干扰的适应能力以及所选的目标规划算法。如果充分考虑并适当选择这些因素，可以使受控物体以最低能耗沿最短轨迹移动，从而实现最优路径规划。尽管使用传统算法构建最优系统较为复杂，但研究人员仍在研究中继续使用它们，并对其进行改进，以减少局部最小值问题并实现路径最优。Qin H [3]、Yu Z [4] 和 Wu L [5] 的工作探讨了这一主题。

在本研究中，分析了每个训练周期中的奖励分配方法对强化学习（RL）算法在移动机器人（MR）到达目标区域任务中的有效性影响。采用基于深度确定性策略梯度（DDPG）的算法来控制MR。该算法及其改进版本是动态环境中控制和路径规划任务中最受欢迎的算法之一。例如，在参考文献[[6]]、[[7]]、[[8]]、[[9]]、[[10]]中，DDPG算法被用于解决训练过程中出现的问题并提高算法收敛性。在参考文献[[11]]、[[12]]、[[13]]中，改进的DDPG算法被用于控制具有非平凡控制系统的机器人系统，证明了其有效性。Nor N.V [14] 的文章中也使用了DDPG算法来控制球形机器人沿任意曲线的运动。此外，Yudin D.A. 和 Panov A.I. 的研究致力于将RL和SLAM方法集成[[[15]]、[[16]]、[[17]]、[[18]]，这些研究描述了在动态环境中进行路径规划任务的有效机器人控制算法，以及分析和处理感官信息的方法，这些方法对结果有显著影响。

方法

本研究提出的方法旨在评估基于强化学习的控制系统在模拟环境中的移动机器人性能。本节概述了仿真框架的结构、控制机器人运动的数学模型以及所使用的学习算法。特别关注状态空间和动作空间的设计、奖励函数以及用于评估系统的实验程序

结果与讨论

为了评估实验结果，我们将分析以下参数：实验所用时间、到达目标区域的最小误差（方程18）、轨迹的曲率（方程20）、行驶距离以及行驶距离的有效性（方程21）。结果见表8。

表8中总结的实验结果允许对三种网络架构（表8）进行详细比较，以评估多个关键指标

未来工作

在未来的研究中，计划将改进的DDPG算法应用于具有更复杂运动学模型的控制系统。Yang B [44]、Sze T [45]、Lyu Y [46]、Li J [47]、Toth B [48] 和 Sarhan I [49] 已经在该领域进行了相关工作，他们提出了一种重要的改进：带有多个评论器的DDPG。此外，还可以考虑其他算法，如各种PPO变体、SAC和TD3。例如，在参考文献[50]中，PPO2被用于控制任务。

结论

本研究提出了一个基于DDPG算法的强化学习系统，旨在引导单个机器人在连续的二维环境中导航，同时考虑机器人的方向。学习流程内置了优先级回放缓冲区，提高了采样效率并增强了学习过程的稳定性。

本文提出了一种全面的超参数优化程序，可以系统地选择模型

资助

该项目由Ivan Sergeevich Zvonarev和Yuri Leonidovich Karavaev领导，仅获得了卡拉什尼科夫伊热夫斯克国立技术大学的资助。研究得到了该校在科学项目（代码：KUL-2025 RG）下的财政支持

数据可用性

为了展示算法的功能，发布了一些实验的视频[https://youtu.be/Oup0RWy8VMI。

作者贡献

每位作者都对研究项目做出了重要贡献。

Yuri Leonidovich Karavaev在制定研究思路、开发概念框架和审阅手稿方面发挥了关键作用。

Ivan Sergeevich Zvonarev在编码和算法开发、完善研究思路、明确项目目标、设计并执行实验以及分析结果方面发挥了重要作用。

作者们不同的专业知识和贡献共同推动了研究的成功

伦理批准和参与同意

不适用。

出版同意

所有作者均已同意发表本文。

CRediT作者贡献声明

I.S. Zvonarev：撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据整理。Yu.L. Karavaev：撰写 – 审稿与编辑、项目管理、概念化。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究

方法