一种基于趋势感知的强化学习方法，用于动态环境中机器人操作臂的自适应运动规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A trend-aware reinforcement learning approach for adaptive motion planning of robotic manipulators in dynamic environments

【字体：大中小】 时间：2026年02月24日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本文提出基于趋势学习（TL）、自适应奖励塑形（ARS）和时序差知识蒸馏Q值（TDKDQ）的强化学习框架TL-ARS-TDKDQ，用于解决动态环境中机器人操作臂的精确定位与动态避障问题。通过提取时间序列依赖缓解部分可观测性问题，动态调整奖励函数平衡多目标冲突，结合知识蒸馏稳定策略更新，有效提升复杂动态环境下的控制稳定性和任务成功率。实验验证在CoppeliaSim平台优于传统DRL算法。

王德贤|张鹏|丁鹏飞|王俊亮|张杰

东华大学信息科学与技术学院，上海，201620，中国

摘要

在服务机器人、人机协作和工业自动化等工程应用中，机器人操作器经常在高度动态且部分可观察的环境中工作。动态障碍物、不可预测的人类行为以及快速变化的任务需求加剧了定位精度、障碍物避让和操作安全性之间的固有冲突。同时，这些系统必须依赖不完整且带有噪声的传感器数据来感知和解释周围环境。这种动态场景显著增加了系统的复杂性，需要能够在这种不确定性下做出可靠决策的自适应实时控制策略。为了解决这些问题，本文提出了一种名为“趋势学习-自适应奖励塑造-时差知识蒸馏Q值（动作价值函数）”（简称TL-ARS-TDKDQ）的强化学习框架，旨在使机器人操作器能够在动态环境中自适应地进行精确定位和动态障碍物避让。趋势学习（TL）通过从操作器的序列数据中提取时间依赖性来减轻环境不确定性。自适应奖励塑造（ARS）在逐步增加任务难度的同时，动态平衡机器人操作器的定位精度和障碍物避让。为了在ARS引起的奖励波动期间提高稳定性，时差知识蒸馏Q值（TDKDQ）采用了动态教师网络和基于时差（TD）的平衡机制，确保在涉及机器人操作器控制的非静态场景中策略的稳定收敛。在CoppeliaSim中对KUKA臂进行的实验表明，当TL-ARS-TDKDQ集成到主流连续控制强化学习算法中时，显著提高了收敛速度、控制稳定性和任务成功率。

引言

由于灵活性和易于控制，机器人操作器在制造、医疗和装配应用中被广泛使用（Ortega-Aranda等人，2021年；Rao等人，2017年；Szczepanski等人，2022年）。它们的操作工作空间通常包括静态和移动障碍物，导致环境受限而非开放。此外，这些环境通常是动态且不确定的，其特征是变化不可预测且信息不完整。在这种条件下，操作器必须实时避让碰撞，同时保持对其末端执行器的精确控制。因此，开发能够在动态、受限和不确定环境中解决定位精度、障碍物避让和操作安全性等相互冲突要求的高效路径规划方法仍然是一个重要且具有实际价值的研究挑战。

近年来，针对在动态和受限环境中工作的机器人操作器的路径规划引起了广泛的研究兴趣。这主要是由于实际应用的复杂性不断增加，需要开发可靠有效的算法来安全地绕过静态和移动障碍物，同时实现对操作器末端执行器路径的精确控制。传统方法，如人工势场（APF）方法已被广泛研究。Lin等人提出了一种基于APF的三维路径规划策略，有效缓解了局部最小值问题，使操作器能够安全通过狭窄通道（Lin等人，2025年）。同时，包括A*和Dijkstra在内的图搜索算法也被应用于操作器轨迹规划。Chen等人提出了一种改进的D*算法，通过减少转弯点和最小化碰撞风险来优化预先规划的全局路径，而实时路径调整机制确保了在动态条件下的可达性和障碍物避让（Chen等人，2018年）。为了在不确定环境中进行全局路径规划，Lim等人引入了类排序A*（COA*）算法，在加权有色图上启发式构建了最优搜索树。与传统的A*算法相比，COA*在处理路径不确定性方面表现出更好的性能，但仍然依赖于显式的环境建模，限制了其在实时动态应用中的适用性（Lim和Tsiotras，2021年）。在机器人操作器轨迹规划领域，基于种群的元启发式算法，如遗传算法（GA）和粒子群优化（PSO），因其强大的全局搜索能力和处理复杂多目标优化问题的灵活性而被广泛使用；例如，Asma Seddaoui等人提出了一种基于GA的路径生成器，用于受控浮动空间机器人，利用操作器与航天器底座之间的动态耦合来安全到达抓取点，同时避免碰撞和奇异性，仅需要笛卡尔目标位置作为输入（Seddaoui和Saaj，2021年），?zge Ekrem等人开发了一种基于PSO的轨迹规划方法，用于6自由度机器人臂，使用五阶多项式插值实现无障碍、无振动和时间优化的关节空间运动（Ekrem和Aksoy，2023年）。然而，这些基于种群的元启发式方法通常实时性能有限，使其不太适合在快速变化的环境中进行动态障碍物避让。基于采样的算法，特别是快速探索随机树（RRT），由于在高维空间中的效率，已在操作器运动规划中受到广泛关注。Reference提出了RRT-Connect，它从起始和目标配置逐步生成两条路径，成功为三维工作空间中的6自由度PUMA操作器生成了无碰撞轨迹（Kuffner和LaValle，2000年）。然而，基于采样的方法通常由于固有的随机性而导致路径长度过长、平滑度差和初始路径质量不佳，需要大量的后处理。为了提高规划效率，Ding等人开发了VSA-RRR算法，结合了障碍物避让模型来生成新的采样点，并采用工作空间分割策略将操作器的运动空间划分为几个子区域，从而提高了计算效率（Ding等人，2025年）。此外，Kong等人研究了具有动态不确定性、时变输出约束和输入饱和度的n连杆机器人操作器的轨迹跟踪控制问题。提出了一种有限时间控制策略，以确保在动态环境中的末端执行器避让。然而，这种方法主要关注末端执行器的约束，而没有考虑整个操作器状态空间的障碍物避让，仍有进一步改进的空间（Kong等人，2020年）。最近，数据驱动和基于技能的规划框架被探索用于提高任务间的泛化能力。Liu等人引入了DiffSkill，它从离线数据集中提取技能嵌入，并利用基于扩散的去噪技术促进未见任务的高级策略学习（Liu等人，2024年）。尽管这些方法展示了强大的泛化能力，但通常依赖于大规模的离线数据和抽象的技能表示，这可能限制了它们在复杂、快速变化环境中的适应性和细粒度控制。

与通常计算复杂度高、适应性差且依赖于精确环境模型的传统方法相比，深度强化学习（DRL）为机器人轨迹规划任务提供了一种更自适应的方法。DRL代理可以在复杂环境中通过交互式采样和策略优化自主学习和适应最优策略，而无需显式建模。尽管有这些优势，DRL在动态环境中的机器人轨迹规划仍然面临几个关键挑战，这些挑战阻碍了其实际应用并降低了性能的鲁棒性，包括：

(1) 部分可观察马尔可夫决策过程（POMDP）环境中的不确定性和信念状态不稳定性

(2) 决策制定中的多目标任务冲突

(3) 由非静态性引起的策略收敛和泛化问题

为了解决这些挑战，我们为在动态和复杂环境中工作的机器人操作器提出了一种新的强化学习框架。该框架结合了自适应奖励塑造（ARS）策略、趋势学习（TL）模块和基于时差误差的Q值知识蒸馏（TDKDQ）机制。它旨在在部分可观察和非静态条件下提高自适应障碍物避让和精确末端执行器定位的能力。通过CoppeliaSim中的广泛仿真实验验证了该框架的有效性和鲁棒性。

本文的主要贡献总结如下：

•
构建了一个POMDP模型，用于模拟部分可观察、动态环境中机器人操作器的动态障碍物避让和定位控制任务，同时结合了趋势学习（TL）机制来捕捉时间运动模式并减轻部分可观察性的影响。
•
提出了一种新的自适应奖励塑造（ARS）方法，它在强化学习中动态平衡动态障碍物避让和精确定位之间的冲突目标，实现了全身障碍物避让，而不仅仅是限制末端执行器的安全。
•
引入了基于时差误差的Q值知识蒸馏（TDKDQ）机制，通过加权软Q值估计来缓解ARS引起的非静态性并稳定策略更新。
•
全面的CoppeliaSim仿真证实，所提出的框架在动态环境条件下的有效性、鲁棒性和训练稳定性方面优于多种基线DRL算法。

本文的其余部分组织如下：第2节回顾相关工作。第3节首先建立了一个基于POMDP的模型来描述机器人操作器的动态障碍物避让和定位控制问题。基于该模型，介绍了整个TL-ARS-TDKDQ框架，并详细说明了其关键组件的设计，包括TL方法、ARS机制和TDKDQ模块。第4节描述了仿真平台设置、场景设计和算法参数设置，随后分析了所提出框架在各种主流强化学习算法下的性能。最后，第5节总结了本文。

部分内容摘录

机器人操作器运动的深度强化学习

近年来，随着深度学习的迅速发展，强化学习（RL）有效解决高维连续状态问题的条件已经成熟。这为机器人高维连续运动控制带来了显著优势。世界各地的许多研究人员广泛研究了基于深度强化学习（DRL）的机器人臂轨迹规划（Alegre等人，2025年）。

早期的工作集中在无模型的DRL方法上

方法论

本节首先将机器人操作器的动态障碍物避让和定位控制任务表述为在动态和部分可观察环境下的部分可观察马尔可夫决策过程（POMDP）。基于这种建模，我们构建了所提出的TL-ARS-TDKDQ系统的整体框架。然后，我们描述了该框架的三个关键组成部分：（1）用于时间模式提取和不确定性缓解的趋势学习（TL）

实验和结果

本节介绍了实验平台设置、参数配置以及通过广泛实验和消融研究对所提出方法的性能评估。

结论

在本文中，我们提出了一种用于非静态环境下机器人动态障碍物避让和目标定位的新型TL-ARS-TDKDQ框架。该框架结合了趋势学习（TL）和基于TD误差的Q值知识蒸馏（TDKDQ）机制，以及自适应奖励塑造（ARS）方案。它系统地解决了机器人操作器多任务控制中的关键问题，实现了在高度动态和部分可观察环境中的动态障碍物避让和定位精度。

CRediT作者贡献声明

王德贤：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，软件，方法论，调查，形式分析，数据整理，概念化。张鹏：撰写 – 审稿与编辑，验证，监督，资源管理，项目管理，方法论，资金获取，数据整理，概念化。丁鹏飞：撰写 – 审稿与编辑，验证，形式分析，数据整理。王俊亮：验证，资金获取。张杰：

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

我们感谢编辑和匿名审稿人对提高本文质量的宝贵意见和建议。本工作得到了国家自然科学基金 [资助编号 52005099]；上海软科学研究基金 [资助编号 25692107300]；中央高校基本科研业务费 [资助编号 2232025G-14]的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号