基于GRPO-MDP框架的多模态扩散策略与分组相对策略优化增强无人机动态路径规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月02日 来源：Alexandria Engineering Journal 6.8

编辑推荐：

　　本文针对动态环境中无人机(UAV)自主路径规划的不确定性问题，提出了结合多模态扩散策略与分组相对策略优化(GRPO-MDP)的新框架。该研究利用去噪扩散概率模型(DDPM)生成多样化的动作样本，通过组内轨迹比较构建优势函数，并引入后见轨迹重标定机制与基于控制屏障函数(CBF)的安全滤波器。实验结果表明，该框架在动态环境中，在成功率、路径效率与安全性方面均优于现有方法，为无人机自主导航提供了更可靠高效的解决方案。

在无人机（UAV）日益广泛地应用于农业巡检、环境监测、应急救援等诸多领域的当下，如何让这些“空中精灵”在复杂、动态的环境中自主、安全、高效地飞行，已成为一个亟待解决的关键难题。传统的路径规划方法，如基于采样的RRT（快速随机探索树）或基于优化的方法，往往计算开销大，难以应对实时变化的环境，且生成的路径可能不够平滑。近年来，深度强化学习（DRL）为无人机赋予了从交互中“学习”飞行策略的能力，展现出巨大潜力。然而，现有DRL方法通常存在两大瓶颈：一是策略往往局限于单一模式，当面对一个障碍物时，向左绕和向右绕可能是等效的，但传统策略只能学会其中一种，限制了探索的灵活性与策略的表达能力；二是学习过程严重依赖于稀疏的成功奖励信号，大量的失败经验被简单抛弃，未能转化为有效的学习信号，导致样本效率低下。此外，确保无人机在高速飞行中绝不与障碍物相撞的“硬安全”约束，也往往难以得到严格保证。针对这些挑战，一项发表于《Alexandria Engineering Journal》的研究提出了一种创新的解决方案。

为了攻克上述难题，研究人员设计并实现了一个名为“GRPO-MDP”（Group Relative Policy Optimization with a Multimodal Diffusion Strategy）的全新框架。该研究的核心技术方法主要包括：1. 多模态扩散策略网络：利用去噪扩散概率模型（DDPM）构建策略网络，使其能够从同一环境状态生成多种不同的可行动作（如绕行方向），增强了策略的多样性与探索能力。2. 分组相对策略优化（GRPO）：摒弃了传统DRL中难以准确估计的价值网络，通过将收集到的轨迹进行分组，在组内根据轨迹回报进行相对排序来构建优势函数，从而更稳定地优化策略。3. 后见轨迹重标定机制：对失败的飞行轨迹进行智能“改写”，为其假设一个虚拟的目标或安全边界，从而将这些失败经验转化为具有正面学习价值的样本，缓解了稀疏奖励问题。4. 实时安全滤波器：采用控制屏障函数（CBF）作为最后的安全保障，对策略网络输出的动作进行实时修正，严格保证无人机在任何时候都不违反预设的安全距离约束。

研究结果

1. 状态与动作空间设计

研究将无人机导航任务建模为一个马尔可夫决策过程（MDP）。状态空间被精心设计为包含四个子空间：无人机自身的运动学状态（位置、速度、姿态等）、相对于目标的状态、对周围障碍物的观测（以包含相对位置和速度的点云形式表示）以及由Transformer编码的过去历史状态-动作上下文。动作空间则定义为三维加速度命令，确保了控制的连续性与平滑性。

2. 扩散策略网络的有效性

通过设计的U-Net骨干网络结合条件注入机制，扩散模型成功学习到了多模态的动作分布。在相同的复杂障碍物场景下，该策略能够稳定地生成多种绕过障碍物的飞行路径，验证了其在捕获和表达多种近优解方面的能力。相比传统的单峰高斯策略，扩散策略显著提高了探索效率。

3. GRPO优化与后见重标定的效果

实验表明，GRPO方法在训练稳定性上优于传统的演员-评论家（Actor-Critic）方法，尤其是在奖励稀疏的环境中。后见轨迹重标定机制显著提升了学习效率，使智能体能够从碰撞或失败的飞行中吸取经验，加速了策略的收敛与性能提升。

4. CBF安全滤波器的保障作用

在包含动态障碍物的高风险仿真环境中，集成了CBF安全滤波器的GRPO-MDP框架实现了100%的碰撞避免。而仅使用概率惩罚的传统DRL方法仍会出现少量违规情况。这证明了CBF能够作为一个可靠的“安全网”，严格保障了硬安全约束。

5. 整体性能对比

在动态环境导航的综合性测试中，GRPO-MDP框架在成功到达目标的比例、飞行路径的总长度（效率）以及最小安全距离保持（安全性）等多个指标上，均显著超越了经典的DRL方法（如PPO、SAC）以及传统的采样规划方法（如RRT*），展示了其综合优势。

结论与意义

本研究提出的GRPO-MDP框架，成功地解决了无人机动态路径规划中的几个核心挑战。通过扩散模型实现了策略的多模态表达，使无人机具备了灵活应对同一场景多种可行方案的能力；通过GRPO和后见经验重标定，提高了在稀疏奖励环境下的学习效率和稳定性；最后，通过CBF安全滤波器，为无人机的自主飞行提供了严格的实时安全保证。

这项工作的意义在于，它不仅仅是将先进的生成模型（扩散模型）与强化学习相结合的一次成功尝试，更是为移动机器人、自动驾驶等需要在复杂动态环境中确保安全与效率的领域，提供了一个可借鉴的通用框架范式。它表明，通过精心设计的状态表示、创新的策略优化算法以及严格的安全约束机制，能够显著提升自主系统在不确定现实世界中的性能和可靠性。未来，该框架有望扩展到多无人机协同、异构机器人编队等更复杂的任务场景中。

联系信箱：

粤ICP备09063491号

热点排行