基于Q学习的PRM与ACO混合搜索算法在三维无人机路径规划中的创新研究

《Scientific Reports》:A Q-learning-based hybrid search algorithm integrating PRM and ACO for 3D UAV path planning

【字体: 时间:2026年01月28日 来源:Scientific Reports 3.9

编辑推荐:

  本文针对复杂三维环境中无人机路径规划存在计算复杂性和易陷局部最优的难题,提出一种融合概率路线图(PRM)和蚁群算法(ACO)的强化学习混合方法PRM-QACO。该算法通过PRM构建随机图简化空间结构,引入方向性启发信息优化ACO搜索效率,并嵌入Q学习模块动态平衡探索与利用,最终结合路径优化机制减少转弯次数。仿真结果表明,该方法在MATLAB和AirSim平台的多类三维地形中均能生成高效、安全的飞行路径,为无人机在灾害救援、物流配送等场景的应用提供了有效解决方案。

  
随着无人机在灾害救援、物流配送等场景的广泛应用,三维路径规划成为提升其操作效率与安全性的核心挑战。复杂环境中,传统精确算法因计算复杂度难以实际应用,而元启发式算法易陷入局部最优。现有研究虽尝试多策略融合,但多依赖静态启发规则与固定参数,适应性不足。为此,本研究提出一种融合概率路线图(Probabilistic Roadmap, PRM)和蚁群优化(Ant Colony Optimization, ACO)的强化学习混合算法PRM-QACO,旨在通过动态智能控制提升路径规划效果。
关键技术方法包括:首先利用PRM在三维空间构建随机图以简化环境表达;其次在ACO启发函数中引入方向信息增强搜索针对性;最后嵌入Q学习模块作为智能决策器,根据蚂蚁搜索结果动态调整探索与利用策略,并结合路径优化机制最小化转弯次数。实验在MATLAB和AirSim平台的多类三维地形中进行仿真验证。
路径生成与空间简化
通过PRM方法生成三维随机图,将连续空间离散化为节点网络,显著降低路径搜索的复杂度,为后续蚁群算法提供结构化搜索基础。
启发函数优化
在ACO算法中融入方向性启发信息,使蚂蚁在信息素更新时优先朝向目标点移动,有效减少无效搜索路径,提升收敛速度。
Q学习动态控制
通过Q学习模块对蚂蚁的搜索结果进行奖励或惩罚,实时调整信息素蒸发系数与启发权重,避免早熟收敛,确保精英蚂蚁发现的路径质量持续优化。
路径平滑处理
引入转弯次数最小化机制,对初步规划路径进行后处理,删除共线节点并调整航路点角度,降低无人机能耗并提升避障能力。
研究结论表明,PRM-QACO算法在复杂地形中能稳定生成较短且平滑的飞行路径,其动态平衡机制显著优于传统ACO及固定参数混合算法。该工作为无人机在动态环境中的自主导航提供了可扩展的解决方案,尤其适用于对实时性要求高的应用场景。讨论部分进一步指出,未来可探索多智能体协同规划及在线学习机制,以应对更复杂的三维环境约束。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号