针对某些在三维崎岖地形中移动的机器人，采用了动态路径规划方法：结合了基于Q学习的MOPSO算法和改进版的DWA算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Mathematics and Computers in Simulation》：Dynamic path planning for certain mobile robots in the 3D rough terrain: Fusion of the Q-learning enhanced MOPSO and improved DWA

【字体：大中小】 时间：2026年03月14日 来源：Mathematics and Computers in Simulation 4.4

编辑推荐：

　　移动机器人三维复杂地形动态路径规划算法MOQLPSO-ADWA提出，融合Q-learning增强的多目标粒子群优化（MOQLPSO）与自适应动态窗口方法（ADWA）。MOQLPSO通过Q-learning动态调整惯性权重和加速度参数，结合交叉算子提升全局优化能力；ADWA改进障碍物避让策略，动态优化动态窗口权重系数，增强环境适应性。二者融合实现全局路径规划与实时避障的协同优化，显著提升路径安全性及规划效率。

　　
智能移动机器人在复杂三维地形的动态路径规划研究

摘要解读：
针对传统粒子群优化算法易陷入局部最优且难以应对动态环境的问题，本研究提出融合Q-learning增强的多目标粒子群优化（MOQLPSO）与自适应动态窗口（ADWA）的混合算法。该算法通过全局优化与局部避障的协同机制，有效解决了三维非结构化地形中动态障碍物规避与全局路径规划的双重挑战。实验表明，相较于现有DWA算法，MOQLPSO-ADWA在路径平滑度、避障成功率及环境适应性方面提升显著，平均路径长度减少18.7%，避障响应时间缩短32.4%，尤其在多障碍物交互场景中表现出优异的鲁棒性。

核心创新点解析：
1. 多目标优化框架构建
研究团队在传统MOPSO基础上引入Q-learning机制，通过建立环境反馈奖励模型实现算法参数的在线动态优化。该设计有效平衡了路径长度、地形适应性和避障安全性的多目标需求，实验数据显示目标冲突率降低至2.3%，较传统算法提升41%。

2. 自适应动态窗口改进
ADWA算法通过三层权重调节机制突破传统静态权重局限：首先基于全局优化结果动态调整基础权重系数；其次引入障碍物实时距离修正因子；最后根据运动学约束建立窗口形状自适应调整模型。这种分层优化使动态避障响应速度提升27%，同时保持路径连续性。

3. 混合算法协同机制
全局规划与局部避障的协同工作流程包含五个关键阶段：初始路径生成→障碍物动态感知→路径修正决策→运动学约束校准→实时轨迹优化。特别设计的轨迹平滑滤波器将路径角加速度控制在±0.15 rad/s2范围内，显著改善机器人的运动平稳性。

技术实现路径：
- Q-learning参数优化模块采用三层神经网络架构，输入层包含环境特征向量（地形粗糙度、障碍物密度等12维特征），隐藏层设置两个全连接层（128节点和64节点），输出层直接控制PSO的惯性权重和加速度系数。
- 多目标粒子群通过改进的离散交叉算子保持种群多样性，交叉概率动态调整范围在0.35-0.72之间，有效避免早熟收敛问题。
- 动态窗口评估函数采用四元组权重结构（安全系数α、地形匹配度β、路径长度γ、平滑度δ），其中α系数通过蒙特卡洛方法在线优化，实时响应障碍物威胁。

实验验证体系：
研究团队构建了包含7类典型三维场景的测试集（包含岩壁地形、植被覆盖区、洞穴结构等），通过对比实验验证算法优势：
1. 在包含12个动态障碍物的测试场景中，MOQLPSO-ADWA平均避障成功率达到98.7%，较次优算法提升14.2个百分点。
2. 路径平滑度指标（平均曲率半径）达到4.82±0.31 m，较传统DWA算法提升22.6%。
3. 多目标权衡方面，算法在安全性与效率的帕累托前沿上形成更密集的解集，前1%最优解中包含78%的可行轨迹。
4. 实时性测试显示，在100m×100m区域规划时，算法平均决策周期为1.24秒，满足实时性要求。

应用场景扩展：
该算法已成功应用于三个典型领域：
- 智能农业：在梯田作业场景中，路径规划效率提升39%，燃料消耗降低28%
- 矿山探测：在复杂岩层结构中实现97.3%的障碍物完全避让
- 灾后救援：在废墟环境中平均避障响应时间缩短至1.2秒

技术挑战突破：
研究团队重点攻克了三个核心难题：
1. 动态权重调整机制：通过建立环境特征与权重系数的映射关系，使权重调整速度提升至传统方法的2.3倍。
2. 非线性地形建模：采用曲率感知的网格划分技术，将三维地形离散为4.2×10^6个特征单元，建模精度达到厘米级。
3. 多算法协同调度：设计基于时间窗的算法切换机制，在0.3秒内完成从全局规划到局部避障的算法切换。

算法性能对比：
| 指标 | MOQLPSO-ADWA | 传统DWA | 改进型OASDWA |
|---------------------|-------------|--------|-------------|
| 平均避障成功率(%) | 98.7 | 76.3 | 89.4 |
| 路径平滑度(m) | 4.82 | 6.17 | 5.34 |
| 最大决策延迟(s) | 1.24 | 2.11 | 1.67 |
| 多目标解集密度 | 78% | 42% | 65% |

未来研究方向：
研究团队计划在以下领域进行深化：
1. 神经网络参数优化：拟引入贝叶斯优化替代Q-learning，提升参数调优效率
2. 多机器人协同：开发基于群体智能的分布式决策系统
3. 实时系统优化：研究边缘计算架构下的算法轻量化改造
4. 人类意图融合：集成多模态交互信号增强环境适应性

该研究已获得国家自然科学基金（62373191）和江苏省自然科学基金（BK20251776）资助，相关算法原型在工业机器人领域实现商业化应用，验证了理论研究的工程价值。研究过程中形成的动态权重调整理论、多目标协同优化方法等6项关键技术已申请发明专利，为后续技术转化奠定基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号