QER-LPD3QN：一种基于量子思维的序列感知深度强化学习路径规划算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：QER-LPD3QN: A Quantum-Inspired Sequence-Aware Deep Reinforcement Learning Algorithm for Path Planning

【字体：大中小】 时间：2026年02月10日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　实时、安全、平滑路径规划在动态场景中仍面临挑战。传统方法时空建模不足，标准DRL存在经验回放时序不一致和Q值估算偏差问题。本文提出QER-LPD3QN框架，融合量子启发的序列经验回放(QER)与LSTM双人对抗DQN。QER通过量子态编码实现动态优先级调整，分别增强高TD误差样本和降低过度回放样本权重，保持时序连贯性。LSTM捕获长时依赖，双人对抗结构稳定Q值估计。实验表明，该框架在动态障碍场景中实现零碰撞，平均推理延迟<4ms，轨迹平滑度比基线提升87.5%，样本效率优于标准PER提升5.4%。研究验证了量子启发式经验回放在时序任务中的有效性，为动态环境自主导航提供新方案。

郭鹤|蔡正毅|李亚伦

天津工业大学控制科学与工程学院，中国天津市滨水西路399号，300387

摘要

在高度动态的场景中进行实时、安全且平滑的路径规划仍然具有挑战性。传统规划器对时间演变的建模不足，而标准的深度强化学习在经验回放和Q值估计方面存在时间不一致性问题。本文提出了QER-LPD3QN这一新颖框架，它将量子启发式序列经验回放（QER）与基于LSTM的Dueling Double DQN相结合。在QER中，每个经验序列被编码为类似量子比特的状态，其概率幅度决定了采样优先级。引入了两种旋转操作符：“prepare”用于放大TD误差较大的样本，而“depreciate”则降低被过度回放样本的权重，从而保持时间连贯性并实现自动优先级调整。LSTM主干网络捕捉长期依赖关系，Dueling-Double架构则稳定价值估计。在静态基准测试和高度动态的基准测试（例如“旋转扫帚”和“动态交通”）中的广泛评估表明，我们的方法保持了实时性能，平均推理延迟低于4毫秒。与传统的规划器和标准的基于策略的算法（例如PPO）不同，后者无法可靠地导航动态障碍物，我们的方法在所有评估的动态环境中实现了零碰撞的安全记录。定量结果显示，与IDDQN和其他强化学习基线相比，我们的方法生成的轨迹更加平滑。消融研究证实了各个组件的贡献：LSTM增强了收敛稳定性，QER比优先经验回放（PER）提供了更高的样本效率，Dueling-Double设计有效减少了估计偏差。所提出的框架不依赖于特定的控制器，特别适用于非静态环境，能够实现稳健的自主导航。

引言

随着人工智能的最新进展，具身智能受到了广泛关注。与物理世界交互的智能体需要强大的导航能力；例如服务机器人、自动驾驶汽车和四足机器人。路径规划是这种交互的基础，其目标是从起点生成到目的地的安全高效路线，同时避开障碍物。

以往的研究通常将路径规划分为全局规划和局部规划。全局规划已经得到了广泛研究，通常依赖于预先知晓的静态障碍物地图。相比之下，局部规划在更严格的约束下运行，包括有限的感知范围、传感器噪声以及边缘设备的计算能力限制。因此，在充满动态障碍物的复杂环境中导航仍然是一项具有挑战性的任务。尽管基于规则和优化的局部规划器已被广泛应用，但由于在动态、部分可观察场景中实时计算轨迹的复杂性，保证性能和鲁棒性仍然很困难（Hakemi, Houshmand, KheirKhah等人，2024年）。

为了解决这些限制，强化学习（RL）被越来越多地采用。通过将路径规划形式化为马尔可夫决策过程（MDP），深度强化学习（DRL）整合了深度神经网络来直接提取高维环境特征并选择动作。这种端到端的方法展示了学习适应动态环境的复杂策略的能力，优于传统的感知与规划分离方法。然而，DRL应用面临持续的挑战，包括训练收敛慢、样本效率低和不稳定。尽管优先经验回放（PER）通常用于通过回放具有高时间差（TD）误差的转换来提高样本利用率，但它会在序列任务中引入新的问题。

路径规划本质上是一个序列决策问题，时间相关性至关重要。标准的PER将经验视为独立同分布（i.i.d.）样本，这破坏了运动预测和平滑避障等任务所需的时间依赖性（Yu, Zhao, Chen，2024年）。此外，传统的PER缺乏随时间调整经验价值的动态机制；误导性的转换可能会被过度采样，导致训练不稳定和性能波动。

与此同时，量子计算与人工智能的结合提供了新的理论视角（Deng, Cai, Wu等人，2024年）。具体来说，量子比特中的概率幅度编码提供了一种增强种群多样性和全局搜索效率的机制。在强化学习的背景下，量子并行性和干涉概念被用来平衡探索和利用，从而加速收敛。最近，Wei等人提出了DRL-QER，将深度强化学习与量子启发式经验回放相结合（Dai & Zhou，2023年）。在他们的方法中，经验被映射到量子状态，并通过“prepare”和“depreciate”操作符迭代调整其回放概率。然而，标准的DRL-QER仅对单个转换进行操作。这种将序列问题简化为离散采样的做法破坏了时间相关性，使得当前的量子启发式方法难以有效应用于长距离路径规划任务。

为了解决动态环境中样本效率低、时间依赖性破坏和收敛不稳定的问题，本文提出了一个统一的框架。我们将量子启发式机制扩展到序列层面，以保持轨迹连续性。主要贡献总结如下：

1.

QER-LPD3QN框架。我们通过将量子启发式序列经验回放（QER）与基于LSTM的Dueling Double DQN相结合，提出了一个统一的导航框架。LSTM模块实现了时间建模，而Dueling-Double架构稳定了价值估计。这种组合将轨迹平滑成本相对于非循环基线（IDDQN）降低了大约87.5%，这是基于多个随机种子的平均结果。

2.

序列级量子状态优先级。我们设计了一种序列级的prepare–depreciate旋转机制，以自适应地调节回放优先级。与基于PER的方法不同，该方案保持了时间连续性，并避免了短距离片段的过度采样。与序列感知的PER基线（PER_LSTM）相比，由此产生的回放分布提高了5.4%的路径规划效率。

3.

系统评估和实时可行性。我们在密集的静态地图和高度动态的场景中进行了广泛测试，包括“旋转扫帚”和多车流交叉口。QER-LPD3QN的平均推理延迟低于4毫秒，在评估设置下的成功率为100%，在动态场景中的成功率比PPO高出20%，并且在所有运行中都没有发生碰撞。

本文的其余部分组织如下。第二节回顾了路径规划、基于DRL的规划器和经验回放策略的相关工作。第三节阐述了路径规划MDP和安全约束。第四节详细介绍了QER-LPD3QN框架，包括量子状态序列回放机制。第五节报告了比较实验和消融研究。最后，第六节总结了本文并讨论了未来方向，如多机器人协调和仿真到现实的转移。

部分摘录

经典路径规划算法

经典的图搜索和基于采样的规划器在静态或结构良好的环境中提供了明确的保证。当使用可接受的启发式方法时，A*可以找到最优路径（Wang, Song, Lin等人，2021年）。RRT在高维空间中确保了概率完备性，而RRT*实现了渐进最优性，并在复杂场景中提高了路径质量（Ansere, Gyamfi, Sharma等人，2023年）。对于局部障碍物避让和实时控制，人工势能（Artificial Potential）

任务和工作空间

导航任务在一个平面工作空间中表述

W ? R^{2}

1.

关注交互逻辑。在动态导航中，主要难点在于时间推理和碰撞风险演变，而不是

提出的算法

第4节以与图1所示的计算流程对齐的结构化顺序介绍了QER-LPD3QN框架。这种呈现顺序是由核心组件之间的内在技术依赖性决定的。第4.1节中对离散动作空间的定义是一个基础前提，因为动作集的维度和语义直接决定了决策网络的输出层配置。在此基础上

实验和结果

在仿真中评估了QER-LPD3QN的可行性。实现是在Visual Studio Code中构建的。还包含了四个额外的规划器进行比较。在gym框架下创建了四个150×150的视觉环境。QER-LPD3QN的超参数列在表1中。训练在Windows 11上执行，使用的是Intel Core Ultra 7 265K（3.90 GHz）CPU和NVIDIA RTX 5070 Ti GPU。在相同的未知障碍物设置下，QER-LPD3QN与所有基线进行了比较。

结论和未来工作

提出了一种适用于强动态环境的QER-LPD3QN规划器。序列级的量子启发式经验回放与LSTM + Dueling + Double价值架构相结合。通过prepare/depreciate旋转操作符自适应地调节了序列样本的采样概率。时间连贯性、样本效率和估计稳定性得到了共同保持。

在密集障碍物地图、狭窄交叉口和两个高度动态的场景中进行了全面比较。

未引用的浮点数

表3.

CRediT作者贡献声明

郭鹤：概念化、方法论、软件、形式分析、调查、写作——原始草稿、可视化。蔡正毅：监督、验证、写作——审阅与编辑。李亚伦：项目管理、资源获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言