在感知不确定性下的鲁棒无人机导航：一种基于时空变换器增强型强化学习的方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Robust UAV navigation under perception uncertainty: a spatiotemporal transformer-enhanced reinforcement learning approach

【字体：大中小】 时间：2026年03月16日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　自主无人机导航中基于时空Transformer增强的强化学习方法提出，通过双分支网络分别处理时空特征，结合Transformer模块提升长时依赖建模能力，有效抑制传感器噪声干扰，显著提高导航成功率与安全性。

生源媛|李俊宝|刘环宇|谢先安

哈尔滨工业大学计算机学院，中国哈尔滨150001

摘要

强化学习（RL）由于其端到端的特性和对精确环境模型的低依赖性，已成为自主无人驾驶飞行器（UAV）导航的突出方法。然而，现有的RL方法通常假设传感器感知是理想的，而现实世界的感知数据往往受到传感器限制和环境因素引起的噪声干扰。为了解决这一挑战，本文提出了一种基于时空变换器的增强型RL（STERL）方法，用于UAV自主导航。STERL采用专门的时间和空间分支子网络来处理从序列状态信息中得到的时间特征矩阵和状态差分矩阵。然后通过整合这些时空表示来生成飞行指令决策。此外，通过在时空双分支网络中嵌入变换器模块以增强长期依赖性建模，该方法在保持基线导航性能的同时提高了导航安全性和飞行效率。大量实验表明，所提出的算法在不同障碍物密度下都能实现最佳的导航成功率，并在安全性和效率指标上表现出领先性能。在各种噪声干扰水平下，STERL表现出出色的鲁棒性，在极端噪声条件下性能仅下降18.9%，远低于现有算法。这些结果突显了其在复杂干扰场景中的优越性能和在工业应用中的强大实用性。

引言

随着低空经济的快速发展，无人驾驶飞行器（UAV）已在多个行业中得到广泛应用[1]，[2]，例如在城市检测、救灾和农业监测[3]，[4]，[5]，[6]中的应用。自主导航系统对于保障UAV的运行安全至关重要。然而，许多复杂的任务环境对UAV的感知和决策能力提出了严峻挑战。特别是在传感器噪声干扰下的自主导航已成为限制UAV在现实世界中可靠部署的关键瓶颈[7]，[8]。作为主要的环境感知传感器，机载光检测和测距（LiDAR）测量数据容易受到多种干扰，包括由硬件限制（设备抖动和光束发散）引起的系统噪声、环境因素（雨/雾散射和动态障碍物反射）引起的随机噪声，以及信号处理过程中引入的量化噪声[9]，[10]，[11]。根据最近的实证研究，在雨、雪或雾霾条件下，LiDAR测距数据的强度损失可超过30%[12]，从而导致测量误差，严重削弱了UAV自主导航的可靠性。

深度强化学习（DRL）已成为解决UAV自主导航挑战的关键方法，因为它采用端到端训练范式，并且对精确环境模型的依赖性最小[13]，[14]，[15]，[16]。然而，目前的大多数研究都集中在理想化感知条件下的导航算法优化上，忽略了实际部署中普遍存在的传感器噪声问题。当前基于DRL的导航方法在面对传感器引起的感知不确定性时存在以下三个关键限制：

(1) 感知分布偏移：传感器噪声导致训练状态分布和部署状态分布之间的差异[9]，[17]，[18]。这种偏移显著降低了DRL的导航性能[19]。

(2) 缺乏对不确定性的建模：现有方法主要假设传感器数据的准确性和可靠性，未能明确建模感知不确定性。因此，在传感器引起的不确定性下，它们的表现明显不足[20]，[21]。

(3) 无效的时间噪声抑制：当前框架未能充分利用历史观测数据来减轻噪声影响。实证证据表明，突然的噪声干扰会在现有方法中引发显著的状态估计误差[22]。

这些共同缺点严重限制了基于DRL的导航系统在复杂现实环境中的实际效果。

为了解决上述挑战，本文提出了一种基于时空变换器的增强型强化学习（RL）方法。其核心创新在于时空信息处理的明确解耦：空间分支子网络专门分析状态差分矩阵，通过计算当前状态与多个历史状态之间的差异来捕捉局部环境动态；同时，时间分支子网络处理原始的序列状态序列，保留了全面的全局环境演变模式。值得注意的是，嵌入在两个分支中的变换器模块利用自注意力机制实现关键状态过滤和长期依赖性建模。这种架构有效地利用了历史感知数据和动态变化，并区分了噪声成分和真实的环境特征，从而在复杂干扰条件下保持稳健的决策性能。

为了验证所提出方法的有效性，在Gazebo平台上配置了仿真场景，并进行了全面评估。结果表明，在无噪声条件下，所提出的算法在关键指标（包括导航成功率和飞行安全性）上显著优于现有主流方法。在噪声干扰实验中，该算法在多个基准测试中始终表现出领先性能。值得注意的是，即使在极端噪声干扰下，它也能保持73%的导航成功率，比传统方法高出40%以上。此外，该方法表现出稳健的整体性能，完全符合自主UAV导航的安全标准。本研究的主要贡献有三方面：

(1) 开发了一种时空解耦的双分支网络架构，通过独立处理状态差分矩阵和时间特征矩阵来增强环境信息和运动特征的提取；

(2) 将变换器模块创新性地嵌入到双分支框架中，大幅提高了长期时间建模能力和导航效率；

(3) 严格的实验验证表明在导航性能、安全性和飞行效率方面具有全面优势。这些进展为复杂干扰环境中的自主UAV导航建立了一种新的技术范式，提供了重要的理论贡献和实际应用价值。

本文的结构如下：第2节回顾了相关研究，重点分析了现有DRL方法在处理感知不确定性方面的进展和局限性。第3节详细介绍了所提出的基于时空变换器的增强型RL算法，包括不确定性建模、基于DRL的UAV导航框架和时空变换器增强的双分支网络架构。第4节展示了实验结果，通过定量分析和定性比较验证了所提方法的优势。最后，第5节总结了整个研究。

部分摘录

基于DRL的自主导航

DRL在自主UAV导航方面取得了显著进展，研究主要集中在状态空间优化、奖励函数设计、算法效率提升和环境适应性方面。关于状态空间优化，生源媛等人[16]提出了一种多维状态表示方法，结合了位置和角度信息，显著提高了在高动态密集环境中的导航精度。张等人[23]创新性地采用了

方法论

本节首先介绍了自主UAV导航任务的场景，并在感知不确定性约束下制定了导航任务模型。随后，详细介绍了基于DRL的导航模型，包括状态空间设计的全面规范、动作空间定义和奖励函数的形成。最后，介绍了基于变换器的增强型时空双分支网络框架。

实验结果与分析

本节采用两组系统的实验数据以及严格的多维评估来验证所提算法的有效性。首先，构建了具有不同障碍物密度的测试环境，以评估无噪声条件下的自主导航性能。然后，设计了逐渐增强的噪声干扰场景，以验证算法对传感器噪声的鲁棒性。最后，进行了消融研究，以调查

结论

本研究提出了一种STERL方法，用于解决传感器感知不确定性下的自主UAV导航问题。该方法创新性地设计了一种解耦的时空双分支架构——时间分支处理序列状态特征矩阵以捕捉全局环境动态，而空间分支分析状态差分矩阵以提取局部环境变化。通过在两个分支中嵌入变换器模块，自注意力机制得到了加强

CRediT作者贡献声明

生源媛：撰写——原始草稿、可视化、方法论、概念化。李俊宝：资源获取、项目管理、资金筹集。刘环宇：撰写——审阅与编辑、资金筹集、形式分析。谢先安：验证、数据整理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了国家自然科学基金（批准编号：62271166和62401177）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号