随着低空经济的快速发展,无人驾驶飞行器(UAV)已在多个行业中得到广泛应用[1],[2],例如在城市检测、救灾和农业监测[3],[4],[5],[6]中的应用。自主导航系统对于保障UAV的运行安全至关重要。然而,许多复杂的任务环境对UAV的感知和决策能力提出了严峻挑战。特别是在传感器噪声干扰下的自主导航已成为限制UAV在现实世界中可靠部署的关键瓶颈[7],[8]。作为主要的环境感知传感器,机载光检测和测距(LiDAR)测量数据容易受到多种干扰,包括由硬件限制(设备抖动和光束发散)引起的系统噪声、环境因素(雨/雾散射和动态障碍物反射)引起的随机噪声,以及信号处理过程中引入的量化噪声[9],[10],[11]。根据最近的实证研究,在雨、雪或雾霾条件下,LiDAR测距数据的强度损失可超过30%[12],从而导致测量误差,严重削弱了UAV自主导航的可靠性。
深度强化学习(DRL)已成为解决UAV自主导航挑战的关键方法,因为它采用端到端训练范式,并且对精确环境模型的依赖性最小[13],[14],[15],[16]。然而,目前的大多数研究都集中在理想化感知条件下的导航算法优化上,忽略了实际部署中普遍存在的传感器噪声问题。当前基于DRL的导航方法在面对传感器引起的感知不确定性时存在以下三个关键限制:
(1) 感知分布偏移:传感器噪声导致训练状态分布和部署状态分布之间的差异[9],[17],[18]。这种偏移显著降低了DRL的导航性能[19]。
(2) 缺乏对不确定性的建模:现有方法主要假设传感器数据的准确性和可靠性,未能明确建模感知不确定性。因此,在传感器引起的不确定性下,它们的表现明显不足[20],[21]。
(3) 无效的时间噪声抑制:当前框架未能充分利用历史观测数据来减轻噪声影响。实证证据表明,突然的噪声干扰会在现有方法中引发显著的状态估计误差[22]。
这些共同缺点严重限制了基于DRL的导航系统在复杂现实环境中的实际效果。
为了解决上述挑战,本文提出了一种基于时空变换器的增强型强化学习(RL)方法。其核心创新在于时空信息处理的明确解耦:空间分支子网络专门分析状态差分矩阵,通过计算当前状态与多个历史状态之间的差异来捕捉局部环境动态;同时,时间分支子网络处理原始的序列状态序列,保留了全面的全局环境演变模式。值得注意的是,嵌入在两个分支中的变换器模块利用自注意力机制实现关键状态过滤和长期依赖性建模。这种架构有效地利用了历史感知数据和动态变化,并区分了噪声成分和真实的环境特征,从而在复杂干扰条件下保持稳健的决策性能。
为了验证所提出方法的有效性,在Gazebo平台上配置了仿真场景,并进行了全面评估。结果表明,在无噪声条件下,所提出的算法在关键指标(包括导航成功率和飞行安全性)上显著优于现有主流方法。在噪声干扰实验中,该算法在多个基准测试中始终表现出领先性能。值得注意的是,即使在极端噪声干扰下,它也能保持73%的导航成功率,比传统方法高出40%以上。此外,该方法表现出稳健的整体性能,完全符合自主UAV导航的安全标准。本研究的主要贡献有三方面:
(1) 开发了一种时空解耦的双分支网络架构,通过独立处理状态差分矩阵和时间特征矩阵来增强环境信息和运动特征的提取;
(2) 将变换器模块创新性地嵌入到双分支框架中,大幅提高了长期时间建模能力和导航效率;
(3) 严格的实验验证表明在导航性能、安全性和飞行效率方面具有全面优势。这些进展为复杂干扰环境中的自主UAV导航建立了一种新的技术范式,提供了重要的理论贡献和实际应用价值。
本文的结构如下:第2节回顾了相关研究,重点分析了现有DRL方法在处理感知不确定性方面的进展和局限性。第3节详细介绍了所提出的基于时空变换器的增强型RL算法,包括不确定性建模、基于DRL的UAV导航框架和时空变换器增强的双分支网络架构。第4节展示了实验结果,通过定量分析和定性比较验证了所提方法的优势。最后,第5节总结了整个研究。