基于在线强化学习的四旋翼无人机实时稳定控制框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Online reinforcement learning-based real-time stabilization framework for quadrotors

【字体：大中小】 时间：2026年05月11日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　尼贾特·图肯梅兹|塞塔·O·博戈西亚恩伊斯坦布尔技术大学机电工程系，土耳其伊斯坦布尔，34469 **摘要** 本研究提出了一种基于自适应学习的实时框架，用于四旋翼飞行器的稳定性控制，能够根据动态环境条件优化连续参数。该框架利用高精度传感器测量数据，采用“演员-评

　　尼贾特·图肯梅兹|塞塔·O·博戈西亚恩
伊斯坦布尔技术大学机电工程系，土耳其伊斯坦布尔，34469

**摘要**
本研究提出了一种基于自适应学习的实时框架，用于四旋翼飞行器的稳定性控制，能够根据动态环境条件优化连续参数。该框架利用高精度传感器测量数据，采用“演员-评论家”（Actor-Critic）范式在不了解系统动力学特性的情况下推导出最优稳定策略。具体而言，“评论家”和“演员”网络能够同时评估和改进控制策略，使系统能够在无需人工干预的情况下减轻由高速风扇系统引起的空气动力扰动。为了提高计算效率并提供毫米级精度反馈，系统中集成了高精度定位系统作为主要定位参考。人工智能（AI）的贡献在于模型独立的积分强化学习（Integral Reinforcement Learning, IRL）权重更新法则；工程应用则通过在不同空气动力载荷下实时稳定纳米级四旋翼飞行器来展示。通过在受控室内飞行环境中改变风速强度，严格评估了该框架的有效性。实验结果表明，在线强化学习（Online Reinforcement Learning, RL）代理成功识别并调整了控制参数，从而在动态环境中为无人机（Unmanned Aerial Vehicle, UAV）控制提供了坚实的基础。

**引言**
无人机的自主应用在基础设施检查到军事任务等多个领域呈指数级增长（Valavanis, 2008; Shakhatreh et al., 2019）。特别是四旋翼飞行器作为无人机的一个重要子类，由于其出色的机械灵活性而成为当前研究的重点。它们具备精确操控和垂直起降（VTOL）能力，在自主监测、搜救行动、物流配送系统以及实时环境监测等广泛领域得到应用（Zuo et al., 2022; Foudeh et al., 2021）。然而，由于这些系统的高度非线性动力学特性以及对外部环境干扰（如阵风）的敏感性（Tayebi and McGilvray, 2006; Wang et al., 2022; Mohsan et al., 2023），保持飞行稳定性始终是一个重大挑战。传统控制策略在飞行器物理参数变化或运行环境不可预测时难以维持稳定飞行（Mohammadi and Shahri, 2013; Wang et al., 2022）。因此，四旋翼飞行器的稳定性控制需要将经典控制理论、自适应策略以及现代基于机器学习（ML）的方法相结合，这是一个复杂的挑战。这种复杂性源于对高精度传感器融合的严格要求、环境扰动的不可预测性以及对计算效率高的控制架构的需求（Raza and Gueaieb, 2010; Mohd Basri et al., 2015）。过去十年中，稳定性问题得到了广泛研究，因为可靠的姿态和高度控制是所有四旋翼任务的基本前提（Gupte et al., 2012; Idrissi et al., 2022）。为此，开发了多种控制算法以提高四旋翼的精度和稳定性（Kim et al., 2020; Al-Kaff et al., 2018）。传统的比例-积分-微分（PID）控制器因其简单性和在小偏差下的稳定性而广泛应用（Lopez-Sanchez and Moreno-Valenzuela, 2023; Borase et al., 2021）。尽管PID控制器架构简单，但在外部干扰或参数变化较大时往往缺乏鲁棒性（Mohammadi and Shahri, 2013）。因此，在运行条件快速变化需要控制适应性的动态环境中，这些经典策略难以维持稳定。线性二次调节器（Linear Quadratic Regulators, LQR）常用于通过最小化预定义的二次成本函数来推导最优控制律（Argentim et al., 2013; Bouabdallah et al., 2004）。在四旋翼控制中，LQR被广泛应用于姿态稳定和设定点控制，因其对线性时不变（Linear Time-Invariant, LTI）系统的优化特性而非常有效（Shulong et al., 2014）。然而，当飞行器经历非线性情况（如剧烈机动、强空气动力扰动或载荷突变）时，LQR性能会下降（Chovancová et al., 2014）。

模型预测控制（Model Predictive Control, MPC）因具有预测能力和处理状态及输入约束的系统框架而成为动态系统的主要控制策略（Garcia et al., 1989）。Abougarair et al.（2025）和Zhao and Go（2014）通过预测系统未来状态并在动态预测范围内优化控制轨迹，展示了出色的稳定性和编队飞行控制性能。然而，MPC的计算负荷较大，限制了其在实时硬件场景中的应用，尤其是在需要快速控制更新的动力学环境中（Hewing et al., 2020）。为应对未建模动力学和环境不确定性带来的挑战，提出了多种自适应控制技术，其中滑动模控制（Sliding Mode Control, SMC）成为在外部扰动和参数变化下实现稳定的有效方法（Zheng et al., 2014）。SMC特别适用于处理四旋翼飞行的非线性问题，即使在缺乏精确系统参数的情况下也能保持性能。但传统SMC的缺点是控制信号的高频切换（chattering）可能导致不必要的振荡，从而影响系统稳定性或加速机械执行器的磨损。

随着人工智能（AI）和机器学习（ML）的快速发展，现代控制策略越来越多地利用这些技术来增强复杂高维环境中的四旋翼稳定性（Jiang and Lynch, 2021; Wei et al., 2023）。通过从固定增益架构转向基于学习的范式，这些现代方法能够更有效地应对非线性和随机扰动，为传统控制理论的局限性提供了 promising 解决方案（Yao et al., 2023; Yao et al., 2024; Zhang et al., 2025）。特别是强化学习（Reinforcement Learning, RL）作为数据驱动控制的强大工具，允许自主代理通过与动态环境的迭代交互优化控制策略（Sutton, 1988; Sutton and Barto, 1999; AlMahamid and Grolinger, 2022）。深度强化学习（Deep Reinforcement Learning, DRL）技术在多种运行条件下展示了显著的性能潜力（Hwangbo et al., 2017; Bou-Ammar et al., 2010），但实际应用受计算资源和训练时间的限制。尽管这些基于数据的方法在新环境或系统动力学突变时泛化能力有限，人工神经网络（Artificial Neural Networks, ANNs）仍被广泛用于从实验数据中直接拟合四旋翼动力学（Antsaklis et al., 1990）。Gómez-Avila et al.（2018）的研究表明，将ANN与经典PID架构结合使用可显著提高四旋翼系统的鲁棒性和跟踪精度。然而，此类混合方法通常缺乏数学解释性，需要大规模数据集才能保证收敛。因此，探索了结合经典控制理论与现代自适应/学习方法的混合架构，以利用两种方法的协同优势，确保经典控制的确定性稳定性和鲁棒性，同时利用现代技术的适应性和特征提取能力（Shuprajhaa et al., 2022; Zhou et al., 2022）。例如，PID控制器为基本姿态稳定提供了可靠基础，而辅助框架（如ANN或RL代理）可在高敏捷度机动或高随机环境中优化性能（Shuprajhaa et al., 2022）。特别是在线强化学习框架的集成，结合了适应性和数学鲁棒性，实现了稳定性策略的实时优化，使四旋翼飞行器更能抵御不可预见的环境扰动和空气动力效应（Kiumarsi et al., 2017; Lewis et al., 2012b; Vamvoudakis et al., 2020）。

除了控制理论挑战外，摄像头支持的无人机自主操作的效能还高度依赖于图像处理（Wu et al., 2024, 2025, 2026）。高精度多标签微动作检测（Li et al., 2025）和运动引导调制网络（Gu et al., 2025）为解释环境中的微妙运动提供了必要的敏感性。将这些感知层与基于RL的稳定性控制结合使用，不仅使四旋翼飞行器在扰动下保持飞行完整性，还能动态响应非结构化环境。为了弥合这些复杂感知框架与实时控制执行之间的差距，我们使用了高精度室内运动捕捉系统（MoCap）作为主要反馈机制。虽然上述视觉框架提供了机载传感的潜力，但实验环境提供了毫米级真实数据，这对于严格训练RL代理和验证其在空气动力扰动下的稳定性至关重要。本研究旨在提高四旋翼稳定性框架的适应性和鲁棒性，以便在现实世界的非确定性环境中更广泛地应用。通过解决模型依赖性和计算密集型算法的局限性，本研究的主要贡献和成果如下：
- 首次开发了一种基于在线IRL的数据驱动软件，无需事先了解四旋翼的A矩阵和B矩阵即可获得近似稳定参数。同时，我们建立了数据驱动的Q矩阵与ARE之间的严格映射，确保学习到的权重收敛为物理上有意义的控制策略。
- 为了验证所提出的基于学习的控制器，我们搭建了一个高精度、实时的实验环境，并结合了精密MoCap系统，从而在物理四旋翼硬件上严格评估了该框架，满足了无人机研究领域对实时RL实施的关键需求。
- 为了严格评估所提出的基于RL的算法的运行边界，我们将外部环境扰动引入实验环境，通过高速风扇系统进行测试，系统地评估了控制器在持续风扰动下的鲁棒性和适应能力。
- 实验结果表明，四旋翼飞行器的稳定性性能显著提升，尤其是在适应性和最优控制方面。对比分析表明，该框架具有处理动态环境效应的潜力。

本文的其余部分安排如下：第2节从最优控制和RL原则的角度阐述了四旋翼稳定性问题；第3节推导了在线RL框架的技术架构，建立了演员-评论家范式和模型独立稳定性所需的积分权重更新法则；第4节描述了实验架构，包括物理四旋翼硬件、高精度MoCap系统及具体的飞行场景；随后分析了实时实验结果，强调了神经网络的参数收敛行为和控制器的整体鲁棒性；第5节总结了研究结果并讨论了潜在研究方向。

符号说明：
- R 和 R+ 分别表示实数集合和正实数集合；
- Z 和 Z+ 分别表示整数集合和正整数集合；
- 克罗内克积用 ? 表示；
- 对称矩阵 Q? 的半向量化形式 vech(Q?)∈Ra(a+1)/2 表示Q?下半（或上半）三角部分的列向量；
- λ?(Q) 和 λ?(Q) 分别表示对称矩阵Q的最大和最小特征值；
- 向量的欧几里得范数用 ‖.‖ 表示。Wc的矩阵化表示为math(Wc)，这也被称为向量v的逆运算。问题表述：考虑四旋翼飞行器的悬停模型，假设在飞行过程中，姿态角（即滚转（?）、俯仰（θ）、偏航（ψ）的微小偏差足够小，这一点基于Erginer和Altug（2007年）、Bouabdallah等人（2004年）以及Tayebi和McGilvray（2006年）的研究，可以建立如下线性系统动力学模型：x?(t) = Ax(t) + B(u(t))，x(0) = x0，t≥0，其中x∈R^a和u∈R^b表示四旋翼的线性位置和速度测量值，即x, y, z, x?, y?, z?^T。在线强化学习框架：在本节中，我们推导出一个基于积分强化学习（IRL）的学习框架，即Q学习，用于四旋翼的稳定控制过程。为了获得状态-动作效用函数（即Q函数），我们将由公式（1）和（5）构建的哈密顿量与二次定义的最优值函数Vu??(x)结合起来，从而可以定义依赖动作的价值函数Q(x, u): R^a → R，如下所示：Q(x, u) = Vu??(x) + Hx, u，?Vu???x = (1/2)x^TPx + (1/2)x^TP(Ax + Bu) + (1/2)(Ax + Bu)^TPx + (1/2)x^TQx + (1/2)u^TRu，对所有x, u都成立。实验与结果：本研究通过实验验证了一个基于在线数据驱动的RL框架，用于四旋翼的稳定控制，展示了其在动态环境干扰存在下提高自主性的潜力。采用模型独立的IRL方法，四旋翼能够实时适应不同的气流强度。我们的结果表明，RL代理可以在不了解系统矩阵的情况下有效学习稳定控制策略。作者贡献声明：Nejat Tukenmez负责撰写初稿、可视化、验证、软件开发、方法选择、调查、形式分析、概念构建；Seta O. Bogosyan负责审阅编辑、监督、资源协调、项目管理和形式分析。利益冲突声明：作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。致谢：本工作得到了土耳其科学技术研究委员会（TüB?TAK）的支持。

联系信箱：

粤ICP备09063491号

热点排行