在航空航天工程中,对复杂动态系统的可靠和安全控制至关重要,这对军事和民用应用都有重要意义,范围从高超音速飞行到航天器操作。实现高操作安全性和可靠性需要能够有效管理未建模动态和环境扰动的鲁棒控制策略。然而,当前的控制方法在面对显著的模型不确定性和严格的安全约束时,往往难以同时保证稳定性和优化性能(Qu等人,2024年;Wang和Wu,2017年;Qu等人,2025年;Zheng等人,2025年)。这些工作强调了控制高超音速飞行器等系统的固有难度,这些系统表现出显著的时间变化动态和不确定性,需要自适应控制方法。
本文通过SAC-CLF框架将先进的强化学习与正式的安全保障相结合,解决了这些基本挑战。传统的控制方法,如比例-积分-微分(PID)控制器和自适应控制架构(Zhao等人,2023年;Li等人,2023年;Wu等人,2024年;Wang等人,2024b年),历来为特定系统的控制器设计提供了鲁棒框架,通过精确的系统识别和参数调整确保稳定性(Ionescu等人,2020年)。然而,这些基于模型的方法往往对模型不准确性很敏感,导致在不确定环境中性能下降或不稳定,这在安全敏感的应用中是一个关键问题。鲁棒控制策略虽然提高了稳定性,但常常为了保守性而牺牲了性能(Ionescu等人,2020年)。
为了解决这些限制,强化学习(RL)作为一种在复杂、不确定系统中进行自主决策的强大范式应运而生,使代理能够通过迭代的环境互动来优化控制策略,以最大化累积奖励(Lillicrap等人,2019年;Schulman等人,2017年;Kiumarsi等人,2018年)。神经网络的非线性逼近能力进一步使RL策略能够在无模型的方式下合成复杂动作,为不确定系统提供了固有的优势,特别是在机器人技术和航空航天应用中(Zhao等人,2020年;Ohnishi等人,2018年;Tang等人,2010年)。值得注意的是,最近的研究通过几个关键发展推进了安全强化学习:使用LSTM网络进行带变空间碎片的自主航天器碰撞避免的惩罚性近似策略(Mu等人,2024年);保证满足约束的航天器障碍物避免的自适应最优控制策略(Wang等人,2024a年);针对不安全移动区域的自适应避免控制的数据-模型混合驱动方法(Wang等人,2025年);以及通过强化学习实现实际指定时间的模糊最优控制,用于随机受限的非线性系统(Qiu等人,2025年)。然而,RL在航空航天中的直接应用受到探索-利用困境的阻碍,这在学习过程中由于潜在的不安全探索动作而带来显著的安全风险(Shah等人,2017年;Ames等人,2017年;Berkenkamp等人,2017年;Pecka等人,2014年;Gu等人,2024年)。这种困境在奖励最大化和安全保障之间造成了紧张关系,突显了需要自适应框架来协调探索效率与严格的稳定性保障。
因此,许多RL实现仍然局限于模拟环境(Mnih等人,2015年;Mnih等人,2013年;Silver等人,2017年),在训练期间可以放宽安全约束。为了解决RL部署中的安全问题,安全强化学习(SRL)整合了形式上的安全机制,如控制李雅普诺夫函数(CLFs)和控制屏障函数(CBFs),以在学习和使用期间提供稳定性保障(Berkenkamp等人,2017年;Fisac等人,2019年;Perkins和Barto,2002年;Achiam等人,2017年;Li等人,2018年)。这些方法通常涉及对学习到的策略施加约束或利用基于模型的安全保障,如将RL与模型预测控制或高斯过程结合用于安全系统操作的工作(Wang等人,2024c年;Hewing等人,2020年;Wang等人,2017年)。
尽管如此,传统的基于CLF的方法存在一些关键缺点:(1)对于非线性系统,设计过程往往难以处理,通常需要特定领域的专业知识(Ames等人,2017年;Mehra等人,2015年);(2)由于静态参数化,对未建模动态敏感,无法适应不同的不确定性水平(Fisac等人,2019年);(3)来自二次规划(QP)公式的不连续控制输出可能导致抖振现象,从而降低性能并磨损执行器(Galloway等人,2015年;Ames等人,2014年;Ong和Cortés,2019年)。其他方法,如采用备用控制器的混合架构(Nguyen-tuong等人,2008年;Yang等人,2022年)和奖励整形技术(Pecka等人,2014年;Hu等人,2020年;Zou等人,2019年),也存在局限性,包括潜在的性能限制或在初始学习阶段对硬安全约束的执行不足。
这些局限性共同推动了自适应SRL框架的发展,这些框架能够在不确定环境中有效协调探索效率与鲁棒的安全保障。本文提出了SAC-CLF,这是一种结合动态、感知不确定性安全约束的混合控制李雅普诺夫函数(CLF)-强化学习(RL)框架,能够在不确定系统中实现安全和自适应控制。它的三个贡献是:首先,一种基于LQR原理的CLF设计方法自动合成CLF,确保稳定性和性能最优性。其次,集成了一种递归高斯过程状态空间模型(RGPSSM),用于实时、非参数化的贝叶斯推断未知动态。RGPSSM提供量化的认知不确定性,增强CLF的鲁棒性,并动态调整CLF-二次规划(QP)的安全裕度。第三,采用了一种安全优先的控制输入平滑技术,将快速控制变化的惩罚嵌入到QP目标中,以抑制高频振荡,同时保持安全保障并尊重执行器限制。这些创新共同带来了比传统的基于CLF的控制和基线RL方法更高的鲁棒性、更快的收敛速度和更好的安全性,这一点通过广泛的实验验证得到了证明。
本文的其余部分组织如下。第2节阐述了问题并讨论了安全强化学习中的挑战,以及核心RL和安全机制的概述。第3节详细介绍了SAC-CLF框架,包括其核心组件:CLF设计、感知不确定性的模型学习和控制输入平滑。第4节展示了模拟结果,并对不同的航空航天控制任务进行了比较分析。最后,第5节总结了本文并概述了未来的工作方向。