通过模型松弛的李雅普诺夫稳定性实现航空航天控制的安全强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月14日 来源：Advances in Space Research 2.8

编辑推荐：

　　强化学习与控制Lyapunov函数融合的SAC-CLF框架解决航空航天控制中的稳定性与安全性问题，通过LQR基CLF设计、RGPSSM不确定性建模和输入平滑技术，实现高效探索与鲁棒安全平衡，实验验证优于传统方法。

陈东和|岳家轩|郑腾杰|程琳|龚胜平

北京航空航天大学宇航学院，中国北京100191

摘要

在航空航天控制的强化学习（RL）中确保稳定性和安全性是一个关键挑战，因为传统的无模型RL通常缺乏保障，而基于模型的方法则面临计算负担或依赖于精确的模型。为了解决这个问题，本文提出了SAC-CLF，这是一个将控制李雅普诺夫函数（CLFs）与软演员-评论家（SAC）算法相结合的集成框架。SAC-CLF的核心通过三个关键机制实现安全性：首先，一种原理性的CLF设计方法自动合成基于LQR的CLF，确保稳定性和局部最优性；其次，集成了一种递归高斯过程状态空间模型（RGPSSM），用于实时、感知不确定性的未建模动态学习，根据量化的认知不确定性自适应调整CLF的安全裕度；第三，一种安全优先的控制输入平滑技术将快速控制变化的惩罚直接嵌入到二次规划（QP）目标中。这个综合框架协同平衡了SAC的探索效率、鲁棒稳定性、自适应性能以及生成高质量、安全的控制动作。实验验证表明，与传统的基于CLF的控制和基线RL方法相比，SAC-CLF具有更强的鲁棒性、安全性和更快的收敛速度，为在安全关键的航空航天领域部署RL提供了有希望的方向。

引言

在航空航天工程中，对复杂动态系统的可靠和安全控制至关重要，这对军事和民用应用都有重要意义，范围从高超音速飞行到航天器操作。实现高操作安全性和可靠性需要能够有效管理未建模动态和环境扰动的鲁棒控制策略。然而，当前的控制方法在面对显著的模型不确定性和严格的安全约束时，往往难以同时保证稳定性和优化性能（Qu等人，2024年；Wang和Wu，2017年；Qu等人，2025年；Zheng等人，2025年）。这些工作强调了控制高超音速飞行器等系统的固有难度，这些系统表现出显著的时间变化动态和不确定性，需要自适应控制方法。

本文通过SAC-CLF框架将先进的强化学习与正式的安全保障相结合，解决了这些基本挑战。传统的控制方法，如比例-积分-微分（PID）控制器和自适应控制架构（Zhao等人，2023年；Li等人，2023年；Wu等人，2024年；Wang等人，2024b年），历来为特定系统的控制器设计提供了鲁棒框架，通过精确的系统识别和参数调整确保稳定性（Ionescu等人，2020年）。然而，这些基于模型的方法往往对模型不准确性很敏感，导致在不确定环境中性能下降或不稳定，这在安全敏感的应用中是一个关键问题。鲁棒控制策略虽然提高了稳定性，但常常为了保守性而牺牲了性能（Ionescu等人，2020年）。

为了解决这些限制，强化学习（RL）作为一种在复杂、不确定系统中进行自主决策的强大范式应运而生，使代理能够通过迭代的环境互动来优化控制策略，以最大化累积奖励（Lillicrap等人，2019年；Schulman等人，2017年；Kiumarsi等人，2018年）。神经网络的非线性逼近能力进一步使RL策略能够在无模型的方式下合成复杂动作，为不确定系统提供了固有的优势，特别是在机器人技术和航空航天应用中（Zhao等人，2020年；Ohnishi等人，2018年；Tang等人，2010年）。值得注意的是，最近的研究通过几个关键发展推进了安全强化学习：使用LSTM网络进行带变空间碎片的自主航天器碰撞避免的惩罚性近似策略（Mu等人，2024年）；保证满足约束的航天器障碍物避免的自适应最优控制策略（Wang等人，2024a年）；针对不安全移动区域的自适应避免控制的数据-模型混合驱动方法（Wang等人，2025年）；以及通过强化学习实现实际指定时间的模糊最优控制，用于随机受限的非线性系统（Qiu等人，2025年）。然而，RL在航空航天中的直接应用受到探索-利用困境的阻碍，这在学习过程中由于潜在的不安全探索动作而带来显著的安全风险（Shah等人，2017年；Ames等人，2017年；Berkenkamp等人，2017年；Pecka等人，2014年；Gu等人，2024年）。这种困境在奖励最大化和安全保障之间造成了紧张关系，突显了需要自适应框架来协调探索效率与严格的稳定性保障。

因此，许多RL实现仍然局限于模拟环境（Mnih等人，2015年；Mnih等人，2013年；Silver等人，2017年），在训练期间可以放宽安全约束。为了解决RL部署中的安全问题，安全强化学习（SRL）整合了形式上的安全机制，如控制李雅普诺夫函数（CLFs）和控制屏障函数（CBFs），以在学习和使用期间提供稳定性保障（Berkenkamp等人，2017年；Fisac等人，2019年；Perkins和Barto，2002年；Achiam等人，2017年；Li等人，2018年）。这些方法通常涉及对学习到的策略施加约束或利用基于模型的安全保障，如将RL与模型预测控制或高斯过程结合用于安全系统操作的工作（Wang等人，2024c年；Hewing等人，2020年；Wang等人，2017年）。

尽管如此，传统的基于CLF的方法存在一些关键缺点：（1）对于非线性系统，设计过程往往难以处理，通常需要特定领域的专业知识（Ames等人，2017年；Mehra等人，2015年）；（2）由于静态参数化，对未建模动态敏感，无法适应不同的不确定性水平（Fisac等人，2019年）；（3）来自二次规划（QP）公式的不连续控制输出可能导致抖振现象，从而降低性能并磨损执行器（Galloway等人，2015年；Ames等人，2014年；Ong和Cortés，2019年）。其他方法，如采用备用控制器的混合架构（Nguyen-tuong等人，2008年；Yang等人，2022年）和奖励整形技术（Pecka等人，2014年；Hu等人，2020年；Zou等人，2019年），也存在局限性，包括潜在的性能限制或在初始学习阶段对硬安全约束的执行不足。

这些局限性共同推动了自适应SRL框架的发展，这些框架能够在不确定环境中有效协调探索效率与鲁棒的安全保障。本文提出了SAC-CLF，这是一种结合动态、感知不确定性安全约束的混合控制李雅普诺夫函数（CLF）-强化学习（RL）框架，能够在不确定系统中实现安全和自适应控制。它的三个贡献是：首先，一种基于LQR原理的CLF设计方法自动合成CLF，确保稳定性和性能最优性。其次，集成了一种递归高斯过程状态空间模型（RGPSSM），用于实时、非参数化的贝叶斯推断未知动态。RGPSSM提供量化的认知不确定性，增强CLF的鲁棒性，并动态调整CLF-二次规划（QP）的安全裕度。第三，采用了一种安全优先的控制输入平滑技术，将快速控制变化的惩罚嵌入到QP目标中，以抑制高频振荡，同时保持安全保障并尊重执行器限制。这些创新共同带来了比传统的基于CLF的控制和基线RL方法更高的鲁棒性、更快的收敛速度和更好的安全性，这一点通过广泛的实验验证得到了证明。

本文的其余部分组织如下。第2节阐述了问题并讨论了安全强化学习中的挑战，以及核心RL和安全机制的概述。第3节详细介绍了SAC-CLF框架，包括其核心组件：CLF设计、感知不确定性的模型学习和控制输入平滑。第4节展示了模拟结果，并对不同的航空航天控制任务进行了比较分析。最后，第5节总结了本文并概述了未来的工作方向。

章节片段

初步

本节阐述了控制问题，概述了安全强化学习中的挑战，并提供了核心RL和安全机制的概述。

基于CLF的补偿控制与强化学习

本节介绍了SAC-CLF框架，这是一种将控制李雅普诺夫函数（CLFs）与强化学习（RL）相结合的集成方法，用于鲁棒的航空航天控制。它特别解决了引言和第2.3节中确定的传统基于CLF的方法所固有的三个关键限制。所提出的框架通过三个核心组件应对这些挑战：一种原理性的任务特定CLF设计（第3.1节）、感知不确定性的模型学习

仿真结果

本节对SAC-CLF框架在两个不同的航空航天控制任务中进行了全面评估：直观的非线性控制教程（NCT）系统和复杂的卫星姿态控制问题。这些互补的基准测试验证了该框架的核心创新，包括定制的控制李雅普诺夫函数（CLF）设计、感知不确定性的模型学习和安全优先的控制输入平滑。与标准软

结论

本文介绍了SAC-CLF，这是一个旨在提高复杂航空航天控制系统强化学习（RL）的安全性和可靠性的集成框架。通过将动态的、感知不确定性的控制李雅普诺夫函数（CLFs）与软演员-评论家（SAC）算法无缝结合，SAC-CLF有效解决了传统无模型RL中缺乏正式安全保障的问题，以及传统控制方法在适应显著模型变化方面的局限性

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（项目编号12572052）和北京市自然科学基金（项目编号L251013）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

初步

基于CLF的补偿控制与强化学习

仿真结果

结论

利益冲突声明

致谢

热点排行