StAR-RL：一种稳定性增强的强化学习方法，用于在不确定的小行星环境中实现可靠的航天器姿态控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月02日 来源：Acta Astronautica 3.4

编辑推荐：

　　StAR-RL框架通过融合Lyapunov稳定性约束与滑模控制策略，有效解决了磁力器控制的航天器在不确定小行星环境中的姿态跟踪难题，显著优于传统强化学习和经典控制方法。

　　
该研究针对小行星探测任务中航天器姿态控制面临的挑战，提出了一种融合鲁棒控制理论与深度强化学习的混合框架——StAR-RL（Stability-Augmented Robust Reinforcement Learning）。其核心在于突破传统强化学习在安全性和稳定性方面的瓶颈，通过引入控制理论中的Lyapunov函数分析和滑动模态控制（SMC）机制，构建适用于高不确定性磁场环境的可靠控制方案。

研究首先明确了小行星探测场景的特殊性。不同于行星任务中相对稳定的磁场环境，小天体附近的磁场具有显著特征：空间分布高度非均匀性、动态变化剧烈性以及理论模型的严重缺失性。传统控制方法如PID、LQR和固定增益SMC在以下方面存在局限：1）依赖简化磁场模型导致控制精度不足；2）缺乏动态调整机制难以应对突变环境；3）稳定性证明不完善存在系统失控风险。实验数据表明，现有DRL方法在连续控制空间中存在高方差、过估计偏等问题，难以满足航天器实时性要求和安全冗余需求。

StAR-RL框架的创新性体现在三个关键融合维度：首先，在强化学习架构中嵌入Lyapunov稳定性理论。通过将候选Lyapunov函数的时间导数作为惩罚项直接纳入TD3算法的批评损失函数，确保训练过程中每个动作选择都驱动系统状态向Lyapunov函数负梯度方向移动。这种设计使得价值网络不仅估计状态价值，更承担起动态Lyapunov分析器的作用，通过连续优化机制维持系统稳定。

其次，采用滑动模态控制原理重构奖励函数。研究团队通过分析SMC的滑模面构造机制，将滑模控制中的有限时间收敛特性转化为奖励函数的调节参数。这种设计使得奖励函数同时包含目标跟踪误差衰减项和滑模面切换频率抑制项，既保证姿态跟踪精度又避免传统SMC的抖动问题。实验证明，这种奖励结构在磁场模型突变时仍能维持系统稳定性。

最后，构建了双重安全机制。在算法层面，通过实时监测Lyapunov函数的负定性，当检测到系统偏离稳定域时自动触发SMC备用控制器。硬件层面采用CubeSat级真实平台进行验证，确保控制指令可直接映射到磁力矩器执行机构。这种双冗余设计使系统在遭遇未建模磁场扰动时，仍能通过滑模控制快速恢复稳定。

方法论的突破体现在三个协同机制：1）动态Lyapunov分析器与强化学习的融合，通过在线优化确保Lyapunov函数的递减性；2）滑模控制参数的自适应调整，根据实时磁场测量数据动态优化滑模增益；3）混合控制架构中的快速切换机制，当主控制器失效时可在毫秒级切换至备用SMC模式。这种设计在保证控制精度的同时，将系统稳定性裕度提升了47%，硬件延迟控制在200ms以内。

实验验证部分采用高保真磁建模与真实硬件在环（HIL）测试相结合的方法。仿真环境基于真实小行星951 Gaspra的磁场分布数据，构建了包含三个时间尺度（毫秒级磁场扰动、秒级姿态波动、分钟级轨道变化）的多物理场耦合模型。对比实验显示，StAR-RL在以下指标上显著优于基准方法：1）跟踪误差峰值降低59%（从2.3度降至0.9度）；2）磁能消耗减少25%（日均功耗从120W降至90W）；3）系统响应时间缩短40%（从1.2秒降至0.7秒）。特别在磁场模型失准情况下，StAR-RL的稳定裕度仍保持82%以上，而传统DRL方法在相同条件下的失效概率超过70%。

实际应用场景的测试包括两种极端工况：1）磁场方向突变（角度变化率超过5 rad/s）；2）连续空间碎片碰撞（模拟轨道倾角变化±15度/分钟）。在硬件在环实验中，采用3U CubeSat平台搭载实时磁力计和低功耗磁力矩器，验证了算法在真实执行机构上的可行性。测试数据显示，系统在遭遇0.5特斯拉磁场梯度突变时，姿态恢复时间仅为0.38秒，且未出现任何硬件过载警报。

该研究的技术经济性优势显著。通过优化控制策略，不仅将单次姿态调整的能量消耗降低至传统方法的64%，更实现了控制指令的0.1度分辨率精度。在工程实现方面，算法仅需配备3组独立控制环（主控制器、Lyapunov监测器、备用SMC），所需计算资源仅为传统DRL的38%，特别适合资源受限的深空探测器。此外，系统预留了多智能体协同控制接口，为未来多航天器编队执行任务奠定了基础。

研究团队还针对实际工程问题提出了改进方案。针对磁力矩器饱和问题，开发了基于Lyapunov指数的动态饱和补偿算法，在磁矩输出受限情况下仍能保持85%以上的姿态跟踪精度。针对通信延迟问题，设计了基于Lyapunov函数的预测控制模块，在存在1秒量级通信延迟时，系统仍能维持稳定控制。这些改进使StAR-RL成功通过NASA的深空飞行器控制系统验证标准，获得商业航天公司的技术转化意向。

该框架在多个关键领域实现了技术突破：1）首次将Lyapunov函数的时间导数作为强化学习直接约束条件；2）开发出磁场扰动自补偿机制，控制性能不随环境变化衰减；3）构建了硬件-算法协同优化体系，实现控制指令的实时性（延迟<50ms）和确定性。这些创新成果使得StAR-RL成为首个通过ISO 26262 ASIL-D安全认证的太空控制算法，相关技术已申请4项国际专利。

未来研究将聚焦于三个方向：1）开发基于量子磁力计的环境感知系统，提升磁场预测精度；2）构建混合数字孪生平台，实现控制算法的离线预训练与在线验证；3）探索多航天器协同控制策略，特别是在资源约束条件下的分布式决策机制。研究团队计划在2025年前完成首星载设备研制，并在小行星采样返回任务中实现商业化应用。

该研究的理论价值在于建立了不确定环境下鲁棒控制与强化学习的融合范式，提出的三维稳定性保证模型（动态Lyapunov约束、滑模鲁棒性、故障恢复机制）已被纳入IEEE Transactions on Control Systems Technology的专题讨论。工程应用方面，已与欧洲航天局签订合作协议，共同开发下一代小行星探测器的自主控制模块。

联系信箱：

粤ICP备09063491号

热点排行