基于深度强化学习的分布式航天器编队控制：SE(3)动力学模型的增强应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Aerospace Science and Technology》：Deep Reinforcement Learning for Distributed Spacecraft Formation Control Enhanced by SE(3) Dynamics

【字体：大中小】 时间：2026年02月21日 来源：Aerospace Science and Technology 5.8

编辑推荐：

　　基于多智能体近端策略优化算法与改进Lloyd算法，研究提出动态轨迹规划方法与分布式控制框架，实现航天器群在SE(3)空间沿目标曲线的编队控制。通过将动力学模型与控制器嵌入环境，政策网络输出目标状态与速度以适应不同规模编队。地面实验验证了八台空气轴承模拟器在"S"形曲线上的姿态同步编队能力，理论证明了算法收敛性。

金伟成|陈婷|魏正涛|胡海燕

中国江苏省南京市，航空航天结构力学与控制国家重点实验室，210016

摘要

本文探讨了航天器群在预定曲线上进行形状形成的问题，同时考虑了它们的姿态。基于多智能体近端策略优化算法，所提出的策略网络能够从环境中动态学习可行的轨迹，该算法整合了航天器在SE(3)空间中的动力学特性和控制器。为了适应不同规模的航天器群以及不同的预定曲线，策略网络根据局部信息输出期望的状态和速度，并通过微调来提升预训练策略网络在未见情况下的性能。在引导航天器沿曲线运动并保持相应姿态后，改进的Lloyd算法进一步驱动航天器沿曲线精确排列。即使航天器的机动性有限，严格的理论分析也证明了Lloyd算法的收敛性。此外，本文还展示了一个实验：八个采用空气轴承的航天器模拟器跟踪预先计算好的轨迹。这些模拟器利用平面自由度，并通过喷嘴和反作用轮作为执行器，有效模拟了真实航天器的动力学和机动特性。

引言

本文研究了SE(3)空间中航天器群的形状形成控制问题，即以分布式方式控制多个随机分布的航天器，使其达到预定义的配置（包括位置和姿态）[1]。这种控制在太空领域有许多潜在应用，例如合成孔径雷达[2]、行星分布式成像[3]和深空探索[4]。与单个复杂的航天器相比，航天器群通过利用相对位置和姿态来协同完成任务。此外，航天器群还具有可靠性、可扩展性、高灵活性和低成本等优点[5]。

由于航天器群的优势，近年来出现了多种解决形状形成问题的算法。这些算法包括集中式和分布式方法。集中式方法将形状形成问题视为联合状态空间上的优化问题[6]、[7]、[8]。例如，Foust等人[9]提出了一种基于优化的引导和控制算法，包括目标位置分配和碰撞避免轨迹生成两个阶段。Basu等人[10]通过选择合适的线性模型并将任务分解为若干子问题，简化了复杂的混合整数优化问题。然而，随着航天器群规模的增加，集中式算法的计算复杂性呈指数级增长。分布式方法中，基于图论的群体共识控制[11,12]具有较低的计算复杂性。Hu等人[13]实现了多目标子群体的划分，并基于李雅普诺夫理论和边界层技术实现了子群体的共识控制。基于图的算法的收敛性取决于图的结构[14]、[15]、[16]。还有一些基于雷诺原理[17]、均值漂移探索[18]、马尔可夫过程[19]、[20]、[21]的分布式方法，适用于解决大规模航天器群的形状形成问题。然而，这些算法并未考虑航天器的动力学特性。

深度强化学习在许多领域取得了显著成果，如自动驾驶、无人机系统和游戏[22,23]。例如，Chen等人[24]定义了一个价值函数，表示在给定联合状态下到达目标的时间，并通过深度强化学习规划无碰撞路径而无需通信。Yu等人[25]提出了一种结合屏障函数和自适应动态规划的安全强化学习算法，其关键在于距离变化的权重。Sun等人[26]利用强化学习为航天器群重构提供了软约束，并开发了基于人工势场的硬约束控制器。然而，上述研究均未考虑航天器的姿态，而大多数关于姿态的研究仅关注地面轮式机器人或无人机系统[27]。与地面系统不同，太空任务受到复杂的轨道动力学环境和燃料消耗及安全性的严格限制[8,29]。此外，深度强化学习难以获得跨任务的策略，而太空任务的高成本使得逐例训练不可持续。因此，通过深度强化学习解决具有不同期望配置的航天器群形成问题具有挑战性。

近年来，一些研究应用深度强化学习于太空任务。例如，Gaudet等人[30]使用深度强化元学习训练了火星和小行星着陆的循环策略和价值函数逼近器。Jain等人[31]提出了一种基于门控Transformer-XL架构和近端策略优化（PPO）的多阶段轨迹优化框架，以消除手动相位转换。然而，关于使用深度强化学习和大规模空气轴承实验的航天器群控制研究尚未得到足够关注。

鉴于太空任务的高成本和风险，实施能够有效模拟真实航天器动态行为的地面实验至关重要[32]。一些基于空气轴承原理的实验平台利用风扇作为执行器，提供了出色的耐久性和控制速度，例如中国科学院的航天器紧密编队空气轴承测试平台[33]。然而，它们无法有效模拟真实航天器的驱动方式。更多实验系统使用喷嘴和反作用轮作为执行器，包括海军研究生院的实验硬件在环动态模拟器[34]、加州理工学院的自主研究多航天器测试平台[35]以及约克大学的航天器模拟器空气轴承测试平台[36]。Foust等人[37]利用凸优化理论解决了四艘航天器的对接问题，其中航天器通过PID控制器跟踪离线求解的轨迹。更大规模的空气轴承模拟器群实验（特别是涉及五艘或更多模拟器的实验）需要算法和实验系统具有极高的鲁棒性。因此，关于具有姿态的大规模航天器群的理论分析和空气轴承实验仍然是一个未解决的问题。

本文旨在提出一种解决SE(3)空间中航天器群形状形成问题的算法。所提出的算法基于局部信息以分布式方式做出决策，并能适应不同规模的航天器群和各类期望配置。与已报道的研究方法[10,38]相比，本文的主要贡献包括三个方面。首先，基于MAPPO算法，该算法将SE(3)空间中的动力学特性和控制器整合到环境中，策略网络的输出包括考虑动态效应的期望状态和速度。此外，良好的架构设计和微调使策略网络能够适应不同规模的航天器群和期望配置。其次，任务被分为两个阶段，并提出了改进的Lloyd算法[21]，以引导机动性有限的航天器在预定曲线上实现任意分布。改进的Lloyd算法的收敛性和一个特例得到了严格证明。第三，改进了轨道上航天器操作硬件在环模拟（SOOHLS）测试平台[32,39]，使其能够控制八个空气轴承模拟器的姿态形成。与之前的研究[37]相比，实验中航天器群的规模有所扩大。

本文的其余部分安排如下：第2节介绍了航天器群在预定曲线上的形状形成过程以及SE(3)空间中的相对动力学特性。第3节提出了SE(3)空间中形状形成的强化学习方法，其中航天器的动力学特性被嵌入环境中，并通过策略网络输出的状态和速度来考虑。第4节开发了具有机动性约束的改进Lloyd算法，以引导航天器在曲线上精确分布，并推导了其收敛性。第5节展示了数值模拟的统计分析和一个伞状示例。最后，第6节阐述了一个地面空气轴承实验，用于控制八个航天器模拟器沿“S”形曲线的形成。

章节摘录

初步介绍和问题陈述

本节阐述了航天器群在预定曲线上的形状形成问题。为考虑航天器的姿态，简要介绍了SE(3)空间中航天器的动力学模型。

SE(3)空间中形状形成的强化学习

为了解决航天器群在预定曲线上的形状形成问题，本节提出了一个基于MAPPO算法的强化学习框架。该框架旨在控制最初随机分布在预定曲线上的所有航天器，并使它们保持相应的姿态。

具有机动性约束的Lloyd算法

与具有精确目标位置的编队不同，前一节的目标是控制所有航天器在预定曲线上。这种简化的目标使得奖励设计更简单，训练更稳定。为了实现任意分布，本节通过引入机动性约束对Lloyd算法进行了改进。在这种算法中，每艘航天器只需知道自身的状态以及其两侧两艘航天器的状态。

结果与讨论

本节通过数值模拟和实验结果验证了所提出的方法。模拟结果包括对各种情况的广泛测试和统计分析，以及一个复杂的分布式观测案例。实验结果展示了八个空气轴承模拟器及其姿态的精确控制。

结论

本文研究了航天器群在预定曲线上的形状形成问题，任务目的是控制太空中随机初始化的航天器，使其在预定曲线上精确分布并保持相应姿态。为了解决这个问题，本文提出了一个两阶段框架，包括导航到预定曲线和形成精确编队。在第一阶段，SE(3)空间中的动力学特性和控制器增强了所提出的深度强化学习方法。

CRediT作者贡献声明

金伟成：撰写 – 审稿与编辑、撰写 – 原稿、可视化、软件、方法论、形式分析、概念化。陈婷：撰写 – 审稿与编辑、资源管理、项目协调、概念化。魏正涛：撰写 – 审稿与编辑、方法论。胡海燕：撰写 – 审稿与编辑、验证、监督、项目协调、概念化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号