本文研究了SE(3)空间中航天器群的形状形成控制问题,即以分布式方式控制多个随机分布的航天器,使其达到预定义的配置(包括位置和姿态)[1]。这种控制在太空领域有许多潜在应用,例如合成孔径雷达[2]、行星分布式成像[3]和深空探索[4]。与单个复杂的航天器相比,航天器群通过利用相对位置和姿态来协同完成任务。此外,航天器群还具有可靠性、可扩展性、高灵活性和低成本等优点[5]。
由于航天器群的优势,近年来出现了多种解决形状形成问题的算法。这些算法包括集中式和分布式方法。集中式方法将形状形成问题视为联合状态空间上的优化问题[6]、[7]、[8]。例如,Foust等人[9]提出了一种基于优化的引导和控制算法,包括目标位置分配和碰撞避免轨迹生成两个阶段。Basu等人[10]通过选择合适的线性模型并将任务分解为若干子问题,简化了复杂的混合整数优化问题。然而,随着航天器群规模的增加,集中式算法的计算复杂性呈指数级增长。分布式方法中,基于图论的群体共识控制[11,12]具有较低的计算复杂性。Hu等人[13]实现了多目标子群体的划分,并基于李雅普诺夫理论和边界层技术实现了子群体的共识控制。基于图的算法的收敛性取决于图的结构[14]、[15]、[16]。还有一些基于雷诺原理[17]、均值漂移探索[18]、马尔可夫过程[19]、[20]、[21]的分布式方法,适用于解决大规模航天器群的形状形成问题。然而,这些算法并未考虑航天器的动力学特性。
深度强化学习在许多领域取得了显著成果,如自动驾驶、无人机系统和游戏[22,23]。例如,Chen等人[24]定义了一个价值函数,表示在给定联合状态下到达目标的时间,并通过深度强化学习规划无碰撞路径而无需通信。Yu等人[25]提出了一种结合屏障函数和自适应动态规划的安全强化学习算法,其关键在于距离变化的权重。Sun等人[26]利用强化学习为航天器群重构提供了软约束,并开发了基于人工势场的硬约束控制器。然而,上述研究均未考虑航天器的姿态,而大多数关于姿态的研究仅关注地面轮式机器人或无人机系统[27]。与地面系统不同,太空任务受到复杂的轨道动力学环境和燃料消耗及安全性的严格限制[8,29]。此外,深度强化学习难以获得跨任务的策略,而太空任务的高成本使得逐例训练不可持续。因此,通过深度强化学习解决具有不同期望配置的航天器群形成问题具有挑战性。
近年来,一些研究应用深度强化学习于太空任务。例如,Gaudet等人[30]使用深度强化元学习训练了火星和小行星着陆的循环策略和价值函数逼近器。Jain等人[31]提出了一种基于门控Transformer-XL架构和近端策略优化(PPO)的多阶段轨迹优化框架,以消除手动相位转换。然而,关于使用深度强化学习和大规模空气轴承实验的航天器群控制研究尚未得到足够关注。
鉴于太空任务的高成本和风险,实施能够有效模拟真实航天器动态行为的地面实验至关重要[32]。一些基于空气轴承原理的实验平台利用风扇作为执行器,提供了出色的耐久性和控制速度,例如中国科学院的航天器紧密编队空气轴承测试平台[33]。然而,它们无法有效模拟真实航天器的驱动方式。更多实验系统使用喷嘴和反作用轮作为执行器,包括海军研究生院的实验硬件在环动态模拟器[34]、加州理工学院的自主研究多航天器测试平台[35]以及约克大学的航天器模拟器空气轴承测试平台[36]。Foust等人[37]利用凸优化理论解决了四艘航天器的对接问题,其中航天器通过PID控制器跟踪离线求解的轨迹。更大规模的空气轴承模拟器群实验(特别是涉及五艘或更多模拟器的实验)需要算法和实验系统具有极高的鲁棒性。因此,关于具有姿态的大规模航天器群的理论分析和空气轴承实验仍然是一个未解决的问题。
本文旨在提出一种解决SE(3)空间中航天器群形状形成问题的算法。所提出的算法基于局部信息以分布式方式做出决策,并能适应不同规模的航天器群和各类期望配置。与已报道的研究方法[10,38]相比,本文的主要贡献包括三个方面。首先,基于MAPPO算法,该算法将SE(3)空间中的动力学特性和控制器整合到环境中,策略网络的输出包括考虑动态效应的期望状态和速度。此外,良好的架构设计和微调使策略网络能够适应不同规模的航天器群和期望配置。其次,任务被分为两个阶段,并提出了改进的Lloyd算法[21],以引导机动性有限的航天器在预定曲线上实现任意分布。改进的Lloyd算法的收敛性和一个特例得到了严格证明。第三,改进了轨道上航天器操作硬件在环模拟(SOOHLS)测试平台[32,39],使其能够控制八个空气轴承模拟器的姿态形成。与之前的研究[37]相比,实验中航天器群的规模有所扩大。
本文的其余部分安排如下:第2节介绍了航天器群在预定曲线上的形状形成过程以及SE(3)空间中的相对动力学特性。第3节提出了SE(3)空间中形状形成的强化学习方法,其中航天器的动力学特性被嵌入环境中,并通过策略网络输出的状态和速度来考虑。第4节开发了具有机动性约束的改进Lloyd算法,以引导航天器在曲线上精确分布,并推导了其收敛性。第5节展示了数值模拟的统计分析和一个伞状示例。最后,第6节阐述了一个地面空气轴承实验,用于控制八个航天器模拟器沿“S”形曲线的形成。