基于物理信息的变压器强化学习（DRL）在自主六自由度（6-DOF）航天器交会任务中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月28日 来源：Advances in Space Research 2.8

编辑推荐：

　　自主六自由度航天器交会中，基于Transformer架构的物理信息强化学习框架通过整合时间注意力机制、自适应奖励塑形和物理一致性约束，在部分可观测OpenAI Gym环境中验证。研究对比七种PPO变体，发现融合物理信息的Transformer（M7）模型在成功率（85.2%）、姿态误差（4.69°）和收敛速度（39.01秒）上最优，并通过1000次蒙特卡洛试验验证了其在位置跟踪、燃料消耗和控制鲁棒性等指标上的竞争力。

Mehrdad Mohseni | Iman Mohammadzaman

马利克-阿什塔尔技术大学（Malek-Ashtar University of Technology, A.C.），伊朗德黑兰

摘要

本研究提出了一个基于Transformer架构的、融合物理信息的深度强化学习框架，用于自主近距六自由度（6-DOF）航天器交会任务。我们研究了七种基于近端策略优化（Proximal Policy Optimization, PPO）的演员-评论家（actor-critic）变体，这些变体整合了时间注意力机制、奖励塑造以及物理一致性，以应对稀疏反馈和六自由度平移/旋转动力学复杂性等挑战。我们的模型在部分可观测的OpenAI Gym环境中使用Clohessy-Wiltshire动力学进行训练，初始条件为随机设置，并考虑了执行约束。在所提出的模型中，具有自适应奖励融合功能的物理信息Transformer模型（Model M7）实现了最高的最终接近成功率（85.2%）、最低的姿态误差（4.69°）以及较快的收敛速度（39.01秒）。性能通过1000次蒙特卡洛试验进行了评估，评估指标包括位置和速度跟踪、燃料消耗以及控制鲁棒性。结果表明，将基于Transformer的时间抽象与领域知识和自适应目标相结合，可以为航天器的自主引导提供可靠且高效的方法。

章节摘录

引言：

自主六自由度（6-DOF）航天器交会是未来在轨服务、碎片清除和探索任务中的核心能力。由于航天器动力学的非线性和耦合特性、环境不确定性的存在以及近距离操作严格的安全要求，这一操作仍然极具挑战性。传统的引导、导航和控制（GNC）技术（如线性-二次规划）难以有效应对这些挑战。

六自由度航天器交会动力学

自主近距航天器交会涉及在不确定性条件下的紧密耦合的平移和旋转动力学。对于平移运动，Hill–Clohessy–Wiltshire（HCW）方程提供了圆轨道上相对运动的线性化表示：

\begin{align}
r &= \sqrt{\left(\frac{m_n^2 + (r_1 - r)^2}{2m_n m_1}\right)^{\frac{3}{2}} + \sqrt{\left(\frac{m_n^2 + (r_2 - r)^2}{2m_n m_2}\right)^{\frac{3}{2}} + \sqrt{\left(\frac{m_n^2 + (r_3 - r)^2}{2m_n m_3}\right)^{\frac{3}{2}} + \sqrt{\left(\frac{m_n^2 + (r_4 - r)^2}{2m_n m_4}\right)^{\frac{3}{2}} + \sqrt{\left(\frac{m_n^2 + (r_5 - r)^2}{2m_n m_5}\right)^{\frac{3}{2}} + \sqrt{\left(\frac{m_n^2 + (r_6 - r)^2}{2m_n m_6}\right)^{\frac{3}{2}}} \\
&= \sqrt{3m_n^3 + 6m_n^2(m_1^2 + m_1 r_1 + m_1 r_2 + m_1 r_3 + m_1 r_4 + m_1 r_5 + m_1 r_6) + 6m_n^2(m_2^2 + m_2 r_1 + m_2 r_2 + m_2 r_3 + m_2 r_4 + m_2 r_5 + m_2 r_6) + 6m_n^2(m_3^2 + m_3 r_1 + m_3 r_2 + m_3 r_3 + m_3 r_4 + m_3 r_5 + m_3 r_6) + 6m_n^2(m_4^2 + m_4 r_1 + m_4 r_2 + m_4 r_3 + m_4 r_4 + m_4 r_5 + m_4 r_6)} \\
&= \sqrt{3m_n^3 + 12m_n^2(m_1m_2 + m_1m_3 + m_1m_4 + m_1m_5 + m_1m_6 + m_2m_2 + m_2m_3 + m_2m_4 + m_2m_5 + m_2m_6 + m_3m_3 + m_3m_4 + m_3m_5 + m_3m_6 + m_4m_4 + m_4m_5 + m_4m_6)}
\end{align}

其中，$r$ 表示相对位置，$n$ 表示轨道平均速率，$u$ 表示LVLH坐标系中的控制输入。对于非圆形或受扰动的轨道，需要更高精度的模型（如高斯变分模型）来进行模拟。

方法论

本节概述了基于物理信息的Transformer深度强化学习（DRL）代理的自主六自由度航天器交会框架。该架构结合了精确的航天器动力学建模、时间注意力机制的策略网络、基于物理的规则化方法以及自适应奖励塑造机制，以实现安全、高效且稳健的近距离空间操作。

基于Transformer的自主交会架构

我们提出了七种基于近端策略优化（PPO）框架的演员-评论家架构，每种架构都逐步引入了更先进的特性，如奖励预测、自适应融合、注意力调节和物理信息规则化。所有模型都使用共享的Transformer编码器对状态-动作序列进行时间抽象，从而支持六自由度控制任务中的长距离依赖性建模。

性能评估

本节介绍了自主六自由度航天器交会控制策略的训练方法和全面评估。这些策略使用近端策略优化（PPO）进行训练，并结合了领域特定的奖励塑造和超参数调整（例如学习率、折扣因子γ）。仿真环境使用Python和OpenAI Gym开发，其中包含了Clohessy-Wiltshire动力学模型用于轨道力学模拟。性能评估基于以下指标：

...

局限性与未来工作

未来研究的一个主要方向是在更高精度的非线性轨道动力学模型上验证和调整PIT-DRL框架。虽然C-W方程为算法开发提供了可控的环境，但实际任务（尤其是在非圆形轨道上）需要考虑广义Tschauner-Hempel方程或包含J2扰动和大气阻力的完整数值传播模型。我们假设我们的物理信息组件在这些场景中具有潜在的应用价值。

结论

本文全面研究了基于Transformer的深度强化学习（DRL）架构在自主六自由度（6-DOF）航天器交会任务中的应用。我们提出了七种基于近端策略优化（PPO）框架的演员-评论家变体，并评估了它们的性能，这些变体整合了时间注意力、自适应奖励塑造和物理信息规则化等组件。

在评估的模型中，具有自适应奖励融合功能的物理信息Transformer模型表现最为出色。

未引用的参考文献

BASHNICK, C. T. (2022), CARRADORI (2025), WANG (2024), Wang et al. (2024).

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要