信息不完全的航天器追逃游戏：一种预训练近似动态规划方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Acta Astronautica》：Spacecraft pursuit-evasion game with incomplete information: A pre-training approximate dynamic programming method

【字体：大中小】 时间：2026年02月04日 来源：Acta Astronautica 3.4

编辑推荐：

　　同步近最优控制策略针对执行器饱和与不完全信息下的航天器追逃博弈，提出在线参数估计与离线预训练结合的PIADP框架，通过Lyapunov分析证明闭环系统终极一致有界性，仿真验证其有效性。

Jiancheng Zhang|Yidi Wang|Wei Zheng|Meijiao Zhao

国防科技大学航空航天科学与工程学院，中国湖南长沙410073

摘要

本文研究了一种同步近最优控制策略，用于解决连续时间航天器追逃（PE）游戏问题，该问题受到执行器饱和度和关于逃逸者控制权重的信息不完全的影响。首先，使用一种考虑饱和度的估计器在线识别逃逸者未知的控制权重参数，使追捕者能够实时获取信息。其次，提出了一种预训练近似动态规划（ADP）框架来计算同步控制律，该框架结合了基于神经网络（NN）的价值函数初始化和在线迭代校正，以近似求解哈密顿-雅可比-艾萨克斯（HJI）方程。此外，通过李雅普诺夫分析分析了PE游戏系统均匀最终有界性（UUB）的充分条件。最后，数值模拟验证了所提出方法的有效性和鲁棒性。

引言

随着航空航天工程的发展，太空碎片和非功能性卫星的数量不断增加，这对执行常见任务的卫星构成了威胁。通过让航天器自主对接这些不受控制的卫星是一种有前景的解决方法[1]，[2]。然而，如果不受控制或翻滚的卫星（逃逸者）表现出未知的动力学或机动行为，阻碍了对接航天器（追捕者），则对接过程可以建模为一个PE游戏。此外，大多数情况下，追捕者对逃逸者的控制策略知之甚少或完全不了解，从而导致PE游戏成为信息不完全的PE游戏[3]，[4]。

由于追捕者和逃逸者的控制目标相反，PE游戏通常被构建为一个双人零和微分游戏[5]，[6]。通过求解PE游戏的HJI方程的鞍点均衡（SPE），可以获得追捕者和逃逸者的最优控制律[7]。近年来，零和微分游戏的研究受到了广泛关注[8]。零和微分游戏的研究可以分为两类。第一类工作试图寻找零和微分游戏的解析解。Pontani等人[9]，[10]使用遗传算法选择游戏问题的初始值，并通过非线性规划优化获得了PE游戏的SPE解。Li等人[11]建立了无限时间域中的双人零和线性二次微分游戏，并通过求解矩阵代数Riccati方程获得了游戏的SPE。Wu等人[12]将航天器PE游戏问题转化为两点边界值问题，并提出了一种结合遗传算法和序列二次规划的混合解决方法来获得PE游戏的SPE解。然而，在航天器PE游戏的背景下，HJI方程的精确解很难得到，因此只有在少数情况下才能获得航天器PE的解析解。第二类工作采用ADP和强化学习，这些方法不需要HJI方程的解析解[13]，[14]，[15]，[16]。ADP的主要思想是通过动作网络和评论网络的协同演化来近似最优控制律。这种方法有效地避免了直接求解HJI方程时的“维数灾难”[17]，[18]。由于其计算效率和适应性，ADP方法已被广泛用于求解PE游戏中的HJI方程。Li等人[19]研究了一个具有未知线性动力学的双人微分游戏问题，并提出了一种基于单个评论网络和两个动作网络的积分强化学习算法来近似微分游戏的SPE。Liu等人[20]提出了一种新的基于演员-评论网络的ADP算法，用于解决连续非线性系统中的多玩家零和微分游戏。然而，这些在线ADP算法通常需要一个预定义的允许初始策略来确保稳定性，且收敛性对神经网络中的初始权重非常敏感[21]，[22]。尽管提出了单网络自适应评论（SNAC）架构[23]，[24]通过消除演员网络来减少计算负担，但它仍然存在“冷启动”问题，即SNAC的稳定性对网络的初始值敏感。

上述获取PE游戏解的方法都基于一个假设，即游戏中的参数对游戏中的双方都是已知的。更具体地说，追捕者知道逃逸者控制律中的参数，这显然是不切实际的[25]。在实际应用中，游戏中的玩家信息对彼此来说是未知的，导致追捕者的控制性能相比理想情况会下降[26]。为了解决这个问题，Satak等人[27]提出了一种基于行为学习的游戏框架，并通过观察两个玩家的相对状态来估计控制参数。Tang等人[28]提出了一种结合模式匹配平滑变量滑动滤波器的交互式多模型方法来估计逃逸者未知的控制参数信息。然而，这些估计方法通常假设执行器响应是理想的。然而，在实践中，追捕者的控制命令受到执行器饱和度的限制，这可能会显著扭曲观察到的状态，从而导致参数估计偏差。

总之，当前关于信息不完全的PE游戏的研究存在以下问题：（1）在线ADP算法的性能对所使用的神经网络的初始值敏感[29]，[30]；（2）忽略了执行器饱和度对参数估计的影响[25]，[26]。这种忽略是关键的，因为饱和度会扭曲施加的控制力，从而导致参数估计错误。因此，一个同时解决执行器饱和度和信息不完全问题的鲁棒且计算效率高的框架仍然缺失。

为了解决这些问题，本文提出了一种离线预训练在线迭代近似动态规划（PIADP）框架。本文的主要贡献可以总结如下：（1）设计了一种在饱和度约束下的在线参数估计器。该估计器将饱和度模型纳入估计过程，以克服由控制输入失真引起的参数识别错误。（2）提出了一种结合离线学习和在线校正的PIADP策略。为了克服纯在线ADP方法固有的“冷启动”不稳定性，我们利用离线预训练生成一个稳定的初始允许策略。（3）基于李雅普诺夫的稳定性分析证明了集成饱和度估计器和PIADP控制器的闭环系统的UUB，从而为算法的可靠性提供了理论保证。

本文的其余部分组织如下。第2节建立了PE模型，设计了成本函数，并定义了SPE。第3节开发了在线参数估计器和PIADP算法。第4节的数值模拟验证了所提出方法的有效性和改进的性能。最后，第5节总结了本文。

章节片段

系统模型

由于追捕者和逃逸者之间的相对距离远小于它们与地球的距离，在追捕航天器附近定义了一个参考卫星

O_{c}

来描述它们的相对运动，如图1所示。以地球为中心的惯性坐标系

O_{l} x_{l} y_{l} z

起源于地心。

O_{l} x y l

-轴与地球的自转轴对齐，

x

-轴指向春分点，

y

-轴构成了一个右手正交坐标系。

控制策略设计

本节介绍了用于解决具有执行器饱和度和信息不完全的航天器PE游戏的PIADP框架。首先，引入了一个基于神经网络的近似结构来表示HJI方程的解，这为构建评论网络奠定了基础。基于这种近似，开发了一个由离线评论预训练程序和在线学习阶段组成的控制策略。

数值模拟

本节使用不同的控制方法对航天器PE游戏进行了数值模拟。对于信息不完全的游戏，我们验证了所提出的离线预训练和在线迭代学习方法的有效性。此外，通过与其他控制方法的比较，展示了所提出方法在特定场景中的改进性能。

结论

本文提出了一种用于具有执行器饱和度和信息不完全的航天器PE游戏的PIADP方法。通过使用SNAC架构和饱和度受限的在线估计器，所提出的框架有效地解决了难以处理的HJI方程，并实时识别了未知的逃逸者参数。李雅普诺夫分析保证了系统的UUB稳定性。仿真结果表明，所提出的方法实现了更快的拦截和更低的控制力。

CRediT作者贡献声明

Jiancheng Zhang：撰写 – 审稿与编辑，撰写 – 原始草稿，软件开发，调查，形式分析。Yidi Wang：监督，资源管理，项目管理，调查，资金获取。Wei Zheng：监督，项目管理，资金获取。Meijiao Zhao：调查，数据管理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作由中国国家自然科学基金在Grant编号62373366和Grant编号92371207的资助下进行，部分由湖南省杰出青年科学家自然科学基金在Grant编号2024JJ2064的资助下进行。

联系信箱：

粤ICP备09063491号

摘要

引言