通过多任务GRU进行参数估计，用于信息不完全的轨道追踪-规避游戏

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月12日 来源：Aerospace Science and Technology 5.8

编辑推荐：

　　针对不完全信息轨道追逃博弈中的动态权重参数估计难题，本文提出基于改进GRU网络的自注意力机制参数估计方法。通过将相对动力学微分方程转化为权重参数的显式代数方程，构建包含系统状态、导数及控制输入的扩展特征向量，并采用多任务学习架构与自注意力机制协同处理策略切换带来的参数突变，仿真验证表明该方法在参数跳变工况下较UKF和传统GRU提升23.6%的估计精度，响应速度加快40%，收敛稳定性显著提高。

徐元静|刘鹏轩|杨斌|曹璐|李双

南京航空航天大学航天学院，中国南京210016

摘要

参数估计是不完全信息轨道追逃游戏中获得最优追逃策略的前提。本文提出了一种新颖的参数估计方法，利用门控循环单元网络（GRU）从时间序列状态中准确获取逃逸者的收益权重参数。通过将原始相对动力学微分方程转化为权重参数的代数方程，定义了一种新的扩展输入特征，该方法具有更好的学习能力。然后，采用自注意力机制和多任务神经网络架构来精确捕捉逃逸者切换策略时权重参数的突变。最后，与无迹卡尔曼滤波器和传统GRU进行了对比仿真。仿真结果表明，所提出的方法在捕捉参数突变、响应速度和估计精度方面具有优越性。

引言

卫星在政治、经济、文化和军事领域发挥着关键作用，因此空间安全至关重要。保护高价值的空间资产已成为主要空间国家和机构的关注焦点。轨道追逃游戏（OPEG）是维护空间资产的基本技术之一，引起了学者们的广泛关注[1,2]。

微分博弈论已被广泛应用于解决轨道博弈问题[[3], [4], [5], [6]]。在微分博弈中，追逃者-逃逸者问题在双边最优控制框架内进行建模，从而可以为双方玩家推导出纳什均衡策略[7]。经典的微分博弈方法依赖于完全信息的假设，即双方玩家能够准确获取对方的收益权重矩阵。然而，在现实世界中，追逃者和逃逸者的策略并不透明，并且可能会随时间变化[8]，这被称为不完全信息博弈。在不完全信息博弈中，信息差距使追逃者处于不利地位，导致其收益值降低[9,10]。为了解决不完全信息带来的挑战，一种有前景的方法是从状态数据中估计目标的权重矩阵参数，并基于这些估计值优化新的最优策略。快速准确的参数估计是该方法有效性的基础。

许多学者对不完全信息OPEG任务中的参数估计问题进行了广泛研究。Cavalieri等人[11]利用相对状态测量值解决了逃逸者的控制输入问题，并通过高斯最小二乘微分校正推导出权重参数。这种方法可以有效地估计对手的控制和策略，但收敛时间较长。随后，开发了各种滤波算法来克服这一限制。Ye等人[12]假设目标的未知参数来自一个有限集合，并使用一组并行滤波器来匹配目标的模式，从而便于估计未知信息。这些研究没有考虑策略参数的切换，而这在实际OPEG任务中是常见的现象。Li等人[8]提出了一种改进的强跟踪无迹卡尔曼滤波器（UKF）来估计追逃者的权重参数。Liu等人[13]从追逃者的不利角度使用UKF方法求解逃逸者的策略参数。尽管这些基于UKF的方法在非线性系统中实现了高估计精度，但当对手主动改变策略参数时，收敛性存在明显波动。Tang等人[14]结合了交互式多模型方法和模式匹配的平滑变结构滤波器来估计目标的策略模式。虽然能够处理目标的策略切换，但这种方法需要同时运行多个滤波器，导致计算开销较大。尽管这些算法在参数估计方面表现出色，但仍存在三个需要解决的挑战。首先，模型可观测性不足会导致滤波器收敛精度降低。其次，尽管先进的滤波技术提高了估计精度，但其巨大的计算负担通常无法接受OPEG任务的需求。第三，当对手主动修改策略参数时，它们容易出现显著的收敛振荡。

人工神经网络在非线性系统拟合方面表现出色，被广泛用于空间态势感知领域[15,16]。Lin等人利用长短期记忆网络（LSTM）和两线元素数据进行了高精度的轨道预测[17]。此外，一系列循环神经网络方法被应用于解决航天器意图识别问题，建立了从时间轨道信息到目标意图的映射[[18], [19], [20], [21], [22]]。神经网络本质上只需要一系列分析代数运算，具有较高的计算效率。因此，它们为解决不完全信息微分博弈中的参数估计问题提供了有前景的方法。然而，动力学的非线性特性和参数的不连续变化给神经网络的应用带来了挑战，导致训练收敛性差和参数估计精度有限。

总之，在具有策略切换的不完全信息OPEG中，参数估计仍面临时效性有限和参数切换期间估计波动等挑战。为了解决这些挑战，本文提出了一种利用门控循环单元网络（GRU）从时间序列状态中准确估计逃逸者收益权重参数的新方法。本文的主要贡献如下：

(1)

提出了一种扩展输入特征构建方法。与现有方法不同，现有方法仅将轨道状态作为网络输入并依赖网络隐式提取特征，而本文将相对动力学微分方程重新表述为代数形式，明确分离状态变量和收益权重参数。基于这种表述，构建了一个新的特征向量，包括系统状态、它们的时间导数和控制输入，并将其与原始状态变量连接起来形成最终的网络输入。

(2)

开发了一种基于GRU的增强型参数估计网络，以应对参数的突然切换。在GRU网络之后添加了一个自注意力层，以提高其对参数突然变化的敏感性。自注意力网络的输出首先通过分类分支进行处理，以提取与参数切换相关的特征，然后通过回归分支进行参数估计。

(3)

进行了一系列仿真来验证所提出的方法。与不同输入特征的对比实验表明，所提出的扩展特征提高了学习效果和网络性能。通过超参数优化提高了网络的估计精度。与UKF和传统GRU相比，所提出的方法在处理权重参数的突然变化方面表现出更强的能力，从而实现了更高的估计精度。

本文的其余部分组织如下：第2章介绍了不完全信息微分博弈中的参数估计问题；第3章描述了本研究中使用的基于神经网络的参数估计方法；第4章通过一系列仿真展示了所提出模型的有效性和优越性；第5章对本文进行了总结。

部分摘录

航天器动力学

为了描述追逃过程的动力学，首先建立了一个以参考航天器为原点的局部垂直-局部水平（LVLH）坐标系[23]（图1）。X轴从地球中心指向O₁，Z轴与轨道角动量向量对齐，Y轴根据右手规则确定。

假设参考卫星处于圆形轨道，并且与参考卫星的相对距离较小，那么追逃者的动力学

基于深度神经网络的参数估计方法

在本节中，通过将轨道动力学与神经网络理论相结合，开发了一种参数估计方法。通过将原始相对动力学微分方程转化为权重参数的代数方程，定义了一种新的输入特征。据此确定了估计所需的网络输入和输出。最后，设计了一种基于GRU的架构，该架构结合了自注意力机制和多任务学习结构以增强

数值仿真与分析

在本节中，进行了一系列仿真和相应的结果分析，以证明所提出的MT-SAGRU模型的有效性和优越性。首先介绍了数据集生成方法和评估指标。然后，通过仿真展示了扩展输入特征的好处。接下来，调整了模型的超参数以获得更好的性能。最后，将所提出的方法与UKF和标准GRU进行了比较

结论

本文提出了一种用于不完全信息OPEG的参数估计方法。首先通过将原始相对动力学微分方程转化为权重参数的代数方程来定义扩展输入特征。随后，利用自注意力机制和多任务神经网络架构来精确捕捉逃逸者切换策略时权重参数的突变。仿真结果表明，结合

CRediT作者贡献声明

徐元静：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，方法论，调查，概念化。刘鹏轩：撰写 – 原始草稿，方法论，调查。杨斌：撰写 – 原始草稿，方法论，调查。曹璐：撰写 – 原始草稿，监督。李双：撰写 – 审稿与编辑，撰写 – 原始草稿，监督，调查，资金获取，概念化。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

航天器动力学

基于深度神经网络的参数估计方法

数值仿真与分析

结论

CRediT作者贡献声明

热点排行