针对重型货车(HGVs)的三维追逃微分博弈交叉引导机制,该机制考虑了攻击者的渗透行为
《Aerospace Science and Technology》:Three-dimensional pursuit-evasion differential game guidance for HGVs considering penetration of an attacker
【字体:
大
中
小
】
时间:2026年05月10日
来源:Aerospace Science and Technology 5.8
编辑推荐:
潘冰冰|邵星玲|朱耀娟|刘文尧|刘军
中国北方大学极端环境光电子动态测量技术及仪器国家重点实验室,太原030051,中国
**摘要**
本文针对高超音速滑翔飞行器(HGVs)在遭受攻击者穿透情况下的三维追击-规避微分博弈引导问题进行了研究。首先,在纵向剖面中,将HG
潘冰冰|邵星玲|朱耀娟|刘文尧|刘军
中国北方大学极端环境光电子动态测量技术及仪器国家重点实验室,太原030051,中国
**摘要**
本文针对高超音速滑翔飞行器(HGVs)在遭受攻击者穿透情况下的三维追击-规避微分博弈引导问题进行了研究。首先,在纵向剖面中,将HGVs的追击-规避微分博弈问题转化为求解最优引导策略的问题,提出了一种基于自适应评论家学习的纵向引导设计方法,该方法采用仅评论家的自适应动态规划结构来调节HGVs的侧倾角大小。值得注意的是,通过从实时数据和历史数据中提取权重误差,开发了一种改进的有限时间权重更新规则,以确保最优策略的有限时间逼近。其次,在横向剖面中,设计了一种基于改进的人工势场(IAPF)的横向引导逻辑,该方法考虑了基于速度的排斥势场,以提高HGV对抗攻击者的响应敏捷性。仿真验证了所提出的引导方法的有效性和优越性。
**引言**
近几十年来,由于其高速飞行和出色的机动性,高超音速滑翔飞行器(HGVs)在军事和民用领域取得了显著发展[1,2]。对于HGVs而言,引导起着关键作用,旨在精确击中目标或降落在指定位置。许多现有研究[3], [4], [5], [6], [7]专注于利用预测-校正引导律及其变体实现HGVs的预定终端条件,这在HGVs引导领域占据重要地位。此外,还有研究[8,9]针对静止地面目标提出了创新的引导律,分别考虑了加速度约束和撞击角约束。然而,在未来的对抗场景中,HGVs不仅需要执行对移动目标的精确引导,还需要自主穿透攻击者。因此,这推动了HGVs追击-规避(PE)问题的研究。
**追击-规避问题**
PE问题涉及追逐者和规避者,在移动机器人[10]、导弹系统[11]、无人驾驶飞行器[12,13]、航天器[14], [15], [16]以及海洋表面船舶[17]中有着广泛的应用,其中追逐者旨在拦截规避者,而规避者则试图逃脱。这些问题的研究通常通过对对手行为的特定假设来进行。然而,许多PE场景必须面对不遵循受限行为集的智能对手。因此,制定针对对手所有可能行为的最佳策略的需求促进了微分博弈理论[18]的发展。PE微分博弈的核心理念是利用汉密尔顿-雅可比-艾萨克斯(HJI)方程来求解纳什均衡,即任何一方单方面改变策略只会降低自身的收益或保持不变,而其他方的策略保持不变[19]。例如,[20]将拦截器-导弹的PE引导问题转化为线性二次微分博弈,并通过求解Riccati微分方程并利用状态转移矩阵来推导出分析解以实现导弹的成功攻击[21]。上述创新方法[20,21]假设所有参与者都遵循简化的线性运动学假设,因此在非线性系统中无法推导出分析解。为了解决非线性问题,有研究[10]提出了基于可见性的代理PE方法,该方法结合动态规划机制来近似最小-最大时间差。不幸的是,动态规划在高维场景中可能会遇到“维数灾难”[22,23],使其在HGVs的微分博弈引导等应用中变得难以处理。
近年来,自适应动态规划(ADP)被确立为解决“维数灾难”的强大方法[24,25]。其核心理念是利用强化学习和动态规划的优点来近似非线性系统的最优解[26], [27], [28]。具体而言,actor-critic神经网络(NN)结构在ADP中非常普遍,其中actor和critic NN分别用于近似最优控制策略和最优价值函数[29], [30], [31]。在actor-critic范式中,ADP被用来处理无人驾驶飞行器直升机的控制输入与扰动之间的微分博弈[32]。类似的方法也被应用于能量管理系统[33]。然而,基于actor-critic NN的ADPs在计算上非常耗费资源,可能会在引导过程中产生不可忽视的时间延迟,难以满足HGVs的在线引导需求。后来,许多学者开始通过仅使用critic NN来构建简化的ADP,以降低计算复杂性。为了处理基于微分博弈的容错控制问题,开发了一种仅使用critic NN的ADP框架,并采用梯度下降方法来确保最佳性能[34]。同样,也研究了仅使用critic NN的ADP结构,以实现具有扰动动态的非线性系统的最优跟踪控制[35]。尽管在将ADP与微分博弈结合方面取得了显著进展,但仍存在一些需要继续研究的问题。特别是,现有的基于梯度下降的ADPs[34], [35], [36], [37], [38], [39], [40]在使用多层NN结构时容易遇到梯度消失的问题,同时伴随着渐进式收敛。因此,难以在有限时间内近似出最优引导策略,这可能会削弱HGVs的引导能力。这一限制促使我们寻求一种复杂度降低且收敛性有保证的ADP学习策略,用于HGVs的微分博弈引导。
受上述成果的启发,本文提出了一种考虑攻击者穿透情况的三维PE微分博弈引导方法,确保在非合作目标情况下实现无碰撞的最优引导。主要创新点如下:
1) 扩展应用范围:与现有关注预定终端状态[3,5,[7], [8], [9]并忽略攻击者威胁[3,[42], [43], [44]的HGVs引导研究不同,本文将HGVs引导问题转化为基于PE微分博弈的最优引导策略问题。该博弈引导方法使HGVs能够在穿透攻击者威胁的同时拦截智能目标。此外,与依赖于线性运动学假设[20,21]或平面场景[13,20,[45], [46], [47], [48]的现有引导策略相比,本文提出的引导律能够处理HGVs在三维空间中的非线性动态,因此更适用于实际场景。
2) 具有更快收敛性的有限时间权重学习规则:与具有渐进式收敛特性的梯度下降方法[34], [35], [36], [37], [38]不同,本文提出的有限时间权重学习规则通过从实时数据和历史数据中提取权重误差来实现在线更新和评估,并具有规定的收敛性。此外,与梯度下降方法相比,该方法显示出更小的法向加速度。
3) 具有增强响应敏捷性的改进人工势场(IAPF):与用于控制动力机器人操纵器速度以避免动态障碍物的基于距离的人工势场(APF)方法[49]不同,本文提出的IAPF方法考虑了基于速度的排斥势场,以提高对攻击者速度分散的响应敏捷性。具体而言,它计算一个参考航向角,该航向角结合了航向误差阈值和侧倾反转逻辑来确定HGVs的侧倾角方向。
本文的其余部分安排如下:第2节提供问题表述;第3节阐明三维PE微分博弈引导设计;第4节检查仿真结果;第5节讨论结论。
**问题表述**
本文研究了HGV在穿透攻击者的情况下的三维PE微分博弈引导问题,其中HGV旨在拦截目标,而目标则试图躲避HGV的追击。图1显示了坐标和几何关系。O?xyz和O?xsyszs分别表示东北向上(ENU)和视线(LOS)坐标。xi, yi, zi分别表示向东、向上和向北的方向位置,Vi, θi, ψi分别表示速度、飞行路径。
**三维PE微分博弈引导设计**
本节提出了一种考虑攻击者穿透情况的三维PE引导框架,如图2所示,包括两部分:在纵向剖面中,HGV与目标之间的引导问题被转化为基于PE微分博弈的最优引导策略问题,并提出了一种基于自适应评论家学习的纵向引导方案来调节HGV和目标的侧倾角大小;在横向剖面中,基于IAPF的引导逻辑用于确定HGV的侧倾角方向。
**仿真结果**
本节使用MATLAB/Simulink平台进行仿真,采样频率为1000Hz,计算机配备Intel Core i7-9750H处理器。HGV和目标的初始位置分别设置为(xI0,yI0,zI0)=(0.078,20.06,35.45)km和(xT0,yT0,zT0)=(712.48,14.15,30.31)km。HGV和目标的初始速度分别为VI0=3000m/s和VT0=1986m/s。初始飞行路径角度为...(原文此处数据缺失)。
**结论**
本文提出了一种考虑攻击者穿透情况的三维PE微分博弈引导框架。首先,在纵向剖面中,提出了一种基于仅评论家ADP结构的自适应评论家学习纵向引导设计,用于调节HGV的侧倾角大小。具体而言,从权重误差中导出有限时间更新法则,以实现在线更新和具有规定收敛性的评估,从而确保目标被拦截。
**作者贡献声明**
潘冰冰:写作——审稿与编辑、撰写——原始草稿、可视化、验证、软件、资源、方法论、调查、正式分析、数据整理。
邵星玲:写作——审稿与编辑、可视化、调查、资金获取、概念化。
朱耀娟:调查。
刘文尧:写作——审稿与编辑、概念化。
刘军:写作——审稿与编辑。