在不完全信息结构下,两人逃避者与一人追逐者追逐博弈的策略与均衡分析

《Systems & Control Letters》:Strategies and equilibrium for two-evader single-pursuer chase games under incomplete information structure

【字体: 时间:2026年02月11日 来源:Systems & Control Letters 2.5

编辑推荐:

  零和追捕微分博弈研究,提出基于Stackelberg博弈的逃逸者合作策略和信号博弈框架下的完美贝叶斯纳什均衡,解决不完全信息下多类型逃逸者协同对抗问题。

  
李希伦|李展|杨学波|余星虎|邱建斌
哈尔滨工业大学智能控制与系统研究所,中国哈尔滨150001

摘要

本文研究了一个零和追逐微分博弈,其中包含两个合作的逃逸者和一个追逐者,且信息不完全。逃逸者的目标是到达目标区域,而追逐者则试图在之前抓住他们。在现实场景中,如无人机对抗和协调的诱饵-目标防御中,可能会发生通过掩护或欺骗进行合作的行为,这导致了多种可能的逃逸者类型,从而从根本上增加了问题的复杂性。在不完全信息下解决完美的贝叶斯纳什均衡(PBNE)是一个具有挑战性的问题,这也是我们研究的重点。为此,我们分两步研究了这个追逐博弈。首先,将没有捕获顺序限制的追逐博弈构建为一个斯塔克伯格博弈。为逃逸者团队构建了一个非劣的开放环逃逸策略,并为追逐者推导出了一个最优捕获策略。该解决方案确保了逃逸者能够获得最大的最小收益,无论追逐者的捕获顺序如何。其次,将包含两种类型逃逸者的博弈(即任务导向型逃逸者和辅助型逃逸者)构建为一个信号博弈,其中类型信息是私有的。通过仅用三个信号表示潜在的无限策略集合,使得模型变得易于处理,并能够完全描述PBNE。仿真结果展示了斯塔克伯格策略和PBNE结果。

引言

追逐博弈是一类典型的微分博弈[1],[2],[3],它们已被应用于许多实际领域,如机器人控制[4]、航天器交会[5]和导弹防御[6],[7]。然而,在许多实际场景中,追逐者和逃逸者之间的互动涉及不完全信息、逃逸者之间的合作行为或欺骗策略,这些因素显著增加了决策过程的复杂性[8],[9]。这些挑战激发了对在现实信息约束下多智能体追逐博弈的研究。在追逐博弈中,逃逸团队试图到达目标区域,而追逐团队则试图在之前抓住他们。已经开发了两种主要的分析追逐微分博弈的方法:(1) 基于汉密尔顿-雅可比-艾萨克斯(HJI)方程[1]的分析方法提供了通用最优性条件,但在多智能体设置中受到维数灾难的影响[10];(2) 几何方法,如Voronoi划分和Apollonius圆,已被证明对于具有简单运动动态的多玩家博弈有效[11],[12]。然而,这些方法主要针对完全信息设置,并通常假设所有玩家的策略、目标和捕获顺序都是众所周知的。当多个逃逸者通过掩护动作或欺骗行为进行合作时,博弈的结构比经典情况要复杂得多。逃逸者之间的合作行为及其角色的不确定性受到的关注要少得多。
多玩家追逐博弈由于其与现实交战场景的相关性而越来越受到关注。大多数现有研究考虑的是有多个追逐者和一个逃逸者的情况,或者捕获顺序是预先已知的情况[10],[13],[14],[15],[16]。例如,在[16]中,其中一个逃逸者远离目标以吸引追逐者,同时有一个严格的假设,即追逐者的捕获顺序为逃逸团队所知。尽管当一个追逐者面对多个逃逸者时这是自然的情况,但只有少数研究探讨了捕获顺序未预先确定的情况[17]。在这种情况下,最优策略仍然很大程度上是一个未解决的问题。
此外,关于不完全信息博弈的研究很少。大多数现有研究集中在完全信息下的静态追逐微分博弈[10],[12],[18],[19],[20]。然而,在许多现实世界的交战中,追逐者无法完全观察到逃逸者的意图或角色。例如,现代防空穿透行动经常使用协调的诱饵-目标战术。像ADM-160 MALD可编程空射诱饵和AN/ALE-50拖曳雷达诱饵这样的系统旨在误导拦截器并保护高价值飞机[21]。这些现实世界系统表明,协调的逃避和欺骗是标准且实际相关的行为。这种类型的不确定性自然导致了不完全信息的博弈。尽管其具有实际重要性,但很少有研究在贝叶斯或信号博弈框架内对追逐-逃避互动进行建模[22],主要是由于分析上的困难。这激发了本工作的第二部分,我们将追逐问题建模为一个信号博弈并描述了完美的贝叶斯纳什均衡。
本研究考虑了一个两个逃逸者和一个追逐者的追逐博弈,其中逃逸团队首先做出决策,然后是追逐者。有两种可能的逃逸者类型,包括任务导向型逃逸者(TOE)和辅助型逃逸者(AE),这对逃逸团队来说是私有信息。在本文中,我们分两步研究了两个逃逸者和一个追逐者的追逐博弈。首先,我们研究了一个没有捕获顺序限制的斯塔克伯格博弈,并为逃逸者团队构建了一个非劣的开放环策略;其次,基于斯塔克伯格博弈的解决方案,我们分析了贝叶斯博弈的完美贝叶斯纳什均衡。主要贡献如下。
  • 1.
    为不完全信息下的两个逃逸者一个追逐者的博弈开发了一个统一的建模框架。据我们所知,这是第一项将此类互动构建为信号博弈并明确推导出完美贝叶斯纳什均衡的工作。
  • 2.
    完美贝叶斯纳什均衡得到了完整的描述,包括存在条件和均衡信念。这以一种新颖的方式将微分博弈理论与信号博弈理论联系起来。
  • 3.
    为没有捕获顺序限制的博弈推导出了斯塔克伯格策略。使用几何方法为逃逸者团队构建了一个非劣的合作策略,并为追逐者构建了一个最优捕获策略。
本文的其余部分组织如下。第2节介绍了追逐博弈的模型、信息结构和初步内容。第3节将追逐博弈构建为一个斯塔克伯格博弈,并设计了追逐者和逃逸团队的最优策略。第4节将追逐博弈构建为一个信号博弈,并提出了完美的贝叶斯纳什均衡。第5节展示了仿真结果。

部分摘录

问题描述

在本节中,我们介绍了追逐博弈的场景、信息结构和包括微分博弈和信号博弈的关键概念在内的初步内容。

两个逃逸者一个追逐者的斯塔克伯格博弈策略

在本节中,我们研究了两个逃逸者(E1E2都是任务导向型逃逸者(TOE)的情况。因为追逐者(P)在选择自己的方向之前观察到了逃逸者的方向,所以这种互动形成了一个斯塔克伯格微分博弈,其中逃逸者作为领导者,追逐者作为跟随者。逃逸者的目标是确定一个非劣的开放环策略,该策略能够在所有可能的捕获顺序下最大化最小可实现的终端收益。然后追逐者选择自己的方向

具有不同类型逃逸者的贝叶斯博弈策略

在本节中,我们考虑了一个追逐者不知道逃逸者类型的贝叶斯博弈。我们将该博弈构建为一个信号博弈并分析了子博弈的PBNE。
在现实的多智能体交战中,逃逸团队可能由具有不同角色的逃逸者组成。其中一个可能是TOE,其目标是到达目标线,而另一个可能是AE,它故意执行牺牲动作来误导追逐者。追逐者无法

仿真示例

在本节中,我们提供了第3节中斯塔克伯格博弈的仿真结果。我们还在第4节中展示了贝叶斯博弈的PBNE和解释。
三个玩家的初始位置是
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号