《Automatica》:Two person non-zero-sum linear–quadratic differential game with Markovian jumps in infinite horizon
编辑推荐:
这篇综述深入探讨了无限时域上具有马尔可夫跳变的非零和线性二次(LQ)微分博弈问题。文章在L2稳定性框架下,通过引入代数Riccati方程(ARE)和倒向随机微分方程(BSDE)系统,构建了闭环纳什均衡点的存在性条件。该研究不仅为随机控制理论提供了新的数学工具,也为金融、工程等领域的动态决策问题(如资源分配、风险管理)提供了理论支撑,具有重要的理论和应用价值。
亮点 (Highlights)
- •
本文研究了无限时域上具有马尔可夫链切换的非零和线性二次 (LQ) 微分博弈。
- •
在L2稳定性框架下,提出了该问题的可解性条件。
- •
通过耦合的代数Riccati方程 (ARE)和倒向随机微分方程 (BSDE)系统,表征了闭环纳什均衡点。
- •
提供了一个非零和LQ微分博弈的例子,以验证理论结果。
引言 (Introduction)
在本文中,我们研究了由连续时间马尔可夫链调节的两人非零和线性二次 (LQ) 微分博弈。所考虑的控制系统由以下线性常微分方程 (ODE) 给出:
?
?
受控系统的状态空间为 ?n,而两个参与者的控制输入分别取值于 ?m1和 ?m2。第k个参与者的成本泛函定义为:
?
?
在本文的其余部分,我们使用以下约定:对于任意给定的D维向量 Θ = [Θ(1), Θ(2), …, Θ(D)],定义 Θ(αt) ? Σi=1DΘ(i) I(αt=i),其中 IA是指示函数。对于给定的欧几里得空间 H,令 LF2,loc(H) 是所有H值、F-渐进可测的过程集合,且对于所有 T > 0,满足 E∫0T|φ(s)|2ds < ∞。令 LF2(H) (LP2(H))是所有H值、F-渐进可测(F-可料)的过程集合,且满足 E∫0∞|φ(s)|2ds < ∞。令 Sn(S+n, S?+n)表示所有 n × n 对称矩阵(正定矩阵、半正定矩阵)的集合。对于 M, N ∈ Sn,我们记 M ≥ N (M > N)如果 M - N 是半正定(正定)的。
我们考虑一个具有马尔可夫跳变的两人非零和LQ微分博弈问题。受控系统由下式给出(为简洁起见,自变量 t 被省略):
?
?
两个参与者的成本泛函定义为:
?
?
在上式中,X ≡ X(·; x, i, u1, u2) 称为状态过程,取值于 ?n,uk称为参与者k的控制过程,取值于 ?mk。我们假设状态方程和成本泛函中的系数满足:
b ∈ LF2(?n), qk∈ LF2(?n), ρ1k∈ LF2(?m1), ρ2k∈ LF2(?m2), A(i) ∈ ?n×n, Bk(i) ∈ ?n×mk, Qk(i) ∈ Sn, Rllk(i) ∈ S+ml, Slk(i) ∈ ?ml×n, R12k(i) = R21k(i)?∈ ?m1×m2, Qk(i) ? Skk(i)?Rkkk(i)?1Skk(i) ∈ S?+n, k, l ∈ {1, 2}。
显然,对于任意初始状态 (x, i) ∈ ?n× S 和控制对 (u1, u2) ∈ LF2(?m1) × LF2(?m2),状态方程 (1) 存在唯一解 X(·; x, i, u1, u2) ∈ LF2,loc(?n)。为确保成本泛函 (2) 定义良好,对于任何给定的初始值 (x, i) ∈ ?n× S,我们引入以下容许控制集:
Uad(x, i) ? {(u1, u2) ∈ LF2(?m1) × LF2(?m2) ∣ X(·; x, i, u1, u2) ∈ LF2(?n)}。
任何元素 (u1, u2) ∈ Uad(x, i) 称为初始状态 (x, i) 的容许控制对。然后,LQ微分博弈问题可以定义如下。
问题 (Problem) M-GLQ
对于任何给定的 (x, i) ∈ ?n× S,找到一个 (u1?, u2?) ∈ Uad(x, i),使得
?
?
任何满足上述条件的 (u1?, u2?) ∈ Uad(x, i) 称为初始值 (x, i) 的问题 (M-GLQ) 的开环纳什均衡点。此外,如果 b = qk= 0, ρ1k= 0, ρ2k= 0,则相应的问题和成本泛函分别记为问题 (M-GLQ)0和 Jk0(x, i; u1, u2)。
用马尔可夫链为动态系统建模可以更好地描述数学模型的瞬时变化,并已广泛应用于工程、财务管理和经济学等各个领域;参见,例如,Ji 和 Chizeck (1990)、Li 和 Zhou (2002)、Sun 等人 (2018)、Wen 等人 (2023) 以及 Zhang 等人 (2010) 及其参考文献。同时,微分博弈理论在经济、金融、再保险等领域发挥了重要作用。微分博弈数学理论的一些早期著作包括 (Ba?ar 和 Olsder, 1998, Yeung 等人, 2006)。在非马尔可夫框架下,Karatzas 和 Zamfirescu (2008) 引入了一种鞅方法来研究控制和停止的连续时间随机微分博弈。Elliott 和 Davis (1981) 研究了一个两人零和 Stackelberg 微分博弈,并获得了该博弈的反馈策略。Fleming 和 Souganidis (1989) 使用动态规划原理方法和粘度技术研究了一个零和随机微分博弈的值的存在性。Tang 和 Hou (2007) 通过考虑一个一般的随机微分系统,推广了 Fleming 和 Souganidis (1989) 的结果,并制定了相应的切换博弈。关于博弈论在再保险中的应用,我们请感兴趣的读者参考 Bai, Chen 和 Shen, 2019。
值得一提的是,上述大多数文献只考虑了有限时间范围内的微分博弈问题。很少有研究考虑无限时域上的微分博弈。Song 等人 (2008) 研究了一个终端时间是停时的体制切换扩散的零和微分博弈。他们使用马尔可夫链逼近技术开发了一种数值方法,并证明了随机微分博弈的鞍点存在性。然后,Zhu 等人 (2014) 进一步研究了具有马尔可夫跳变的无限时域齐次LQ随机纳什微分博弈。尽管他们考虑了扩散模型,但控制并没有进入扩散项。基于 Li 等人 (2003) 的现有结果以及配平方法的技术,他们依次获得了LQ问题和非零和纳什博弈的最优控制和具有反馈表示的均衡点。
然而,Li 等人 (2003) 和 Zhu 等人 (2014) 都是在均方稳定意义下研究无限时域LQ问题,其初始工作可以追溯到 Rami 等人 (2000) 和 Rami 和 Zhou (2000)。在这种框架下,很难讨论无限时域上的非齐次LQ控制问题,因为构造封闭形式的最优策略需要我们求解一个无限时域上的线性BSDE,其在均方框架下的可解性很难获得。最近,Huang 等人 (2015) 在L2可稳性框架下制定了一个具有平均场的无限时域LQ问题。基于此框架,Sun 等人进一步研究了无限时域上的非齐次零和LQ随机微分博弈。为了构造闭环鞍点,他们研究了一类无限时域上的线性BSDE,并在L2稳定条件下获得了其可解性。然后,基于这些结果,他们通过一个具有特定稳定条件的代数Riccati方程和一个无限时域上的线性BSDE的解来描述闭环鞍点。
本文考虑了无限时域上具有马尔可夫跳变的非零和非齐次LQ微分博弈。尽管本文与 Zhu 等人 (2014) 的唯一区别在于添加了非齐次项,但两篇论文差异很大。首先,我们应该在L2可稳性框架下制定我们的问题,而不是均方稳定意义,因为存在非齐次项。为此,我们需要将 Huang 等人 (2015) 引入的L2可稳性控制系统框架扩展到由马尔可夫链调节的框架。其次,为了构造闭环均衡策略,我们还需要研究一类在L2稳定框架下由马尔可夫链驱动的线性BSDE的可解性。所有这些都使我们的工作与 Zhu 等人 (2014) 的工作有显著不同,反过来也使我们的工作有意义。
本文的其余部分组织如下。第2节旨在研究具有马尔可夫跳变的线性系统的L2稳定性,并研究无限时域上由马尔可夫链驱动的一类线性BSDE的可解性。第3节分析了具有马尔可夫跳变的非齐次LQ最优控制问题,并获得了相应的闭环最优策略。基于这些结果,第4节研究了非零和非齐次LQ微分博弈。第5节通过提出两个具体例子来说明前几节中得出的结果,从而结束本文。