在随机网络化资源分配系统中,基于最优性诱导的稳定性控制

《Array》:Optimality-Induced Stabilization in Stochastic Networked Resource Allocation Systems

【字体: 时间:2026年05月10日 来源:Array 4.5

编辑推荐:

  **Nam Anh Quach** **越南胡志明市宏邦国际大学机械与技术学院** **摘要** 大规模运营系统,如交通运输、物流和分布式服务网络,必须在随机需求下分配有限的资源,同时保持系统的稳定性能。这些系统通常被建模为随机网络优化问题,在这些问题中,资源分配决策旨

  **Nam Anh Quach**
**越南胡志明市宏邦国际大学机械与技术学院**

**摘要**
大规模运营系统,如交通运输、物流和分布式服务网络,必须在随机需求下分配有限的资源,同时保持系统的稳定性能。这些系统通常被建模为随机网络优化问题,在这些问题中,资源分配决策旨在在共享容量限制的情况下最小化拥堵或运营成本。虽然传统的调度策略通过明确设计的控制规则来确保稳定性,但许多现实世界的决策系统主要依赖于成本驱动的优化机制。本文探讨了成本最小化策略是否能够内在地保证随机网络资源分配系统的稳定性。我们研究了一类具有凸容量区域和强制性拥堵成本函数的受控马尔可夫决策过程。我们证明了当外部需求向量严格位于容量区域内部时,折扣问题的每个最优静态策略都会在某个紧凑集合之外诱导出负的Foster-Lyapunov漂移,这意味着系统状态将呈现正递归。相反,当需求超过容量边界时,没有任何可行的策略能够稳定系统,从而证明了凸容量区域是最大可稳定化的需求集合。

**理论结果通过在一个具有随机到达和共享路由容量的多终端物流网络上的计算实验进行了说明。模拟结果揭示了稳定状态与不稳定状态之间的明显相变,并证明了基于凸拥堵的优化策略可以在实现更低运营成本的同时复制传统调度规则的根本稳定行为。这些发现突出了经济优化与网络运营系统中随机稳定性之间的结构联系。**

**1. 引言**
大规模运营系统,如交通运输网络、物流平台、云服务基础设施和分布式处理系统,必须在随机需求下分配有限的共享资源,同时保持系统的稳定性能。在这些系统中,决策者不断路由流量、分配容量或调度服务,以最小化拥堵成本和运营费用。当需求随时间随机波动时,这些系统长期运行的一个基本要求是稳定性,即拥堵水平和系统积压量随时间保持在有界范围内。随机网络系统的稳定性在运筹学和排队论文献中得到了广泛研究。传统方法通常通过设计显式的调度或控制规则来确保稳定性(Meyn和Tweedie,2009年)。特别是,当到达率位于系统容量区域内时,Max-Weight调度策略可以稳定广泛类别的受限排队网络(Tassiulas和Ephremides,1992年)。随机网络优化中的相关发展进一步通过基于漂移的方法(如漂移加惩罚方案,Neely,2010年)形式化了稳定性与性能之间的权衡。这些成果为通信和服务系统提供了有力的保证,但它们依赖于专门为稳定网络动态而设计的控制策略。**

**相比之下,许多现实世界的运营系统并不是由为稳定性而明确设计的策略所控制的。相反,资源分配决策通常主要由经济目标驱动,例如最小化拥堵惩罚、路由成本或服务延迟。**例如,货运网络中的物流路由、运输系统中的容量分配以及分布式服务平台中的资源管理。**这些决策通常源自受共享容量限制的成本最小化优化模型,其中稳定性被视为一种涌现的操作要求,而不是明确的设计标准。**这提出了一个关于网络运营系统的根本问题:**即使没有将稳定性作为明确的约束来要求,成本最小化决策策略是否能够内在地保证稳定性?**

**本文通过研究一类具有凸容量区域和基于拥堵成本函数的受控马尔可夫决策过程(MDPs)来回答这个问题(Puterman,2014年;Hernández-Lerma和Lasserre,1996年)。**凸容量区域反映了网络效用和速率分配模型的共享资源可行性(Kelly、Maulloo和Tan,1998年),而随机动态则反映了运营网络中典型的时变需求。**我们的主要理论结果表明,当外部需求向量严格位于网络凸容量区域的内部且拥堵成本是凸且强制性的时候,折扣优化问题的任何最优静态策略都会在某个紧凑集合之外诱导出负的Foster-Lyapunov漂移(Meyn和Tweedie,2009年)。**因此,得到的状态过程是正递归的,这意味着拥堵水平随时间保持有界。**重要的是,这种稳定性质是在不对优化问题施加明确的稳定性约束的情况下产生的。**这种观点与通过显式约束和拉格朗日机制来强制稳定性条件的受限MDP公式不同(Altman,1999年)。**

**为了补充这一内部稳定性结果,我们还为可稳定化的需求水平建立了一个明确的边界表征。**当外部需求向量位于容量区域之外时,没有任何可行的资源分配策略可以防止系统拥堵的无限制增长。**因此,凸容量区域代表了网络系统的最大可稳定化需求集合,将几何可行性与长期随机行为统一起来。**综合这些结果揭示了凸拥堵优化如何隐式地规范系统动态。**在容量限制内运行的网络运营系统中,最优的基于成本的决策策略自然会诱导出稳定的漂移条件,从而在不需要将Max-Weight类型的稳定性明确嵌入决策规则的情况下,将经济最优性与随机稳定性联系起来(Tassiulas和Ephremides,1992年;Neely,2010年)。**

**为了说明理论结果的运营含义,我们在一个具有随机到达和共享路由容量的多终端物流网络上进行了计算实验。**实验显示,当需求接近容量区域边界时,系统状态在稳定状态和不稳定状态之间发生了明显的相变,并且它们表明,基于凸拥堵的优化策略能够在实现更低运营成本的同时复制传统调度规则的根本稳定行为。**从运筹学的角度来看,本文研究的模型代表了一类动态资源分配问题,在这些问题中,必须在随机需求和共享容量限制下反复选择服务决策。**这些系统自然出现在物流路由网络、通信带宽分配和分布式服务平台中。**在这些环境中,决策策略通常是通过解决平衡拥堵成本与资源可行性的凸优化问题来制定的。**这里的分析表明,在内部需求条件和强制性拥堵惩罚下,这些优化模型产生的最优策略具有内在的稳定性质:它们在底层的随机动态中诱导出负的Lyapunov漂移。**因此,基于优化的决策规则可以在不显式地将稳定性约束嵌入决策模型的情况下同时实现经济效率和长期运营稳定性。**

**本文的贡献可以总结如下:**
1. **最优性诱导的稳定性。**我们证明了当需求严格位于容量区域内部时,凸拥堵成本最小化会在随机网络资源分配系统中诱导出Foster-Lyapunov漂移条件(Meyn和Tweedie,2009年)。
2. **可稳定化需求的几何表征。**我们确定了凸容量区域精确地刻画了可以实现正递归的需求向量集合(Tassiulas和Ephremides,1992年)。
3. **计算验证。**我们通过在随机物流网络模型上的数值实验来证明理论的含义。**

**通过将凸优化几何与受控马尔可夫系统中的随机稳定性属性联系起来,这项工作为网络运营系统的动态提供了新的视角,并强调了经济优化作为隐式稳定机制的作用。**所有理论主张都得到了附录C中描述的可重复计算实验的支持。**

**2. 相关文献**
随机网络系统的稳定性在排队论、随机控制、凸优化以及最近的强化学习领域得到了广泛研究。现有方法可以分为四个主要范式:**
(i) 显式稳定控制设计,
(ii) 基于Lyapunov的递归理论,
(iii) 无界状态MDPs的最优控制,以及
(iv) 受限和安全强化学习。**
当前的工作与这些文献有交叉,但在概念上与所有四个都不同。**

**2.1. 通过显式控制设计实现稳定性**
除了Max-Weight调度之外,一个重要的基准类别是漂移加惩罚控制,其中在每个决策时刻通过一步Lyapunov优化替代方案来显式平衡稳定性和运营目标。**这类策略在随机网络优化中得到了广泛应用,因为它们提供了一种系统的方法来权衡排队减少与路由或服务成本。**Tassiulas和Ephremides(1992年)以及Stolyar(2004年)的开创性Max-Weight规则通过显式最小化二次Lyapunov漂移来建立吞吐量最优性。**这种方法通过漂移加惩罚框架(Neely,2010年)得到了扩展,在这些框架中,选择瞬时控制决策来减少加权Lyapunov函数,同时优化性能指标。**在这些框架中:
• 稳定性是主要目标,
• 设计了漂移不等式,
• 吞吐量最优性是相对于可稳定化负载集来定义的。**

**在本文中,这类策略作为一个自然的基准:**与我们的框架不同,漂移加惩罚直接将稳定性纳入控制规则,而不是作为在强制性拥堵目标下达到的最优性的结果。**

**2.2. Foster-Lyapunov稳定性理论**
递归分析的理论基础是Foster-Lyapunov准则(Foster,1953年;Meyn和Tweedie,2009年;Kumar和Meyn,1995年)。**这些结果基于存在一个适当的Lyapunov函数(其在紧凑集合之外具有负漂移)提供了正递归的必要和充分条件。**然而,传统的Foster-Lyapunov理论没有说明这种漂移条件是如何产生的。**它假设了漂移不等式并推导出递归。**我们的工作推翻了这一逻辑:
• 我们不假设漂移。
• 我们将漂移不等式作为必要最优性条件推导出来。
• Lyapunov函数与目标中的拥堵潜力相符。**
因此,Lyapunov稳定性是从经济凸性中产生的,而不是被假设的。**

**2.3. 无界状态MDPs中的最优策略**
在马尔可夫决策过程理论(Puterman,2014年;Hernández-Lerma和Lasserre,1996年;Sennott,1999年)中,在紧凑性和连续性条件下,最优静态策略的存在是得到了充分证明的。然而,在无界状态空间中,通常需要施加递归或稳定性条件来确保:
• 价值函数的有限性,
• 不变测度的紧性,
• 平均成本最优性方程的有效性。**
在许多模型中,递归是一个外部结构假设。**相比之下,本文建立了一个递归不是假设而是隐含的规则。**内部容量松弛和强凸性生成了与折扣因子无关的统一漂移界限。**如第5.9节所示,这在不需要额外递归假设的情况下实现了不变测度的紧性和相对价值函数的收敛。**

**2.4. 凸网络优化和几何吞吐量区域**
凸容量区域在网络效用最大化(Kelly等人,1998年;Chiang等人,2007年)、速率控制和运输资源分配中自然出现。**在这些框架中,吞吐量区域是由共享资源约束引起的多边形或凸集。**现有工作描述了这些区域内的可行性和最优资源分配。**然而,纯经济目标下的拥堵过程的动态稳定性通常与几何可行性分开处理。**本文统一了这些视角:**
• 凸容量区域定义了确切的可稳定化负载集。
• 内部几何与强制性成本结合迫使最优策略诱导出负漂移。
• 凸多面体的边界是稳定性和发散之间的明确相变。**这提供了一种仅依赖于容量几何的稳定性几何表征,与成本规范无关。**

**2.5. 安全和受限强化学习**
最近的强化学习文献引入了基于Lyapunov的策略优化(Chow等人,2018年)和受限MDP公式(Altman,1999年;Wei–Yu–Neely,2020年)来保证学习过程中的安全性或约束满足(Gu等人,2025年;Jiang和Ye,2024年)。**在这些方法中:**
• 稳定性约束是通过算法施加的,
• 拉格朗日或原始-对偶机制强制执行可行性,
• 安全是额外的结构要求。**
当前的框架不同之处在于:
• 没有引入安全性约束,
• 没有使用拉格朗日乘数来强制漂移,
• 稳定性直接来自凸成本增长。**
这种区别澄清了概念上的贡献:稳定性可以是凸经济最优性的内在属性,而不是外部强加的。**

**2.6. 概念定位**
本文的贡献可以从结构上总结如下:
1. 与稳定调度理论不同,漂移不是被设计的。
2. 与Foster-Lyapunov理论不同,没有假设漂移。
3. 与传统的MDP理论不同,递归不是被假设的。
4. 与受限RL不同,稳定性不是作为约束来施加的。**相反,我们识别了一种几何-最优性机制:**
?最优性在结构上强制了Lyapunov漂移
?从而导致了正递归。**
这种机制揭示了凸网络系统中经济最优性与随机稳定性之间的内在一致性。**

**3. 系统模型和容量几何**
我们考虑了一个离散时间的受控随机系统,该系统表示在受共享资源约束的网络基础设施中的拥堵动态。

**3.1. 受控马尔可夫框架**
设 是一个支持独立同分布(i.i.d.)干扰序列 的概率空间。我们研究了一个在状态空间 上演化的受控马尔可夫过程 ,其中
3.1表示互连节点处的非负拥堵水平(例如,积压量或工作负载)。
在每个时间点,选择一个控制动作 ,其中我们明确假设允许的动作集合 是紧凑的、凸的并且与状态无关(对所有 都成立),并且 是可测量的。这个假设确保在标准的马尔可夫决策过程规则条件下存在可测量的稳态策略(Puterman,2014;Hernández-Lerma和Lasserre,1996)。用表示预期的外生负载向量,假设它是有限且非负的。质量平衡结构我们假设系统满足质量平衡不等式:(3.2)其中表示由动作引起的有效服务分配。不等式(3.2)抽象了运输和物流系统,在这些系统中,积压通过到达增加,并通过控制的服务努力减少。不等式的表述允许截断、随机变异和非线性状态转换,同时保持平均漂移结构。可接受策略如果每个决策规则都是可测量的,并且基于可用状态信息选择,则策略是可接受的。我们关注形式为的稳态马尔可夫策略,其中是可测量的。在标准的紧凑性和连续性条件下(Puterman,2014;Hernández-Lerma和Lasserre,1996),对于折扣成本标准,存在最优的稳态马尔可夫策略。引理3.1(在反射服务动力学下的质量平衡表示)考虑积压演变,其中是一个非负的到达向量。通过逐个组件定义有效服务向量。那么,对于每对状态-动作,特别是如果对于所有,那么,并且因此,在任何不包含服务因积压不足而被截断的状态的紧凑区域内,反射动力学满足用于漂移分析的质量平衡形式。证明对于每个组件,因此,在和的条件下,使用,证明了该声明。备注当积压相对于所选动作足够大时,有效服务向量等于名义服务向量,而由于反射算子引起的任何差异都限制在有限的低状态区域内。这正是Foster–Lyapunov分析所需要的制度分离:在紧凑集合上的有界扰动不会影响大状态下的漂移结论。3.2. 容量几何定义瞬时服务集容量区域定义为(3.3)这个区域表征了在可接受控制策略下可实现的所有长期平均服务率。假设3.1(容量规则性)1. 是紧凑且凸的。2.。3. 在几何上,表示由共享资源约束引起的吞吐量多面体。在运输网络中,这样的区域通常由形如的线性容量约束产生,其中是一个资源关联矩阵,是一个容量向量。3.3. 内部松弛和稳定分配如果负载向量满足(3.4),则称其为严格可支持的。内部可支持性等价于存在一个边际和一个服务向量,使得标量量化了负载与容量区域边界的严格分离。定义几何边际内部松弛意味着这个距离是严格正的。引理3.2(存在严格稳定的基准)如果,则存在一个稳态策略,使得一个常数,并且存在一个紧凑集合,使得证明由于,存在一个服务向量和一个常数,使得选择一个实现满足的可行动作的稳态策略。在引理3.1的反射服务表示下,一步增量可以写为如果,那么对于所有,所以。因此,证明了该声明。备注当积压相对于所选动作足够大时,有效服务向量等于名义服务向量,而由反射算子引起的任何差异都限制在有限的低状态区域内。这正是Foster–Lyapunov分析所需要的制度分离:在紧凑集合上的有界扰动不会影响大状态下的漂移结论。3.2. 容量几何定义瞬时服务集容量区域定义为(3.3)这个区域表征了在可接受控制策略下可实现的所有长期平均服务率。假设3.1(容量规则性)1. 是紧凑且凸的。2.。3. 在几何上,表示由共享资源约束引起的吞吐量多面体。在运输网络中,这样的区域通常由形如的线性容量约束产生,其中是一个资源关联矩阵,是一个容量向量。3.3. 内部松弛和稳定分配如果负载向量满足(3.4),则称其为严格可支持的。内部可支持性等价于存在一个边际和一个服务向量,使得标量量化了负载与容量区域边界的严格分离。定义几何边际内部松弛意味着这个距离是严格正的。引理3.2(存在严格稳定的基准)如果,则存在一个稳态策略,使得一个常数,并且存在一个紧凑集合,使得证明由于,存在一个服务向量和一个常数,使得选择一个实现满足的可行动作的稳态策略。在引理3.1的反射服务表示下,一步增量可以写为如果,那么对于所有,所以。因此,证明了该声明。备注当积压相对于所选动作足够大时,有效服务向量等于名义服务向量,而由于反射算子引起的任何差异都限制在有限的低状态区域内。这正是Foster–Lyapunov分析所需要的制度分离:在紧凑集合上的有界扰动不会影响大状态下的漂移结论。3.4. 阶段成本和拥堵潜力阶段成本定义为(3.6)其中:•是拥堵潜力,•是控制成本。假设3.2(拥堵结构)拥堵潜力满足:1. 是二次连续可微的;2. 是强凸的,具有模,即;3. 是强制性的:强凸性意味着二次增长:典型的例子包括二次持有成本假设控制成本在上是连续的且有下界的。3.5. 折扣优化问题假设3.3(折扣问题的MDP规则性)(i)状态空间和动作空间是Borel空间。(ii)阶段成本是下半连续的、下紧的并且有下界的。(iii)转移核是弱连续的。在假设3.1–3.3下,以及根据Puterman (2014)的定理6.2.10和Hernández-Lerma和Lasserre (1996)的定理2.3.6,存在一个保证的最优稳态马尔可夫策略。对于,定义折扣价值函数(3.7)在假设3.1–3.2和标准紧凑性条件(Puterman, 2014; Hernández-Lerma and Lasserre, 1996)下,存在一个最优的稳态马尔可夫策略。本文的核心问题是确定的最优性是否在结构上意味着当时的诱导状态过程的随机稳定性。4. Lyapunov框架我们现在建立拥堵潜力的结构漂移属性,并回顾主要结果背后的稳定性准则。在整个过程中,我们取Lyapunov函数,其中满足假设3.2.4.1. 漂移算子对于一个稳态马尔可夫策略,定义的一步漂移为(4.1)在质量平衡不等式(3.2)下,定义增量然后(4.2)我们假设干扰满足有限的第二矩条件:(4.3)这确保了泰勒展开中的二次余项是一致有界的。4.2. 拥堵潜力的增长和梯度结构强凸性意味着以下属性。(i)二次增长存在常数,使得(4.4)因此,子集是紧凑的。(ii)梯度增长强凸性意味着(4.5)对于某个常数。特别是这个属性至关重要:随着拥堵的增加,边际拥堵惩罚无限制地增长。(iii)二阶展开根据泰勒定理,(4.6)对于某个在和之间的区间。由于,(4.7)取条件期望并使用(4.3),存在一个有限常数,使得(4.8)4.3. 在严格稳定策略下的漂移假设。根据引理3.2,存在一个稳态策略,一个紧凑集合,和一个常数,使得应用(4.6)–(4.8),因为假设拥堵潜力是逐个组件递减的,反射算子严格减少或保持状态幅度,这意味着因此,未反射的泰勒展开提供了预期漂移的有效和保守的上界。将(4.6)–(4.8)应用于未反射的增量得到:(4.10)因为当且因为异常集合是紧凑的,存在常数和,使得(4.11)因此,稳定基准策略在包含的紧凑集合外部诱导了严格的负漂移。4.4. 紧凑集合上的有界漂移对于任何稳态策略,和的有界第二矩意味着因此,漂移在的紧凑子集上是均匀有界的。4.5. Foster–Lyapunov稳定性准则我们回顾一个标准结果(Foster,1953;Meyn和Tweedie,2009)。命题4.1(Foster–Lyapunov准则)设为非负且强制性的。如果存在和,使得并且在上有界,则由诱导的马尔可夫链是正回归的,并且承认一个满足4.6. 结构含义第4节建立了两个关键事实:1. 在内部松弛下,存在一个严格稳定的基准策略。2. 拥堵潜力的强凸性确保足够负的预期服务不平衡在产生负漂移。剩下的问题是,最优的稳态策略是否必须继承这种漂移属性。第5节对此给出了肯定的回答。5. 最优性诱导的稳定性定理在本节中,假设假设3.1–3.2成立5.1. 主要定理定理5.1(最优性诱导的稳定性)设,让是折扣问题(3.7)的一个最优稳态马尔可夫策略。那么存在常数和,与无关,使得(5.1)因此,诱导的马尔可夫链是正回归的,并且承认一个满足的操作解释定理5.1为网络化运营系统中稳定性的出现提供了结构性解释,这些系统受到严格凸和强制性的拥堵成本的支配。在许多实际基础设施中,如运输网络、物流系统和分布式服务平台,资源分配决策主要是由成本最小化驱动的,而不是由明确设计的稳定规则驱动的。该定理表明,当系统在其容量区域内部运行并且拥堵成本随着积压的增加而足够增长时,最优决策策略必然会在紧凑区域外部诱导出负的Lyapunov漂移。换句话说,经济优化隐式地规范了系统动态,并防止了拥堵的无限制增长。5.2. 基本前提根据引理3.2,由于,存在一个稳态策略和,使得(5.2)根据第4节,存在常数和,使得(5.3)设表示紧凑的子集。5.3. 矛盾假设假设为了矛盾,该定理是错误的。那么对于每个,存在一个状态,使得(5.4)固定这样的,并选择满足(5.4)的。定义停止时间5.4. 切换策略定义一个修改后的稳态策略为(5.5)这个策略在内部与最优策略一致,并在外部切换到严格稳定的基准。5.5. 漂移比较对于状态,(5.6)相比之下,在下,(5.4)给出(5.7)因此,对于这样的状态,(5.8)因此,在外部,修改后的策略严格改善了拥堵潜力的预期一步减少。5.6. 累积漂移界限设表示从开始的策略下的期望。对于, onder,从到,(5.9)由于是非负的,让,(5.10)从大状态区域退出的预期时间是有限的,并且最多以线性增长。5.7. 折扣成本比较将成本分解为拥堵和控制组成部分:拥堵成本差异在外部,修改后的策略相对于每步至少产生额外的负漂移。通过对停止过程应用Dynkin公式,直到,改进的负漂移产生了明确的界限因此,累积折扣拥堵成本严格改善:(5.11)因为和预期停止时间与线性增长,对于足够大的初始状态,我们得到某个与无关的常数。控制成本差异由于两种策略都从紧凑的允许集合中选择控制,并且是连续且有下界的,存在,使得因此,(5.12)净成本改进结合(5.11)–(5.12),对于足够大的,(5.13)与的最佳性相矛盾。5.8. 结论矛盾确立了(5.1)。从命题4.1得出正回归。在中的均匀性成立,因为常数仅依赖于结构参数。5.9. 平均成本最优性和稳定性折扣分析确立了内部负载结合强凸性诱导的均匀Foster–Lyapunov漂移条件,与折扣因子无关。我们现在展示这种结构严格扩展到长期平均成本公式。5.9.1. 平均成本准则在稳态策略下定义平均成本函数:一个最优的平均成本策略在所有允许的稳态策略上最小化。在标准紧凑性和连续性假设(Puterman, 2014; Hernández-Lerma & Lasserre, 1996)下,最优稳态策略的存在需要诱导的马尔可夫链的回归性和紧密性属性。我们现在从定理5.1展示这些属性。5.9.2. 均匀漂移和矩界限根据定理5.1,对于每个,最优折扣策略满足:与无关的常数。根据Foster–Lyapunov准则(命题4.1),这意味着:由于,我们获得均匀的二次矩界限:因此,家族在上是紧密的。5.9.3. 消失的折扣和相对价值函数设对于某个固定的参考状态。标准Abelian论证意味着是有界的。因此存在一个子序列,使得:定义规范化的相对价值函数:均匀漂移和二次矩界限意味着在紧凑集合上是均匀有界的。引理5.2. 紧凑集合上相对价值函数的均匀等连续性假设假设3.1–3.3成立并且设表示相对于固定参考状态的规范化相对价值函数。此外,假设反射转移映射在上一路上均匀不扩展,并且阶段成本在上是局部Lipschitz的。那么,对于每个紧凑集合,家族在上是均匀等连续的。特别是,存在一个与无关的常数,使得证明固定一个紧凑集由于是紧凑的并且假设3.2意味着在上是局部Lipschitz的,因此在每个紧凑集上,存在一个常数,使得对于任何共同的允许控制序列和共同的干扰序列,反射映射满足因此,由相同控制和干扰驱动的耦合轨迹在返回到固定的紧凑Lyapunov子集之前不会分离。根据定理5.1,折扣最优策略满足Foster–Lyapunov漂移条件,其中常数和与无关。因此,从开始的预期返回时间的上界由一个与无关的常数给出。由于具有二次增长,相应的预期偏离成本也在上均匀有界。结合紧凑偏离上的局部Lipschitz界限、反射动态的路径不扩展性以及均匀的Foster–Lyapunov返回时间界限,存在一个与无关的常数,使得因此,家族在紧凑子集上是均匀等连续的。这证明了引理。根据引理5.2和在紧凑集合上的均匀有界性,Arzelà–Ascoli定理意味着存在一个子序列,使得在紧凑子集上局部均匀。5.9.4. 平均成本最优性方程由折扣最优策略建立的均匀漂移和矩界限满足平均成本最优性方程(ACOE)的精确条件,适用于弱连续核和下紧成本(Feinberg, Kasyanov, & Paliichuk, 2026; Yu, 2020)。在折扣贝尔曼方程中取极限得到:这是平均成本最优性方程(ACOE)。标准的可测量选择论证得出存在达到最小值的稳态策略。5.9.5. 平均成本最优性的稳定性因为漂移常数与无关,所以极限策略继承了相同的Foster–Lyapunov不等式:因此:注5.3(平均成本最优性诱导的稳定性)假设假设3.1–3.2成立。那么:1.存在一个解决ACOE的最优稳态策略。2.每个这样的最优平均成本策略满足在紧凑集合外的Foster–Lyapunov漂移不等式。3.诱导的马尔可夫链是正回归的,并且具有有限的二次矩。因此,最优性诱导的稳定性在长期平均成本范围内持续存在。6.容量边界与结构不稳定性
前一节已经建立,内部负荷结合凸形拥堵成本会迫使最优策略产生负的Lyapunov漂移。我们现在展示这一结果在几何意义上是尖锐的:如果负荷向量位于容量区域之外,那么没有任何可行的策略可以使系统变为正回归的。这种不稳定性结果是为反射服务动态在引理3.1中建立的,它仅依赖于容量几何形状和精确的质量平衡表示;它不需要对拥堵成本做任何假设。

6.1. 与容量区域的几何分离
假设(6.1)
由于是紧凑且凸的,强分离超平面定理意味着存在一个非零向量 和一个标量 使得(6.2)
因为负荷向量和服务向量都是非负的,我们可以不失一般性地假设
定义几何违反边际(6.3)
标量量化了负荷在方向上的严格超出服务量。

6.2. 加权工作负载动态
定义标量加权工作负载过程(6.4)
使用引理3.1中的反射服务动态,其中是有效服务向量,并且分量上满足
由于,这意味着
因此,
结合(6.3)得到
(6.6)
对于每一个可接受的状态-动作对。重要的是,这个不等式(6.6)在所有可接受的策略下都是一致的。

6.3. 预期工作负载的线性增长
在任何策略下取期望值并迭代(6.6),通过归纳,
(6.7)
因此,在任何可接受的策略下,预期加权工作负载至少会线性增长。

6.4. 正回归的不可能性
我们现在展示预期工作负载的线性增长排除了正回归的可能性。
假设相反,存在一个策略,在这个策略下马尔可夫链是正回归的,并且具有不变的概率测度。
正回归意味着对于任何可积函数,
特别是对于,
(6.8)
然而,在稳态下对(6.6)取期望值得到
(6.9)
这与(6.8)相矛盾。
因此,当时,没有任何可行的策略可以使系统变为正回归的。

6.5. 加强的发散声明
线性增长性质(6.7)进一步意味着
对于任何初始条件
由于和,
的发散意味着的至少有一个分量在期望中必须发散。因此,不稳定性沿着由分离超平面确定的几何方向表现出来。

6.6. 容量边界不稳定性定理
我们总结这个结果。
定理6.1(容量边界不稳定性)
假设假设3.1成立。那么对于每一个可接受的策略,诱导的马尔可夫链不是正回归的。此外,存在,,使得

6.7. 几何解释
定理5.1和6.1共同确立了一个尖锐的几何相边界:
- 如果,最优性会迫使产生负的Lyapunov漂移和正回归。
- 如果,没有策略可以防止发散。
因此,凸形容量区域完全表征了可稳定的负荷集。当负荷位于可行吞吐量多面体内部时,稳定性是可能的。
重要的是,这个边界独立于具体的拥堵成本。成本结构决定了最优性是否在可行区域内诱导稳定性,但仅仅是的几何形状决定了是否有可能实现稳定。

7. 应用和数值示例:多终端运输网络
本节提供了在简化的多终端物流网络中对最优性-漂移定理的实证验证。目标不是模拟特定的运营环境,而是验证第2节相关文献、第3节系统模型和容量几何、第4节Lyapunov框架中建立的结构主张,即当外源负荷严格位于容量区域内部时,强制性凸优化会诱导内生稳定性(Mamdoohi等人,2023年)。
我们验证了第3节系统模型和容量几何、第4节Lyapunov框架、第5节最优性诱导稳定定理、第6节容量边界和结构不稳定性的结构假设在这种设置中自然出现,并展示了定理5.1和6.1预测的几何相变。整个过程中使用的符号总结在表1中。模拟参数列在表2中以确保完全的可复制性。

表1. 符号总结
符号 | 定义 |
| --- | --- |
| 状态向量(时间t时的节点积压) | |
| 决策向量(服务/路由分配) | |
| 平均外源到达率向量 | |
| 容量区域(凸形可行服务集) | |
| 内部松弛边际() | |
| 拥堵惩罚函数 | |
| 二次Lyapunov候选 | |
| 一步漂移 | |

表2. 模拟参数
参数值 | 数量 |
| 节点数量 | |
| 资源容量 | |
| MMPP转换 | |
| 模拟时间范围 | |

7.1. 网络构建
考虑一个具有个终端和个路由决策的网络。用表示时间t时终端的积压(例如,待运送的货物或集装箱库存)。状态向量是
在每个时间点,运营商选择一个路由向量受到线性资源约束(7.1)
其中:
- 是资源关联矩阵,
- 是容量向量。
这个模型的一个自然解释是一个货运整合网络,其中多个终端争夺有限的共享运输和处理能力。在这种设置中,表示终端的待运送货物量或集装箱积压,而路由向量捕捉了在有限车队或有限处理基础设施上的调度和转移决策。共享约束可能代表线路运输车辆的可用性、跨码头吞吐量限制或中间设施的停泊和处理限制。根据这种解释,容量区域描述了所有可以在不违反共享运营瓶颈的情况下维持的服务率组合,而拥堵潜力量化了与延迟传播、存储压力和失败整合机会相关的非线性惩罚。
提供给终端的有效服务是
(7.2)
其中。积压根据
(7.3)演变
其中是均值为的随机到达向量(Daganzo, 1995)。该模型捕捉了运输、分配和多式联运物流系统,其中路由决策消耗了共享的车辆或基础设施容量(Wang等人,2024年;Yao等人,2024年)。
根据引理3.1,预期的步长增量可以写为
其中表示在考虑边界反射后的有效服务工作负载。在大积压情况下,
因此,第3节中的质量平衡结构得到了恢复。

7.2. 容量区域和多面体几何
可行的路由集是一个紧凑的多面体。因此,瞬时服务集是紧凑且凸的。容量区域是
(7.4)
这是一个在中的多面体。因此,假设3.1自动成立。从几何上讲,代表了由共享运输资源诱导的可行吞吐量多面体。

7.3. 成本结构
假设拥堵受到二次惩罚:
(7.5)
那么:
- 是两次连续可微的,
- 具有模数,
- 强凸的。
路由成本是线性的:
因此,假设3.2得到满足。重要的是,第4节Lyapunov框架、第5节最优性诱导稳定定理中使用的Lyapunov函数与拥堵成本完全一致。

7.4. 内部负荷情况
那么存在和可行的路由,使得
因此,存在一个严格稳定的基准路由策略。应用定理5.1得到:
推论7.1(运输网络中的最优性诱导稳定)
如果,那么对于每个折现因子,最优的静态路由策略满足Foster-Lyapunov漂移不等式在紧凑集之外。积压过程是正回归的,
因此,在内部容量区域内,经济路由最优性和随机稳定性是一致的。

7.5. 容量违反情况
假设相反,根据定理6.1,存在一个向量,,和
因此,没有任何可行的路由策略可以使积压过程变为正回归的。
推论7.2(超出容量的几何不稳定性)
如果到达率位于多面体容量区域之外,不稳定性会沿着由的分离超平面确定的几何方向发生。

7.6. 数值示例
为了可视化相变,我们考虑了一个三终端的多式联运货运网络。这种拓扑结构模拟了一个海港调车操作,其中货物必须在共享的入境车队(单位)和共享的出境铁路装卸 Crane(单位)之间进行分配。该网络处理三种类型的货物流:仅消耗卡车容量的本地区域货物;仅消耗装卸 Crane 容量的港口端存储货物;以及需要同时协调卡车和 Crane 的快速转运货物。这种耦合由资源关联矩阵捕捉:
拥堵成本:
我们比较了两种情况。
案例I:内部负荷
这个向量严格位于多面体(7.4)内部。最优折扣路由策略的模拟显示:
- 积压在有限区域内波动。
- 的经验平均值收敛。
- 在中等拥堵水平之后,估计的漂移变为负值。
案例II:容量违规
这违反了资源的可行性。在任何可行的路由规则下的模拟显示:
- 加权积压大致线性增长。
- 的经验平均值发散。
- 没有任何策略可以防止无限制的增长。
这种多式联运表述与现代先进海港物流中的挑战非常契合。现代港口运营商越来越多地依赖于动态的、基于成本的优化,而不是显式的调度规则来管理在高方差随机到达情况下的共享基础设施(Chen等人,2023年;Yu等人,2024年)。因为这些工业系统通常最小化经济惩罚函数,如滞留费、存储费和延迟成本,而不施加显式的Lyapunov漂移约束,所以证明这些最小化成本的策略在结构上保证拥堵是有意义的,这对当前的运营实践非常相关。

7.7. 相变解释
数值实验旨在作为对最优条件所暗示的稳定性机制的控制计算测试。实验验证了结构预测:
- 内部松弛诱导内生稳定性。
- 容量违规诱导不可避免的发散。
- 转变完全由多面体几何决定。
拥堵成本决定了可行区域内的最优路由行为,但可行性本身仅由容量多面体控制。
在定理5.1中建立的漂移不等式在中的变化是一致的。因此,标准的消失折扣论证意味着:
- 不变测度的紧密性。
- 随着的极限点的存在。
- 在内部负荷下平均成本最优策略的稳定性。
因此,在平均成本范围内,最优性诱导的稳定性持续存在。
我们首先可视化可行服务区域。图1展示了通过固定并投影到平面上的凸容量区域的二维切片。边界被明确显示,名义到达向量严格位于该区域内部。

下载:下载高分辨率图像(345KB)
下载:下载全尺寸图像
图1. 凸容量区域和内部需求条件。说明在网络化资源分配系统中由共享资源约束引起的可行服务区域。凸多面体代表了在可接受的控制动作下可实现的所有服务率向量。需求向量严格位于内部,与边界之间留有正的边际。这种内部松弛条件在理论分析中起着核心作用,确保最优的基于拥堵的策略在网络的稳定区域内运行。
从到边界的距离代表了第3.3节中定义的内部松弛。这个几何边际是定理的基本结构量。后续模拟通过改变冲击乘数来逐步减少这种松弛并接近边界。
定理的中心分析机制是在紧凑区域外出现负的二次漂移。图2概念性地可视化了定理所暗示的大状态漂移几何。“Drift-Plus-Penalty”基线在表3中报告,为了便于阅读,该基线在轨迹图中被省略了,因为此图的主要比较是显式的积压稳定化、纯线性成本最小化和所提出的强制性优化规则之间的对比。该图是使用附录C中描述的仿真协议计算得出的。下载:下载高分辨率图像(588KB)下载:下载全尺寸图像

图6. 政策效率前沿。评估政策下的平均运营成本与平均积压量。横轴表示从模拟稳态制度中获得的经验估计值。对数-对数缩放使得稳定的运营制度(Max-Weight和ODST)和线性成本政策的分散制度都能被可视化。插图突出了稳定区域,并说明了Max-Weight与所提出的ODST政策之间的成本-拥堵权衡。该图是根据表3中报告的政策下的模拟稳态性能指标计算得出的。

表3. 长期性能比较
政策(激增)平均积压量 平均阶段成本
Drift(大状态)稳定 1.5 1.30 × 10^13 3.82 × 10^3 -3.79
Drift-Plus-Penalty 稳定 1.5 1.45 × 10^12 2.95 × 10^3 -3.62
线性成本 1.5 2.86 × 10^8 > 10^16 +6.25 × 10^4 分散
Quadratic(ODST)1.5 5.23 × 10^11 1.42 × 10^3 -2.65 稳定
Drift-Plus-Penalty 2.25 1.12 × 10^4 4.25 × 10^8 -6.85 稳定
Quadratic(ODST)2.25 1.25 × 10^4 1.85 × 10^8 -7.35 稳定
Drift-Plus-Penalty 2.75 8.15 × 10^6 8.45 × 10^13 +8.95 × 10^2 不稳定
Quadratic(ODST)2.75 7.55 × 10^6 6.25 × 10^13 +9.59 × 10^2 不稳定

结果在结构上是不同的:
- 线性政策表现出单调增长,表明有正向漂移和发散。
- Max-Weight政策稳定了状态,这与基于容量的优先级排序是一致的。
- 二次政策在没有显式稳定的情况下实现了有界的轨迹。

因此,凸凸性强制性优化仅通过经济最小化就再现了Max-Weight规则的稳定性。

表3总结了多个负载制度和政策类别下的长期性能指标。出现了三个结构性观察:
(i) 内部区域:二次政策在大状态下产生负漂移,并保持有界的拥堵。线性政策表现出严格正向的漂移和爆炸性的积压增长。Max-Weight和Drift-Plus-Penalty也保持了有界的拥堵,证实了基于积压的规则的预期稳定效果。即使稳定性没有明确纳入决策规则中,所提出的二次ODST政策仍然保持稳定。
(ii) 接近边界区域:根据表3,Drift-Plus-Penalty和ODST在容量边界附近保持稳定,并表现出可比的积压水平和负的大状态漂移。这表明所提出的机制不仅仅是在复制简单的成本最小化,而且可以在保持纯粹的优化驱动解释的同时,表现得与显式稳定的基于漂移的基线相当。
(iii) 外部区域:当负载有效穿越边界时,Drift-Plus-Penalty和ODST都会变得不稳定。这证实了内部条件的必要性,并验证了定理假设的严密性:一旦负载超出可稳定区域,即使旨在平衡漂移和成本的策略也无法防止发散。

图5描绘了平均阶段成本作为激增倍数的函数。当激增倍数接近容量区域的边界时,成本急剧增加。

下载:下载高分辨率图像(223KB)下载:下载全尺寸图像
图5. 随着调制需求接近有效容量,成本上升。平均拥堵成本作为应用于基准需求向量的负载倍数的函数。随着负载接近或超过容量区域的边界,由于拥堵水平的增加,运营成本迅速上升。该图展示了理论预测的相变:在容量区域内部运行的系统保持稳定且成本有界,而接近或超过边界的负载导致拥堵急剧增加和不稳定。该图是使用附录C中描述的仿真协议计算得出的。

这种相变与表3中记录的负漂移消失现象相符。几何解释是直接的:随着内部松弛度的消失,强制性惩罚不再能够抵消外生负载。因此,实证结果揭示了一个清晰的结构阈值,区分了:
- 内在稳定的经济优化,
- 不可行的过载区域。

综合图1、图2、图3、图4、图5以及表1、表2、表3,直接为“最优性-漂移定理”提供了实证支持:
1. 稳定性在没有显式执行的情况下出现。
2. 凸凸性强制性惩罚在紧凑区域外引起向内的漂移。
3. 内部松弛度对于有界行为是必要且充分的。
4. 线性成本最小化不足以实现稳定。
5. 不稳定性恰好在容量边界处出现。

这些结果确认了经济最优性和随机稳定性在负载向量严格位于凸容量区域内部并且发散受到凸凸性成本惩罚时是一致的。

7.8. 高维相分析和鲁棒性
为了测试观察到的稳定性机制是否在三个终端示例之外仍然存在,我们在一个具有多个共享资源约束和跨终端服务交互的耦合五节点网络上进行了额外实验。所得到的相模式与主要定理保持一致:内部负载产生负的经验大状态漂移和有界的第二矩,接近边界的负载表现出弱化的漂移和急剧的矩增长,而外部负载沿工作负载方向产生正向漂移和发散。这些更高维度的实验支持了这样的观点:最优性诱导的稳定机制不是最小三节点示例的偶然结果。相反,在更强的耦合和增加的网络维度下,相同的定性转变仍然存在。为了简洁起见,五节点系统的完整规范、扩展的参数扫描以及相关的相面可视化被移到了附录E中。

7.9. 对于拥堵成本参数的鲁棒性
为了评估稳定机制的鲁棒性,我们在不同的拥堵成本系数下重复了仿真实验。具体来说,我们在二次成本函数中改变参数,同时保持所有其他系统参数不变。

结论与未来方向
本文建立了在受限网络系统中凸最优性和随机稳定性之间的结构等价性。中心结果表明,当外生负载严格位于凸容量区域内部并且拥堵惩罚是凸且强制性的时候,最优的静态政策必然满足Foster-Lyapunov漂移不等式。因此,稳定性不是通过控制设计强加的:它是最优性的一个必要条件。这种等价性的基础是几何的。内部松弛度保证了严格稳定基准分配的存在。强制性确保了持续的发散会产生无界的拥堵惩罚。如果最优政策允许在大状态下有不足的负漂移,那么向稳定基准的阈值切换扰动将严格降低总预期成本。这种矛盾迫使向内的漂移成为一种结构上的最优性条件。

补充这个内部结果的是容量边界定理,它表明如果负载位于凸容量区域之外,任何可接受的策略都不能引起正向的复发。这种分离完全是几何的:一个支持超平面产生了一个工作负载方向,沿该方向预期的增长是严格正向的。因此,凸吞吐量多面体精确地描述了可稳定的负载集。

综合定理5.1和6.1,确立了一个明确的相界:
- 内部负载 → 最优性引起稳定。
- 外部负载 → 不稳定性是不可避免的。
- 边界仅取决于容量几何。

数值示例在一个具有共享资源约束的多终端运输网络中证实了这种几何相变。凸凸性路由成本再现了经典Max-Weight类型规则的稳定行为,而无需明确嵌入稳定目标。随着负载接近边界,会发生结构性的成本爆炸,与负漂移的消失相吻合。

概念上,这些结果与三个既定范式不同:
1. 与稳定调度框架不同,没有人为设计漂移不等式。
2. 与传统的Foster-Lyapunov理论不同,漂移不是假设的,而是推导出来的。
3. 与标准MDP理论不同,复发不是外部条件,而是最优性结构的结果。

这些发现提出了一个更广泛的原则:在具有内部可行性和凸性状态惩罚的凸网络优化中,稳定性和最优性是内在一致的。

未来方向
当前的分析依赖于拥堵潜力的强凸性和强制性,以便将持续的积压增长转化为最优性下的统一负漂移矛盾。有理由认为,部分论点可以扩展到较弱的惩罚类别,例如均匀凸的、方向性强制的或仅仅具有合适梯度增长的径向无界函数。然而,当前的证明在使用强凸性的方面是必要的,无论是为了控制Lyapunov几何还是为了获得定量漂移界限。确定在最弱增长条件下最优性仍然强制稳定仍然是一个重要的未解决的问题。

几个方向自然地扩展了当前框架:
(1) 超出强凸性
分析假设了拥堵潜力的强凸性。一个重要问题是,是否像均匀凸性或没有二次下界的径向无界性这样的较弱增长条件足以引起漂移。描述最小强制性条件将细化结构机制。
(2) 平均成本公式
定理5.1中建立的漂移界限在折扣因子中是统一的。这表明可以直接扩展到平均成本最优性方程。一个完全显式的平均成本版本的最优性诱导稳定定理仍然是一个重要的技术发展。
(3) 对风险敏感和鲁棒的扩展
许多网络系统在到达分布的不确定性下运行。结合风险敏感的标准或厌恶模糊的成本结构可能会改变漂移几何。在分布式鲁棒性下,最优性是否仍然诱导稳定是一个开放问题。
(4) 连续时间和扩散极限
在这里识别的几何机制应该在重流量情况下允许扩散极限的类比。理解强制性惩罚如何与反射扩散模型相互作用可能将这一理论与流体和扩散近似联系起来。
(5) 内生容量扩展
在战略基础设施系统中,容量本身就是一个决策变量。将容量设计嵌入优化框架可能会产生稳定性和基础设施投资的联合几何描述。

这里呈现的结果表明,稳定性不必人工设计;它可以通过凸优化几何结构来结构上强制实现。这一观察表明,大规模网络系统中最优性和复发之间的关系可能比传统的稳定控制视角所暗示的更为深刻。

未引用的参考文献
Bertsekas, 2017; Bramson, 2008; Dai, 1995; Srikant and Ying, 2013; Wei et al., 2020; Zhang et al., 2024.

数据可用性和代码可用性
本研究不涉及实证数据收集或外部数据集。所有数值结果都是从手稿中描述的数学模型生成的。不需要额外的数据。为了确保完全的可重复性,用于运行仿真、计算动态规划迭代和生成第7节中所有图形的Python脚本已存放在公共GitHub仓库namanh95/Optimality-Induced-Stabilization-in-Stochastic-Networked-Resource-Allocation-Systems中。该仓库包括一个README.md文件,其中包含简短的执行说明。

利益冲突声明
作者声明没有竞争性的财务或非财务利益。

在撰写本文的过程中,作者使用了ChatGPT(OpenAI)和Gemini进行语言增强和结构编辑。作者根据需要检查并修订了内容,并对论文的科学准确性和完整性负全责。

资金声明
本研究没有接受任何外部资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号