基于物理信息学习的非线性最优控制的硬约束PMP温启动框架作者：卓杜（Zhuo Du）与王旭（Xu Wang）

《Mathematics》：A Hard-Constrained PMP-Based Warm-Start Framework for Nonlinear Optimal Control Using Physics-Informed Learning Zhuo Du and Xu Wang

【字体：大中小】 时间：2026年05月10日 来源：Mathematics 2.2

编辑推荐：

　　摘要基于庞特里亚金最大原理（PMP）的间接方法为非线性最优控制提供了理论严谨性，但它们对初始成本的敏感性极高。物理信息神经网络（PINNs）提供了一种无数据的方法来全局近似轨迹，并克服了这一初始化障碍。然而，由于它们依赖于软惩罚约束，这些方法通常缺乏严格的数值精度。为了弥合这一

　　摘要
基于庞特里亚金最大原理（PMP）的间接方法为非线性最优控制提供了理论严谨性，但它们对初始成本的敏感性极高。物理信息神经网络（PINNs）提供了一种无数据的方法来全局近似轨迹，并克服了这一初始化障碍。然而，由于它们依赖于软惩罚约束，这些方法通常缺乏严格的数值精度。为了弥合这一差距，本文提出了一个混合框架，该框架将结构修改后的PINN的全局搜索能力与高阶切比雪夫-高斯-洛巴托（CGL）谱离散化的严谨精度相结合。在该框架中，我们首先引入了一种新颖的神经架构，通过分析性消除控制输入来强制满足PMP的稳定性条件，从而减少优化搜索空间，并确保训练过程中的严格最优性。随后，神经生成的轨迹为CGL伪谱求解器提供了高质量的热启动，将问题转化为一次性的凸二次规划问题。在Van der Pol振子和椭圆偏微分方程（PDE）最优控制问题上的数值实验表明，这种策略有效缓解了间接方法的初始化敏感性。结果表明，与独立的PINN求解器相比，所提出的方法具有更高的精度和收敛稳定性，为复杂的非线性最优控制提供了一种鲁棒的无需初始化的方法。

1. 引言
非线性最优控制在为复杂动态系统中的决策提供数学框架方面发挥着核心作用，并已广泛应用于工程领域的多个方面，包括航天器轨迹优化[1]、机器人技术[2,3]以及能源和制造系统中的过程控制[4,5]。解决非线性最优控制问题的数值方法通常分为两大类：直接方法和间接方法[6]。
直接方法将原始的连续时间最优控制问题转化为有限维的非线性规划（NLP）问题。例如，Betts[7]对轨迹优化转换进行了基础性研究，而Garg等人[8]将其推广为直接配置的统一框架。然后使用先进的编程工具解决这些NLP问题。得益于求解算法和离散化理论的进步，直接配置的非线性规划方法近年来发展迅速[9]。特别是伪谱方法由于其简洁的公式和对光滑解的谱（指数）收敛性质而受到了广泛关注。基础性工作在高斯求积点上建立了各种全局多项式插值方案。例如，Elnagar等人[10]引入了伪谱勒让德方法，Ross和Fahroo[11]形式化了这些离散化的成本参数映射，Garg等人[12]开发了Radau伪谱方法来处理最优控制问题。然而，作为全局插值方案，当最优解呈现非光滑特征或切换结构时，经典伪谱方法的近似精度会下降。这一限制促使人们开发了网格细化策略来平衡局部分辨率和全局精度。值得注意的是，Ross和Fahroo[13]引入了专门用于处理非光滑动态的伪谱节点方法，而Zhang等人[14]的最新工作展示了hp自适应策略在高度动态的追逐- evasion游戏中的有效性。
与直接方法相比，间接方法通常基于庞特里亚金最大原理（PMP），将最优控制问题转化为两点边界值问题（TPBVP）。为了解决这个TPBVP，研究人员开发了多种数值技术。在射击方法领域，方法从Filipov等人[15]提出的连续线性射击和Park等人[16]生成的函数，到高阶有限差分方案[17]以及用于多体动力学的双射击算法[18]。此外，还广泛研究了准线性化算法，其中包括Bellman–Kalaba–Lakshmikantham方法[19]、迭代切比雪夫近似[20]以及用于具有比例延迟系统的连续凸化框架[21]。尽管理论上非常优雅，但由于对初始成本的极端敏感性，间接方法在实践中仍然没有得到充分利用。正如对改进的准线性化的经典研究[22]和更近期的精确惩罚公式[23]所强调的，初始成本参数猜测的微小偏差经常导致数值发散，特别是对于长horizon或刚性系统。
为了缓解间接方法相关的初始化挑战，物理信息神经网络（PINNs）作为一种无数据的学习范式最近出现了[24]。通过自动微分将控制方程直接嵌入到训练损失中，PINNs能够在没有显式离散化或成本初始化的情况下学习物理上一致的-state轨迹[25]。最近的进展，如物理信息深度运算符控制[26,27]和控制框架的物理信息神经网络[28]，进一步扩展了PINNs处理非线性的能力。尽管如此，独立的PINNs由于其损失函数的软惩罚性质，往往难以严格保证动态约束的满足。
从这个角度来看，PINNs提供了一种生成高质量、物理上一致轨迹估计的自然机制，可以用来缓解传统间接方法中固有的成本初始化敏感性。
为了解决间接方法对成本初始化的内在敏感性，同时保持其理论严谨性，我们提出了一种混合的PMP-PINN热启动框架，该框架系统地将物理信息学习与高阶伪谱离散化相结合。构建了一个专门的PINN架构，以便联合近似-state和成本参数轨迹，提供高质量的初始猜测，从而显著提高了后续间接优化的鲁棒性。
与现有将控制变量作为通过基于惩罚的约束强制的自由网络输出的PMP-PINN公式不同，我们的框架通过稳定性条件分析性消除控制变量。这种设计将PMP最优性条件作为一个硬的架构约束来强制执行，确保在整个训练过程中精确满足。所提出的架构在函数层面而不是损失景观的渐近性上强制执行稳定性条件。为了明确说明这些结构优势如何相对于以前的工作定位我们提出的框架，表1提供了现有最优控制方法的系统比较。

2. 问题表述
我们要解决的问题是在时间区间上找到最小化以下拉格朗日成本函数的最优控制：
(1)
受到系统动力学和初始条件的约束：
(2)
以及终端状态约束：
(3)
其中是状态向量，是控制输入向量，和是常数系统矩阵，是初始状态向量。

注释1：在成本函数中的权重矩阵中，是一个对称正定矩阵（），用于惩罚状态偏差，是一个对称正定矩阵（），用于惩罚控制能量。

注释2：应该注意的是，尽管方程(2)中的系统动力学被表述为线性时不变系统，以便于第4节中一次性凸二次规划公式的分析推导，但所提出的PMP-PINN热启动框架本质上适用于一般非线性最优控制问题。具体来说，对于一般的非线性动力学，连续向量场通过自动微分直接纳入到物理信息损失函数的残差评估中。这一概括的有效性随后通过第5节中详细描述的非凸最优控制实验得到了证实。

3. PMP-PINN热启动机制
为了构建一个物理信息神经网络，首先必须为这个最优控制问题推导出哈密顿系统。根据PMP，我们定义哈密顿函数：
(4)
其中是成本参数向量或伴随变量。
最优性的一阶必要条件由以下一组规范方程给出：
状态方程：
(5)
成本参数方程：
(6)
稳定性条件：
(7)
横截条件：
(8)
应当明确指出，这种分析控制律的推导严格依赖于控制惩罚矩阵是可逆的假设。如注释1中所定义的，是一个对称正定矩阵（），这在数学上保证了其可逆性，并确保了哈密顿函数对于的唯一的全球最小值的存在。

我们框架的核心创新在于特定的架构设计，它区分了硬约束和软约束。
我们构建了一个全连接的深度神经网络，以时间为输入。与可能输出所有变量的标准PINNs不同，我们的网络只输出状态和成本参数的近似值：
(9)
(1)
硬约束：稳定性条件
为了严格保证物理一致性并减少优化搜索空间，我们通过硬约束机制处理控制变量。根据方程(7)，最优控制与成本参数有着严格的代数关系。我们明确将这种关系嵌入到网络的计算图中：
(10)
与所有变量被视为自由输出的传统PINN公式不同，我们框架中的控制输入通过稳定性条件被明确消除，从而将PMP最优性条件作为硬约束强制执行。这种设计确保了在每次训练迭代中都精确满足稳定性条件，无论训练损失如何。
此外，在实际的最优控制场景中，控制变量经常受到物理不等式约束，通常由限定。在PMP框架下，稳定性条件自然地通过庞特里亚金最小化适应这些界限，从而得到分段连续的控制律。为了将这一点纳入我们的架构，我们将方程(10)中的无约束代数关系扩展为网络计算图中的有界饱和投影：
(11)
其中函数强制执行硬饱和限制。虽然函数在边界点上技术上不可微分，但在我们的数值实现中，这种饱和是通过标准的嵌套最小-最大边界运算符严格强制的。现代自动微分框架（例如PyTorch 2.7.0+cu128）通过在非光滑点处分配有效的子梯度来原生支持这种运算符。

值得讨论的是，这种非光滑饱和函数对神经网络反向传播的影响。尽管函数在边界点上技术上不可微分，PyTorch可以通过使用子梯度方法有效地处理这一点。通过在非光滑点的确切位置分配有效的次梯度，该框架几乎在所有地方保持了梯度的连续性。这确保了反向传播过程在数学上是合理且稳定的，使得神经网络能够在不受梯度不连续性或结构不稳定性的影响下学习有界的最优控制律。(2)软约束：动力学和边界条件相反，微分约束和边界条件被视为软约束，通过 penalty 项加入损失函数中。总损失定义为：(12) 具体的残差项是使用自动微分得到的。动力学残差为：(13) 辅助残差为：(14) 边界条件残差为：(15) 其中表示配置点集。这种混合约束公式确保了在通过梯度下降近似微分方程的同时，控制变量和代价变量之间的耦合保持严格且物理上准确。为了应对由竞争损失项引起的潜在梯度问题，本研究采用了基于多任务学习的自适应加权策略，灵感来自 AW-EL-PINNs 框架 [29]。而不是分配固定的启发式权重，动态残差、辅助残差和边界残差的最小化被视作不同的学习任务。通过引入可学习的权重参数，网络在训练过程中动态平衡这些损失成分。

命题 1（平稳性条件的精确满足）。在所提出的架构下，PMP 平稳性条件对于所有训练迭代都是恒定满足的，与 PINN 损失函数的优化无关。这从根本上区分了所提出的框架与基于 penalty 的 PINNs，后者只能渐进地满足最优性条件。

系统的准线性化所提出的框架结合了 PMP-PINN 的全局搜索能力和 CGL 的局部谱精度。如图 1 所示，该过程分为两个阶段：首先，PMP-PINN（第 1 阶段）通过硬约束生成一个物理上一致的温启动，以确保对强非线性的鲁棒性。这些轨迹随后初始化 CGL 谱求解器（第 2 阶段）。这种架构对于线性-二次（LQOC）和线性偏微分方程（PDE）问题特别有效，能够通过凸二次规划（QP）公式实现一次性谱解。对于一般的非线性系统，它减轻了初始化的敏感性，显著加速了迭代收敛速度。

在概述了框架的工作流程之后，本节通过制定时域映射、定义拉格朗日插值基函数以及推导相应的谱微分矩阵和 Clenshaw–Curtis 积分权重来建立 CGL 方法的数学基础。切比雪夫多项式及其正交性质在标准区间上定义。为了处理物理时间，引入了一个仿射映射：(16) 相应的逆映射为：(17) 微分运算符的链式法则关系定义为：(18) 下面，设为时间缩放因子。CGL 节点是 n 阶切比雪夫多项式的极值点，加上区间端点。它们定义为：(19) 注意，对应于物理时间，对应于物理时间。这与通常的时间顺序相反，因此在构建矩阵时必须特别注意指标的物理含义。在 CGL 节点处，函数的拉格朗日插值多项式可以表示为：(20) 其中表示插值基函数：(21) 其中归一化常数定义为：(22) 谱微分矩阵将节点处的函数值映射到节点处的导数值，即。其元素的解析表达式如下推导。通过应用三角恒等式，非对角线元素简化为：(23) 对于对角线元素 ()，内部节点的表达式为：(24) 边界元素：(25) 为了提高数值稳定性，采用了“负和技巧”，利用常数函数的导数为零的性质，通过对角线元素来计算对角线元素：(26) 此外，利用中心对称性质可以进一步减少计算误差。为了将积分成本函数离散化为代数和，采用了 Clenshaw–Curtis 积分方法。该方法在 CGL 节点处积分插值函数，对于平滑函数而言，其精度远高于梯形法则，并且计算复杂度为 O(n)。权重的显式求和公式基于切比雪夫多项式的积分性质推导得出：(27) 其中系数定义为：(28) 这里，的定义与微分矩阵中的定义一致，在端点处为 1，否则为 2。通过使用上述谱离散化，无限维的 LQOC 问题被重新表述为一个有限维的二次规划问题。鉴于系统动力学的线性，传统的迭代准线性化过程被绕过，允许通过单次 QP 优化获得精确解。

为了构建稀疏且结构清晰的 QP 矩阵，我们定义了决策向量。设表示第 i 个时间节点处第 j 个状态变量的值。我们将所有变量以“变量优先”的方式堆叠，以便使用克罗内克积（Kronecker product）来表达约束：(30) (31) 总决策向量定义为：(32) 原始目标函数表示为：(33) 使用仿射变换系数和对角权重矩阵，离散化的代数形式为：(34) 这可以写成标准的 QP 目标形式。使用克罗内克积，Hessian 矩阵具有以下块对角结构（假设状态和控制变量之间没有耦合项）：(35) 具体来说，是由 m×n 块组成的矩阵，每个块都是 n×n。由于和是正定的（或半定的）且的元素为正数，因此保持了凸性。系统动力学必须在所有配置点满足：(36) 右侧 (RHS) 是状态和控制的线性组合。对于第 i 个状态变量在所有配置点对应的方程组：(37) 我们需要将这些方程组装成形式。整个动态约束矩阵可以紧凑地表示为：(38) 其中左侧块对应于状态变量，右侧块对应于控制变量。初始条件对应于节点 i。这意味着对于每个状态，向量的第 j 个分量（索引为 j）必须等于。我们定义选择向量。初始条件约束矩阵为：(39) 对应的右侧向量为。结合上述推导，LQOC 问题被转换为以下标准的凸二次规划问题：(40) 在总结整个算法之前，重要的是要明确软约束的第一阶段（PINN）和硬约束的第二阶段（CGL 求解器）之间的接口机制。为了处理潜在的可行性冲突，我们故意避免显式的几何投影或人为平滑，而是选择将原始 PINN 轨迹直接输入到 NLP 求解器中。在内部点方法框架内，微小的初始边界违反仅表现为 KKT 系统右侧的非零残差，这不会影响约束雅可比矩阵的结构秩。由于 PINN 生成的猜测已经非常接近真实的最优流形，求解器在第一次迭代中自然计算出一个稳定的牛顿步骤来吸收这种轻微的不可行性。通过传递人为的空间失真，这种直接输入策略完美地保留了神经网络捕获的物理动力学。最终，这种无缝过渡强调了所提出方法如何将神经网络的全局搜索能力与基于谱的优化的严格精度相结合。通过利用神经网络生成的温启动来初始化随后的内点求解器，该框架有效地将独立 PINN 中固有的软惩罚约束转换为硬最优条件。这种混合架构不仅确保了谱级的准确性和严格的物理一致性，还成功克服了纯神经方法常见的收敛和精度瓶颈。

在展示具体的数值示例之前，重要的是要澄清，高密度 CGL 伪谱方法作为以下评估中的精确参考解，有效地代表了引言中讨论的主流直接和间接 NLP 方法的性能能力。示例 1（Van der Pol 振荡器）。在本节中，考虑了已知的 Van der Pol 振荡器问题。系统状态方程和边界条件定义如下：(41) 优化目标是最小化以下拉格朗日类型的性能指标，受到控制约束的限制：(42) 边界条件设置为定义从初始状态到目标状态的转变。根据 Fahroo 和 Ross [30] 的说法，对于像 Van der Pol 振荡器这样的具有无限可微动力学的系统，切比雪夫伪谱近似的误差不仅收敛，而且还表现出指数（谱）收敛。因此，我们采用截断点，此时截断误差严格受到限制 (其中 )，确保数值解完全收敛。在这个评估中，使用具有 m 个配置点的谱方法生成精确的高精度参考解。图 2 展示了独立 PINN、所提出的混合方法和这个参考解产生的最优轨迹的全面比较。图 2a 展示了状态变量和的演化轨迹。虽然独立 PINN 成功捕获了宏观动态模式，但其性能在边界处显著下降，难以精确满足终端约束。相比之下，所提出的混合轨迹与精确的谱解完美重叠，严格锚定在目标终端状态（见表 2）。图 2. PINN 与所提方法的比较。 (a) 最优状态轨迹。 (b) 最优控制输入。表 2. 示例 1 的结果。尽管离线训练阶段为像 Van der Pol 振荡器这样的行为良好的问题引入了额外的计算开销，但这个基线示例主要用于验证所提框架的数值保真度。它证明了硬约束架构成功纠正了独立 PINN 的固有误差，并精确恢复了谱精度。此外，对计算效率的评估突出了实际的离线-在线权衡。应该注意的是，所提出的混合方法需要一个初始的离线预训练阶段。虽然这种离线计算成本不可忽视，但它有效地将全局拓扑探索的重担从在线执行阶段转移开来。与通常在在线陷入局部最小值时遇到不可预测的计算时间或发散的独立直接方法相比，我们的框架将在线 NLP 求解器限制为仅执行局部细化。

图 3 对比了独立 PINN、所提出的混合方法和高密度谱参考在整个时间域上的动态方程残差，采用对数尺度。如图 3 清楚地显示，独立 PINN（虚线）难以将动态残差最小化到大约的误差阈值以下，这一限制由竞争的软惩罚项的固有优化挑战造成。相比之下，所提出的混合框架将动态违规降低到范围内，成功地接近了机器精度极限。这一巨大改进表明，利用硬约束 PINN 作为温启动完全解锁了 CGL 伪谱方法的指数收敛特性，实现了与计算成本高昂的高密度参考解相当的精度。图 3. 动态违规误差。为了验证所提出的硬约束框架的必要性，我们进行了全面的消融研究，比较了三种初始化策略：没有 PMP 引导的标准 PINN、基于 PMP 的具有软约束的 PINN 和我们提出的硬约束 PMP-PINN。定量结果总结在表 3 中。表 3. 温启动质量的评估。如表 3 所示，标准 PINN 通过逆动力学实现了可以忽略的常微分方程（ODE）残差，但不满足边界条件 () 或控制限制，使得轨迹不可行。软 PMP 方法减少了边界误差，但在稳态 ( ) 中保留了代数不一致性，为下游求解器创造了梯度冲突。相比之下，所提出的硬 PMP 框架结构上强制执行了稳态和路径约束，达到机器精度，同时实现了比软约束基线高出三个数量级的边界精度。这证实了结构编码 KKT 条件对于生成严格可行和最优的温启动是必不可少的。

示例 2（一维椭圆最优控制）。在这个例子中，我们考虑一个一维椭圆最优控制问题：(43) 优化目标是最小化以下性能指标：(44) 其中源项被选择以确保精确解和。与第 3 节讨论的常微分方程（ODE）系统不同，偏微分方程（PDE）的最优控制涉及在无限维函数空间中的变分计算。为了确保理论的严密性并明确推导出这种椭圆型偏微分方程（PDE）的稳定性条件，我们通过使用伴随变量将PDE约束附加到成本函数上来构建拉格朗日泛函：(45)。通过对拉格朗日函数关于状态和控制变量的Fréchet导数进行求解，并应用分部积分以及状态边界条件，我们得到了PDE系统的一阶必要最优性条件（KKT条件）。状态方程为：(46)，伴随方程为：(47)，稳定性条件为：(48)。表4展示了数值模拟的具体定量比较。注意：度量标准和误差是通过最大绝对误差（norm）来量化的。图4展示了最优状态和控制轨迹的比较，而图5则以对数刻度展示了状态解的绝对误差。表4为示例2的结果。图4显示了PINN与所提出的混合方法在示例2中的比较：(a) 最优状态轨迹；(b) 最优控制输入。图5展示了不同方法在示例2中的动态违反误差（对数刻度）。示例3（在不利流体流中的非凸最优导航）。为了进一步展示所提出的混合框架的全局搜索能力和鲁棒性，我们在本示例中考虑了一个高度非凸的二维导航问题。一个智能体必须在s时间内从初始状态导航到目标状态，同时穿越局部的不利高斯流体流。系统动力学被表述为：(49)和(50)。目标是最小化性能指标，该指标平衡了空间偏差和所需的控制努力：(51)。这个问题存在一个严重的拓扑障碍：直线路径正好穿过不利风场的峰值。这种对称设置形成了一个高能量的局部最小值，经常会导致基于梯度的传统求解器陷入困境。根据所提出的方法，在PINN架构中，PMP稳定性条件被作为硬约束强制执行。为了在初始训练阶段避开这种对称陷阱，引入了一个瞬态对称性破坏损失，引导网络在局部精细化之前探索更广阔的几何流形。具体来说，对称性破坏损失被定义为一个均方误差（MSE）惩罚，它鼓励横向坐标暂时遵循一个预定义的启发式曲线：(52)，其中作为人工空间扰动。为了确保这个辅助损失不会影响最终解的物理最优性条件的准确性，我们采用了硬截止退火策略。在初始的全局探索阶段，权重被设置为1.0，有效地将轨迹推出高能量局部最小值陷阱。随后，权重降至0.0。图6展示了PMP-PINN训练结果的内部一致性验证。在最优控制理论中，对于没有显式时间依赖性的自主系统，哈密顿量必须沿着最优轨迹保持恒定，其时间导数必须恒为零。如图所示，网络预测的哈密顿量值及其导数的波动在极小的误差范围内被严格抑制，满足最小哈密顿条件。此外，成本状态和速度的预测轨迹与理论值完美对齐。这种高保真输出为后续的切比雪夫伪谱配置方法提供了高度可靠的物理先验和初始猜测。图7展示了在局部强风场影响下的轨迹规划结果。图7a定义了初始状态（蓝色三角形）、目标状态（红色圆圈）和中心风团。图7b突出了独立NLP求解器的根本局限性。依赖于简单的冷启动，它陷入了一个直接穿过风团最大阻力的次优高能量局部最小值。相比之下，通过利用PMP-PINN预测的物理全局拓扑作为热启动猜测，图7c展示了所提出的混合求解器成功绕过了风团，实现了拓扑上更优且节能的可行路径。示例3（在不利流体流中的非凸最优导航）。为了进一步证明所提出的混合框架的全局搜索能力和鲁棒性，我们在本示例中考虑了一个高度非凸的二维导航问题。一个智能体必须在s时间内从初始状态导航到目标状态，同时穿越局部的不利高斯流体流。系统动力学被表述为：(49)和(50)。目标是最小化性能指标，该指标平衡了空间偏差和所需的控制努力：(51)。这个问题存在一个严重的拓扑障碍：直线路径正好穿过不利风场的峰值。这种对称设置导致了一个高能量的局部最小值，经常会导致基于梯度的传统求解器陷入困境。根据所提出的方法，在PINN架构中，PMP稳定性条件被作为硬约束强制执行。为了在初始训练阶段避开这种对称陷阱，引入了一个瞬态对称性破坏损失，引导网络在局部精细化之前探索更广阔的几何流形。具体来说，对称性破坏损失被定义为一个均方误差（MSE）惩罚，它鼓励横向坐标暂时遵循一个预定义的启发式曲线：(52)，其中作为人工空间扰动。为了确保这个辅助损失不会影响最终解的物理最优性条件的准确性，我们采用了硬截止退火策略。在初始的全局探索阶段，权重被设置为1.0，有效地将轨迹推出高能量局部最小值陷阱。随后，权重降至0.0。图6展示了PMP-PINN训练结果的内部一致性验证。在最优控制理论中，对于没有显式时间依赖性的自主系统，哈密顿量必须沿着最优轨迹保持恒定，其时间导数必须恒为零。如图所示，网络预测的哈密顿量值及其导数的波动在极小的误差范围内被严格抑制，满足最小哈密顿条件。此外，成本状态和速度的预测轨迹与理论值完美对齐。这种高保真输出为后续的切比雪夫伪谱配置方法提供了高度可靠的物理先验和初始猜测。图7展示了在局部强风场影响下的轨迹规划结果。图7a定义了初始状态（蓝色三角形）、目标状态（红色圆圈）和中心风团。图7b突出了独立NLP求解器的根本局限性。依赖于简单的冷启动，它陷入了一个直接穿过风团最大阻力的次优高能量局部最小值。相比之下，通过利用PMP-PINN预测的物理全局拓扑作为热启动猜测，图7c展示了所提出的混合求解器成功绕过了风团，实现了拓扑上更优且节能的可行路径。示例4（带恒定功率负载的升压转换器）。为了进一步证明所提出的框架在处理高度非线性和物理刚性工程系统方面的优越性，我们研究了为恒定功率负载（CPL）供电的DC-DC升压转换器的最优控制。在现代微电网和航空航天电力系统中，由于负增量阻抗特性，CPLs引入了严重的不稳定性。控制输入代表开关设备的占空比。该项引入了强烈的非凸性和潜在的奇异性，当占空比为零时，使得传统数值求解器对初始化非常敏感。目标是在固定终端时间内将系统从初始扰动状态驱动到期望的平衡参考状态，同时最小化瞬态能量偏差。成本函数定义为：(55)。标准系统参数设置为V、H、F和W。参考平衡点为，稳态占空比为。权重矩阵选择为、、和。初始条件设置为，终端时间为。根据庞特里亚金最大原理（PMP），通过对哈密顿量关于进行最小化来推导出分析控制律。在我们的硬PMP PINN架构中，占空比从神经网络输出中被严格消除，并通过饱和稳定性条件分析嵌入到计算图中：(56)。为了评估数值性能，我们将所提出的混合框架与独立的软约束PINN和高密度经典CGL伪谱方法进行了比较，后者作为精确的参考解。最优状态和控制轨迹如图8a、b所示。可以清楚地观察到，最优占空比在初始瞬态阶段显示出明显的“冲击-奇异”结构，在期间保持严格的饱和状态，以快速注入能量并抵消CPL引起的电压下降。由于软约束优化中的梯度病态和神经网络的固有谱偏差，独立PINN完全无法捕捉到这种急剧的切换行为。它输出了一个严重平滑的、次优的控制序列，导致电流和电压恢复的巨大跟踪误差。相比之下，通过将严格的PMP稳定性条件作为硬架构约束来执行，所提出的混合方法与超高密度谱真实值完美对齐，准确捕捉到了非平滑的控制拐角，而没有引起高频的吉布斯振荡。图8展示了示例4中独立PINN、所提出的混合框架和高密度谱参考之间的最优轨迹比较。(a) 最优状态轨迹；(b) 最优控制输入。此外，图9验证了在密集时间网格上评估的绝对ODE残差。独立PINN在物理违规方面遇到了不可接受的高问题。相反，利用离线的硬PMP PINN提供拓扑正确的热启动，随后的在线CGL细化实现了严格的机器精度容差。这证实了所提出的框架不仅完全避免了非线性程序的初始化敏感性，还严格保证了最优解的数学严谨性。结论本研究提出了一种混合PMP-PINN热启动框架，用于非线性最优控制，系统地将物理信息学习与高阶谱离散化相结合。通过将PMP嵌入神经网络架构，所提出的方法利用无数据学习生成物理一致的状态-成本状态轨迹，有效减轻了传统间接方法中固有的初始化敏感性。我们的目标不是取代成熟的直接求解器，而是增强基于PMP的间接方法的鲁棒性，这些方法在理论上有吸引力，但在数值上却很脆弱。所提出框架的一个关键特点是将其稳定性条件作为硬架构约束来执行。与现有的将控制变量视为受罚分正则化约束的自由网络输出的PMP-PINN方法不同，我们方法中的控制是通过PMP稳定性条件分析消除的。这种设计保证了在整个训练过程中最优性条件的精确满足，同时显著减少了优化搜索空间。随后，神经生成的轨迹与CGL伪谱离散化结合，实现了单次发作的凸二次规划公式化，具有谱精度。这种混合策略有效地将独立PINNs的软约束性质转化为硬约束的最优控制公式化，结合了神经网络的全局逼近能力和谱方法的数值严谨性。与其提出另一种PINN变体不同，这项工作展示了如何将物理信息学习作为一个结构工具来稳定传统的间接最优控制求解器。展望未来，将这种混合框架的可扩展性扩展到高维复杂系统仍是未来研究的关键前沿。尽管当前研究在低维动态模型上成功验证了该方法，但将间接方法应用于高维系统会引入严重的代数复杂性。特别是，随着状态维度的增加，手动推导分析哈密顿量和制定高度耦合的成本状态方程变得难以处理。为了克服这种可扩展性瓶颈，未来的工作将专注于将自动化的符号计算引擎直接集成到PINN计算图中，以自动化推导必要的PMP条件。此外，为了应对高维状态空间中神经网络训练固有的“维度惩罚”，将需要探索先进的自适应配置策略。成功应对这些挑战将进一步释放所提出的神经热启动范式在大型实际工程应用中的潜力。

热点排行