基于物理知识的深度核方法在偏微分方程中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Physics-Informed Deep Kernel Method for Partial Differential Equations

【字体：大中小】 时间：2026年05月11日 来源：Neurocomputing 6.5

编辑推荐：

　　董少群|王乐亭|郝敬如|徐涛|蔡尧|李岩|王一迪|孔黄帅|许阳中国石油大学（北京）石油资源与工程国家重点实验室，北京，102249 **摘要** 物理信息神经网络（PINNs）作为一种有效的方法，已经出现用于求解偏微分方程（PDEs），但由于它们依赖于基于梯度的优

　　董少群|王乐亭|郝敬如|徐涛|蔡尧|李岩|王一迪|孔黄帅|许阳
中国石油大学（北京）石油资源与工程国家重点实验室，北京，102249

**摘要**
物理信息神经网络（PINNs）作为一种有效的方法，已经出现用于求解偏微分方程（PDEs），但由于它们依赖于基于梯度的优化，常常面临过长的训练时间问题。为了解决这一限制，本文提出了一种物理信息深度核方法（PiDKM），该方法在保持物理信息框架的同时，用高效的非梯度优化策略替代了基于梯度的训练。在PiDKM中，核主成分分析（KPCA）取代了传统的神经层以改进非线性特征提取，并结合了密集连接和特征粘附机制来减少深度表示中的信息损失。核参数和网络配置通过非梯度优化自动确定，从而减少了对手动超参数调整的依赖。从创新和贡献的角度来看，PiDKM引入了一种独特的物理信息学习框架，通过集成深度核表示、无梯度优化策略、自适应物理约束权重和密集连接机制，协同增强了PDE解的近似效率和训练鲁棒性。该方法在三个典型的PDE上进行了验证：扩散-反应方程、波动方程和泊松方程。比较结果显示，PiDKM取得了更高的准确性，绝对误差上限分别为10^-3、10^-5和10^-10，优于传统的PINNs，后者的误差分别为10^-4、10^-4和10^-6。此外，PiDKM还展示了显著的计算效率，训练速度比传统PINNs快了180倍。这些发现突显了PiDKM作为求解PDE的物理信息深度学习的稳健且高效替代方案的潜力。

**引言**
偏微分方程（PDEs）的求解是数值分析的基石，在科学计算和工程领域有着广泛的应用，包括计算流体动力学、天气预测、材料科学和电磁场建模等[1]。由于只有在高度特定的条件下，某些PDE才有解析解[2]，因此数值方法已成为解决绝大多数PDE的不可或缺的手段[3]、[4]。这些方法包括有限差分、有限元和有限体积等技术，它们将连续方程离散化为适合计算算法的代数系统[5]。数值方法具有关键重要性，特别是在结构化领域中的可解释性、计算效率以及成熟的验证框架方面[6]。然而，数值方法固有地受到一些挑战的约束，例如在高维问题上的可扩展性有限、无法直接求解PDE或ODE中的未知模型参数（如系数）、依赖于具有足够边界数据的适定问题、处理稀疏或噪声测量数据的难度，以及依赖于结构化网格来保证准确性和效率[7]、[8]、[9]。新兴的方法，如物理信息神经网络（PINNs），为这些限制提供了有希望的解决方案[10]。以热物理学中的基础偏微分方程（PDE）为例来说明PINNs的原理：一维热传导方程表示为?u(x,t)?t=?^2u(x,t)?x^2，初始条件为u(x,t)=x，其中u(x,t)表示位置x和时间t处的温度。传统上，用于表面拟合的机器学习方法（例如反向传播神经网络）通常依赖于初始条件和有时边界条件的数据来近似u和(x,t)之间的关系[11]。例如，基于稀疏连接和卷积层的深度神经网络被提出用于高效近似流和传输方程[12]。还提出了一种稀疏回归方法，通过空间域中的时间序列测量来发现给定系统的控制偏微分方程，适用于多种科学问题，包括纳维-斯托克斯方程、量子谐振子和扩散方程[13]。虽然这些方法对于表面拟合有效，但它们并没有内在地结合控制物理定律[14]。PINNs通过在训练过程中嵌入物理原理来克服这一限制。这是通过利用自动微分来计算网络输出u对其输入的导数来实现的，从而同时实现数据驱动的学习和物理约束的强制执行[15]、[16]。

在PINNs中，使用神经网络（NN）来近似u=NN(x,t)。训练目标函数结合了两个部分：一个数据驱动的损失项，表示初始条件和边界条件下预测值与观测值之间的差异；以及一个基于物理的损失项，定义为控制PDE的残差[17]、[18]。这种双重损失公式确保了网络预测既与可用数据一致，又符合潜在的PDE[19]、[20]。为了说明实现方式，考虑一个最小的神经网络结构，如图1所示，包含两层，每层有一个神经元。第一层的输出为h1=W1?[x,t]T+b1，其中W1=[w1x,w1t]T表示对应于空间和时间输入的权重，b1是偏置项。应用激活函数σ（例如Tanh或ReLU）后，转换后的输出O1=σh1成为第二层的输入。第二层为h2=w2O1+b2，它产生输出u(x,t)=O2=σw2O1+b2。时间导数?u(x,t)?t和二阶空间导数?^2u(x,t)?x^2使用链式法则计算[21]、[22]。最终表达式分别显示在（1）和（2）中。

?u?t=?u?O2?O2?h2?h2?O1?O1?h1?t=1σ′(h2)w2σ′(h1)w1
t=w1tw2σ′(h1)σ′(h2)
?^2u?x2=??x?u?x=??x?u?O2?O2?h2?h2?O1?O1?h1?x=σ′′(h2)w22(σ′(h1))2w1x2+σ′(h2)w2σ′′(h1)w1x2

最初，网络参数（W和b）是随机初始化的。训练涉及使用基于梯度的优化方法（例如Adam）来最小化总损失[23]。这种框架确保模型既忠实于数据，又符合潜在的物理定律。此外，PINNs的无网格特性使它们特别适用于求解高维PDE、处理没有边界数据的不适定问题，以及整合稀疏或噪声测量数据[24]。尽管如此，物理信息神经网络（PINNs）在解决复杂偏微分方程时仍面临一系列挑战。近年来，从各个角度提出了一系列方法论改进，旨在提高它们的准确性、效率和训练及应用中的稳定性。这些努力主要集中在四个关键方向：自适应采样策略、域分解方法、损失函数优化和网络架构优化。

**自适应采样策略**旨在优化训练点的空间分布，以提高计算效率。传统的均匀采样无法考虑解或残差场的不均匀行为[25]。因此，提出了几种动态采样方法[26]、[27]、[28]。基于残差的自适应细化（RAR）[29]和自适应分布（RAD）[30]方法在残差较大的区域动态添加样本。深度自适应采样（DAS-PINNs）使用生成模型来近似最优采样分布[31]，而移动采样PINNs（MS-PINNs）将样本集中在解梯度较高的区域，从而从函数逼近的角度改善采样[32]。

**域分解方法（DDMs）**采用分而治之的策略，将全局域划分为子域，在这些子域中并行训练局部PINNs。这降低了高维、多尺度或长时间范围问题的优化复杂性[33]、[34]、[35]。代表性工作包括基于物理守恒定律的保守PINNs（c-PINNs）[36]、支持任意几何分解的扩展PINNs（XPINNs）[37]，以及通过门控网络实现软分割的增强PINNs（APINNs）[38]。对于时变问题，增强时间因果关系至关重要[39]、[40]、[41]。通过逐步训练引入顺序学习方法，将时间域划分并依次训练网络[42]、[43]。这包括向后兼容的PINNs（bc-PINNs）[44]，它们使用先前的输出作为软约束，以及从简单任务到复杂任务的课程学习，如参数化渐近物理信息神经网络（PAPINN）在奇异扰动问题的应用中所示[41]、[45]。或者，时间 marches程序为每个连续时间间隔训练一个单独的PINN[46]、[47]、[48]。这些方法通过逐步和增量学习机制共同提高了网络的逼近能力。

**损失函数改进**主要关注平衡损失权重和引入额外约束。不同损失分量之间的显著幅度差异往往导致梯度不平衡和训练不稳定，阻碍了有效优化。提出了各种自适应加权机制：基于梯度统计的自适应学习率退火平衡不同损失项的梯度范数[49]；基于神经 tangent核（NTK）理论的方法通过平滑NTK的特征值分布来促进收敛[50]、[51]；加权平衡PINN（wbPINN）从概率推断的角度动态更新权重，使用最大似然估计[52]。此外，自适应残差分割PINN（ARSPINN）通过区域分解残差损失并分配动态权重来改善梯度分布[53]。除了权重平衡外，将更高阶的物理信息纳入损失也证明是有效的。例如，梯度增强PINN（gPINN）通过包含PDE残差的一阶梯度显著提高了准确性[54]、[55]。

**网络架构优化**侧重于网络架构的优化，网络结构的设计直接影响其逼近能力和收敛效率。传统上，PINNs采用全连接神经网络（FCNNs）来连续逼近物理系统的解，遵循连续学习范式。然而，FCNNs的固有光谱偏差通常会导致PINNs的收敛速度较慢，限制了它们在解决复杂偏微分方程（PDEs）时的性能和可扩展性。为了减轻计算负担并提高效率，最近的研究转向了离散学习模型[56]、[57]、[58]。其中，基于卷积神经网络（CNNs）的物理信息卷积网络（PICN）由于参数共享、轻量级架构和高效的学习空间相关性而表现出更快的收敛速度和更好的可扩展性[59]、[60]、[61]。为了处理不规则几何形状，PhyGeoNet通过坐标变换将物理域严格映射到规则参考域来执行边界条件[62]。对于时空PDEs，PhyCRNet及其轻量级变体使用编码器-解码器卷积LSTM进行特征提取和时间演化学习[63]，而AR-DenseED采用自回归卷积编码器-解码器结构，仅使用初始条件递归预测系统动态[64]。通过将计算域离散化为表示为图的不规则网格，物理信息图神经网络（PIGNN）在其节点和边特征中编码物理状态和几何关系。因此，它直接处理复杂的几何形状，并克服了PINNs在泛化训练数据方面的局限性[65]。同时，为了更好地捕捉不连续特征（如冲击波），物理信息注意力神经网络（PIANN）结合了门控循环单元和注意力机制，使网络能够自适应地专注于解的关键区域，克服了传统PINNs在解决双曲PDEs时的局限性[66]。

总体而言，这些离散学习方法具有将初始/边界条件和PDE结构硬编码到模型架构中的独特优势。然而，相关方法的发展仍处于早期阶段，在收敛速度和计算精度方面还有改进的空间，无论是对于正向问题还是逆问题。此外，现有模型通常需要在超参数调整和手动优化上付出大量努力才能达到所需的准确性和收敛性。因此，进一步研究和改进模型架构和解决效率是必要的。为应对这些挑战，本研究提出了物理信息深度核方法（PiDKM）。PiDKM将强大的回归框架——深度核方法（DKM）与标准PDE损失相结合，旨在创建一个更高效和稳健的替代方案。DKM框架具有由一系列核主成分分析（KPCA）模型构建的深度特征提取器，并通过残差连接增强了鲁棒的信息流[67]。特征提取器使用一系列KPCA模型，促进了在不同特征空间之间的非线性映射。这种架构通过集成残差连接得到增强，确保了层与层之间的鲁棒信息流，并在训练期间减轻了非贡献层的影响[68]。这种架构通过集成残差连接得到进一步增强，确保了层与层之间的鲁棒信息流。残差连接减轻了在训练期间可能无效的层的影响，保持了整体特征提取能力。即使在具有挑战性的情况下，这种机制（通过在残差单元内实现跳过连接）也保护了深度特征提取过程的完整性。

尽管DKM在处理复杂问题时表现出很强的能力，但将其适应为PDE的回归框架引入了一个重大障碍。PINNs中通常使用的基于梯度的优化由于KPCA的梯度计算困难而变得不适用。因此，本研究替换了PINNs中使用的链式法则，采用了基于非梯度的优化技术。这种方法不仅解决了优化问题，还允许在优化过程中自动确定DKM的超参数，例如层数。该特性简化了DKM的应用，使PiDKM成为一个近乎自动且用户友好的框架，用于解决偏微分方程（PDEs）。通过解决现有方法的计算效率低下问题，PiDKM在物理信息驱动的机器学习领域取得了重大进展。关键在于，PiDKM在两个基本方面与现有的混合方法不同。首先，与之前主要使用神经切线核（NTK）分析训练动态或平衡损失权重[50][51]的“基于核”的PINNs，或者具有浅层架构的完全连接PINNs（这些方法经常面临可扩展性限制[69]）不同，PiDKM采用基于KPCA的深层多层核架构作为主要特征提取器，能够学习超出传统核能力范围的复杂非线性表示。其次，PiDKM通过解耦策略改进了优化过程。传统的“无梯度”方法使用进化算法优化数百万个参数，导致计算成本高且收敛慢。PiDKM通过将无梯度优化限制在低维超参数空间内（包括架构和核参数）来避免这一问题。对于高维权重估计，它使用支持向量回归（SVR），这是一种凸且解析稳定的方法。这种分离有效地解决了标准PINNs中存在的谱偏差和收敛不稳定性问题。

本工作的主要贡献总结如下：(1) 引入级联KPCA作为PDE求解的深层特征提取机制是新颖的；(2) 无梯度优化方法非常适合DKM框架；(3) 对PDE、边界条件和初始条件损失的自适应加权提高了模型的灵活性；(4) 通过结合两种类型的密集连接，进一步提高了DKM的非线性逼近能力。

本文的后续部分结构如下：第2节全面阐述了PiDKM的基本原理，包括其基础框架和提出的改进措施。第3节详细探讨了PiDKM的适用性，并通过三种经典PDE的验证展示了其有效性。最后，第4节讨论了影响PiDKM性能的关键因素，为优化和更广泛的应用提供了见解。

**物理信息驱动的深度核方法（PiDKM）**
PiDKM的架构如图2所示，展示了其三个基本组成部分：(1) 核心框架（第2.1.1节）：PiDKM框架的核心是深度核方法（DKM），这是一种先进的回归范式，擅长在二维空间中拟合直线、在三维空间中拟合表面以及在更高维度空间中拟合超平面，从而有助于表示和建模复杂的关系；(2) 集成损失函数（第2.1.2节）。

**PiDKM在经典PDE中的应用**
本研究选择了扩散反应方程、波动方程和泊松方程作为基准PDE来验证PiDKM方法。这些方程代表了包括椭圆型、抛物型和双曲型在内的主要PDE类型，具有不同的数学性质和复杂性，从而可以对PiDKM的适用性和稳健性进行全面评估。此外，这些方程在各种科学和工程领域中得到广泛应用。

**优化算法对PiDKM求解PDE的影响**
研究人员进行了实验，评估了三种无梯度优化算法（遗传算法GA、随机坐标下降法和BO）的性能。这些算法在第3.1.1节中介绍的扩散方程问题上进行了测试，使用的统一最小误差阈值为0.1。
- 在图17(a-c)中，GA显示了较高的损失，特别是在边界条件附近，误差高达0.015。
- BO和RACOS的表现相当，误差约为0.005。

**结论**
本研究提出了PiDKM，这是PINNs框架的一种改进，旨在提高求解PDE的准确性和效率。该方法结合了密集连接和改进的优化算法，并将物理信息作为关键约束。PiDKM在三种典型PDE上进行了评估：扩散-反应方程、波动方程和泊松方程。主要发现总结如下：

**作者贡献声明**
徐涛：撰写 – 审稿与编辑。蔡瑶：撰写 – 审稿与编辑，形式分析。李艳：撰写 – 初稿，方法论。孔黄帅：撰写 – 初稿，数据管理。杨旭：软件，数据管理。王一迪：软件，撰写 – 初稿。董少军：撰写 – 初稿，软件，资金获取，概念化。王乐庭：撰写 – 初稿，方法论。

**利益冲突声明**
作者声明他们没有任何已知的竞争性财务利益或个人关系可能影响本文所述的工作。

**致谢**
本研究得到了国家自然科学基金（项目编号42002134）和中国博士后科学基金会（项目编号2021T140735）的财务支持。董少军分别于2007年和2019年在中国石油大学（北京）获得学士学位和博士学位。他目前是中国石油大学（北京）的副教授，研究兴趣包括物理信息驱动的机器学习、水库裂缝识别以及人工智能在油气勘探中的应用。

联系信箱：

粤ICP备09063491号

热点排行