一个适用于算子网络的最优Petrov-Galerkin框架

《COMPUTER METHODS IN APPLIED MECHANICS AND ENGINEERING》：An optimal Petrov–Galerkin framework for operator networks

【字体：大中小】 时间：2026年05月10日 来源：COMPUTER METHODS IN APPLIED MECHANICS AND ENGINEERING 7.3

编辑推荐：

　　菲利普·查尔斯 | 迪普·雷 | 余宇 | 乔斯特·普林斯 | 霍戈·梅尔彻斯 | 迈克尔·R.A. 阿卜杜勒马利克 | 杰弗里·科克伦 | 阿萨德·A. 奥伯莱 | 托马斯·J.R. 休斯 | 马茨·G. 拉尔森
美国马里兰大学数学系

**摘要**
最优的Petrov–Galerkin公式用于求解偏微分方程（PDEs），能够在指定的有限维（试验）空间中根据适当的范数恢复最佳近似值。然而，这种最优解的获得取决于能否构建与试验基相关的最优权重函数。尽管对于简单的一维和二维问题有明确的构建方法，但对于一般的多维问题，这种构建方法仍然难以实现。在本文中，我们通过深度学习的视角重新审视了最优Petrov–Galerkin公式。我们提出了一种称为Petrov–Galerkin变分模拟算子网络（PG-VarMiON）的框架，该框架模拟了底层PDE的最优Petrov–Galerkin弱形式。PG-VarMiON使用包含PDE数据及其对应解的标记数据集以监督方式进行训练，训练损失取决于所选择的最优范数。PG-VarMiON的特殊架构使其能够隐式学习最优权重函数，从而使其具备在训练集之外的良好泛化能力。我们推导了PG-VarMiON的近似误差估计，强调了各种误差来源的贡献，特别是学习真实权重函数时的误差。通过几个数值示例（对流-扩散方程），证明了所提出方法的有效性。将Petrov–Galerkin结构嵌入网络架构中，PG-VarMiON比其他流行的深度算子框架表现出更高的鲁棒性和更好的泛化能力，尤其是在训练数据有限的情况下。

**1. 引言**
基于深度学习的框架用于学习算子（即函数空间之间的映射），在过去几年中越来越受欢迎。特别是用于学习偏微分方程（PDE）的解算子，该算子将PDE数据（边界条件、模型参数、问题域等）映射到相应的解。一旦训练完成，算子网络就可以作为可微分且计算效率高的替代模型，在科学和工程应用中根据变化的PDE数据重复评估PDE解。一些示例包括使用蒙特卡洛算法的不确定性量化[1]、[2]，PDE约束优化和控制[3]、[4]、[5]。
Chen和Chen首次提出了使用神经网络进行算子学习的方法[6]、[7]，并提出了一个通用逼近定理，表明一个只有三个专门层的浅层网络能够逼近两个连续函数空间之间的任何非线性连续算子。DeepONets[8]将[6]中的框架适配到深度神经网络[8]，并在[9]中提供了严格的误差和泛化估计，特别是当DeepONets用于解决特定类别的PDE时。传统上，DeepONets是在假设所研究的算子可以通过基函数的线性组合来逼近的假设下构建的，其中基函数和线性系数由可训练的网络表示。自其诞生以来，DeepONet已经经历了多次改进和扩展[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]。
神经算子[21]、[22]构成了另一种深度算子学习框架，其基本思想是首先在无限维环境中制定算法，然后进行适当的离散化。类似于前馈神经网络，神经算子通常包含多层，每层对函数执行线性非局部变换，随后进行点态非线性激活。神经算子的类型由非局部操作的实施方式来表征[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]。在使用神经算子求解PDE时，可以找到某些类型神经算子的误差估计和网络复杂性的分析[31]。
人们还感兴趣于利用神经网络通过其底层弱/变分形式来求解PDE。提出了一种称为wPINN[32]的物理信息神经网络变体，用于求解双曲守恒定律，其中PDE残差损失基于Kruzkhov熵条件的变分形式。Deep Ritz方法[33]构建了一个变分能量损失函数，并训练神经网络来学习试验函数以最小化该损失。在[34]中，通过首先将PDE视为一阶系统，然后最小化系统的最小二乘残差（相当于弱PDE残差），引入了一种深度学习框架。研究表明，残差是一种准最优的误差估计器，从而提供了一种类似于传统FEM中自适应细化的神经网络增长策略。我们注意到，上述方法并不学习PDE解算子，而只是求解PDE的一个实例。在算子学习的背景下，提出了一种用于断裂分析的替代模型，该模型包含一个将变分能量公式纳入损失函数的DeepONet[11]。最近提出了VarMiON公式[35]，其中算子网络被构建为模仿PDE的离散变分形式，并在具有多个输入函数的线性PDE和非线性正则化Eikonal方程上进行了测试。Neural Green算子（NGOs）[36]被引入，以扩展[35]中概述的变分模拟方法，从而能够学习参数化PDE的Green算子。除了作为PDE解算子的替代模型外，NGOs还提供了推断出的Green函数的显式表示，这可以在PDE的数值求解器中得到利用——例如，通过构建有效的矩阵预处理器。

在PDE的最优Petrov–Galerkin框架中，目标是考虑PDE的无限维弱解u∈V，并在给定的有限维函数空间V??V中恢复其最佳近似u?，以期望的范数‖.‖?来衡量。可以证明u?等价于离散问题的Petrov–Galerkin公式的解，其中测试空间V??V由一组最优权重函数张成。我们指出，与标准Galerkin公式不同，测试空间V?通常不同于试验空间V?。一旦确定了权重函数，离散问题就简化为由范数‖.‖?确定的对称、正定弱公式。最优Petrov–Galerkin方法的基础理论非常优雅，即使在使用标准Galerkin方法失败的情况下也能恢复最优收敛率[37]。
Barret和Morton首次为对流-扩散方程的形式化PDE中的最优权重函数概念[38]，尽管Hemker的论文中早已有过类似的实例[39]。后来，最优Petrov–Galerkin框架被应用于开发自适应特征分数步方法[40]，以及开发对厚度与长度比率不敏感的Timoshenko梁问题公式[37]。在[37]中指出，当这个比率非常小时，标准Galerkin有限元公式的试验/测试空间会简化为仅包含零函数的空间（这被称为锁定 pathology）。使用Petrov–Galerkin公式可以避免这种行为。此外，[37]的作者得出结论，将此公式扩展到Timoshenko梁的二维类比（即Reissner–Mindlin板[41]）将是一个非常困难的命题。对于更高维的对流-扩散问题也可能得出类似的结论。尽管已经为一维[37]、[38]、[42]和二维[43]的简单问题明显构建了最优权重函数，但对于一般多维问题，这样的构建仍然难以实现。因此，随着Galerkin最小二乘[44]、无残差气泡[45]和变分多尺度[46]等替代有限元策略的关注增加，人们对这种方法的热情有所减弱。
在本文中，我们通过制定合适的深度算子学习框架来重新引入最优权重函数的概念。特别是，我们构建了一个模拟PDE最优Petrov–Galerkin公式的算子网络。这个Petrov–Galerkin VarMiON（PG-VarMiON）被训练来最小化以最优范数‖.‖?测量的预测误差，同时隐式学习相应的最优权重函数。这为在经典框架中不可能的情况下确定最优权重函数提供了一种系统方法。我们提供了PG-VarMiON的泛化误差估计，并通过对流-扩散问题的数值结果证明了其在分布外数据上的优越性能，与现有的流行算子学习框架相比。

**本文的其余部分结构如下**：第2节描述了一般线性椭圆PDE的弱公式和最优Petrov–Galerkin框架。第3节介绍了模拟最优Petrov–Galerkin公式的PG-VarMiON，描述了训练过程，并分析了泛化误差。第4节提出了在一维和二维中对流-扩散方程的数值结果。第5节以结论性评论结束。

**2. 问题公式**
设Ω∈Rd是一个具有分段光滑边界Γ的开集有界域。边界进一步分为Dirichlet边界ΓD和自然边界Γη，且Γ=ΓD∪Γη。定义空间HDr(Ω)={u∈Hr(Ω):u|ΓD=0}。我们考虑以下标量椭圆边值问题：
(2.1)
L(u(x);g(x))=f(x)?x∈Ω,
B(u(x);g(x))=η(x)?x∈Γη,
u(x)=0?x∈ΓD,
其中L是一个线性椭圆PDE算子，B是自然边界算子，两者都由一组函数g∈G参数化。此外，f∈F?L2(Ω)是源项，η∈H?L2(Γη)。解u∈V∈HDr(Ω)，其中r取决于算子L的阶数。
(2.1)的一个特定示例是稳态对流-扩散方程：
(2.2)
???(κ(x)?u(x))+c(x)??u(x)=f(x)?x∈Ω,
κ(x)?u(x)?n=η(x)?x∈Γη,
u(x)=0?x∈ΓD,
其中V=HD1(Ω)，n是Γη上的单位外法向量，参数化函数集为g=[κ,c]。这里κ∈L∞(Ω)∪{κ|κ(x)≥κmina.e.x∈Ω}，某个（固定的）标量κmin>0是扩散系数，而c∈Hdiv1(Ω)={c∈[L2(Ω)]2|??c∈L2(Ω)}是速度场。我们将在第4节使用(2.2)作为数值结果的典型示例。

**2.1. 变分形式**
(2.1)的变分形式表示为：
找到u∈V，使得
(2.3)
a(u,w;g)=(f,w)+(η,w)Γη?w∈V,
其中(.,.)是L2(Ω)内积，(.,.)Γη是L2(Γη)内积，a(u,w;g)是由g参数化的双线性形式。我们还假设双线性形式是强制性的，这需要对g施加额外条件。在这个假设下，(2.3)有唯一解，这一点由Lax–Milgram定理[47]、[48]保证。
对于对流-扩散方程的特定情况，我们有：
(2.4)
?a(u,w;κ,c)?(κ?u,?w)+(c??u,w)
其中强制性的假设是通过假设??c=0来保证的，或者通过假设界限‖c‖L∞≤CΩκmin来保证，其中CΩ是来自Poincaré不等式的常数[49]。

**2.2. 有限维投影**
考虑由一组试验基{?i(x)}i=1N张成的有限维空间Vˉ?V。我们感兴趣的是在由给定的内积(.,.)?在V×V上诱导的范数‖.‖?中，对真实解u的最佳有限维近似u?∈Vˉ。更准确地说，我们解决以下投影问题：
找到u?∈Vˉ，使得
(2.5)
u?=argminw?∈Vˉ‖u?w?‖?2。
与(2.5)相关的最优性条件（通过将首次变分设置为零）导致：
(2.6)
(u?u?,w?)?=0?w?∈Vˉ
这意味着投影误差?e?u?u?与Vˉ正交。
由于u?∈V?，我们可以表示为：
(2.7)
u?(x)=∑j=1Nu?j?j(x)=u??Φ(x)，
其中u?=[u?1,…,u?N]?∈RN是系数向量，Φ=[?1,…,?N]?∈VN是试验基函数向量。将此展开代入(2.6)并将w?设为试验基函数，得到以下线性方程组：
(2.8)
Mu?=rwhererj=(u,?j)?,
Mij=(?i,?j)?,?1≤i,j≤N。
注意质量矩阵M是对称且正定的。解决(2.8)需要知道(2.3)的无限维解u。然而，我们的目标是直接确定u?而无需评估u。在下文中，我们描述了一个允许我们实现这一目标的框架。

**2.3. 最优Petrov–Galerkin公式**
我们首先对试验基Φ和给定的内积(.,.)?做出以下假设：
**假设2.1**
考虑(2.3)中的参数化形式。然后我们假设对于每个基函数?i（1≤i≤N），以下变分公式是良定义的：
(2.9)
a(w,ψi;g)=(w,?i)??w∈V，
并且具有唯一的解ψi∈V。
注意(2.9)等同于解决与伴随PDE算子L?相关的变分问题，其中a(w,ψ;g)=a?(ψ,w;g)。假设2.1成立的充分条件是(.,.)?在V×V上是对称的、连续且强制性的双线性形式[38]。我们将 {ψi(x)}i=1N?V 称为权重函数，并将它们张成的空间记为 V??V。现在我们介绍以下最优的 Petrov–Galerkin 公式：寻找 u?∈Vˉ，使得 (2.10)a(u?,w;g)=(f,w)+(η,w)Γη?w∈V?。方程 (2.10) 的解正是 (2.5) 中的投影解，并且满足最优性条件 (2.6)。以下是相关结果的概述。

**引理 2.1 u? 的最优性**
设 u 是无限维变分问题 (2.3) 的解，并且假设 2.1 对基 Φ 和内积 (.,.)? 成立。那么 u? 是在 Vˉ 中的最优解，因为它满足最优性条件 (2.6)。

**证明**
从 (2.10) 开始并令 w=ψi，我们有 a(u?,ψi;g)?(f,ψi)?(η,ψi)Γη=0?1≤i≤N ? (u?,?i)??(f,ψi)?(η,ψi)Γη=0?1≤i≤N (由 (2.9) 得出) ? (u?,?i)??a(u,ψi;g)=0?1≤i≤N (由 (2.3) 得出) ? (u?,?i)??(u,?i)?=0?1≤i≤N (由 (2.9) 得出) ? (u??u,?i)?=0?1≤i≤N ? (u??u,w?)?=0?w?∈V?=span{?1,…,?N}。

根据引理 2.1，所需的有限维投影 u? 可以通过求解 Petrov–Galerkin 公式 (2.10) 获得，而无需求解无限维解 u。然而，求解 (2.10) 需要依赖于权重函数 {ψi}i=1N 的知识。这就引出了以下挑战：

1. 给定 N 个试验基函数 {?i}i=1N，我们需要从 (2.9) 中恢复 N 个权重函数。由于 ψi(x) 没有封闭形式的表达式，因此需要使用高阶数值求解器（如有限元方法、等几何分析等）来近似求解 (2.9)。
2. 由于 {ψi}i=1N 依赖于 g，每次偏微分方程数据 g 发生变化时，都需要求解一组新的 N 个伴随问题来恢复权重函数。

在这项工作中，我们提出了一种数学上合理的深度算子学习方法来解决上述第一个挑战，这为解决第二个挑战奠定了必要的基础（将在后续工作中提出）。

**3. Petrov–Galerkin VarMiON**
我们不是直接使用 (2.10)，而是将其与 (2.9) 结合，得到以下新的 Petrov–Galerkin 公式：寻找 u?∈Vˉ=span{?1,…,?N}，使得 (3.1)(u?,?i)?=(f,ψi)+(η,ψi)Γη?1≤i≤N。
注意，这个新公式不需要明确知道底层的偏微分方程结构。我们现在提出一个受 (3.1) 激发的深度算子学习框架。
我们假设明确知道一个合适的试验基 Φ(x)=[?1(x),…,?N(x)]?∈RN，它张成了 V??V。我们的目标有两个方面：
- 给定关于 f∈F 和 η∈H 的部分信息（例如在一系列有限节点上的 f 和 η 的值），确定一个准确的 Petrov–Galerkin 解 u?，使其满足 (3.1)。
- 以无监督的方式学习最优权重函数 {ψi}i=1N。

**教义 2.1 的证明**
假设 u 是无限维变分问题 (2.3) 的解，并且假设 2.1 对基 Φ 和内积 (.,.)? 成立。那么 u? 是在 Vˉ 中的最优解，因为它满足最优性条件 (2.6)。

**证明的继续**
从 (2.10) 开始并令 w=ψi，我们有 a(u?,ψi;g)?(f,ψi)?(η,ψi)Γη=0?1≤i≤N ? (u?,?i)??(f,ψi)?(η,ψi)Γη=0?1≤i≤N (由 (2.9) 得出) ? (u?,?i)??a(u,ψi;g)=0?1≤i≤N (由 (2.3) 得出) ? (u?,?i)??(u,?i)?=0?1≤i≤N (由 (2.9) 得出) ? (u??u,?i)?=0?1≤i≤N ? (u??u,w?)?=0?w?∈V?=span{?1,…,?N}。

**结论**
根据引理 2.1，所需的有限维投影 u? 可以通过求解 Petrov–Galerkin 公式 (2.10) 获得，而无需求解无限维解 u。然而，求解 (2.10) 需要依赖于权重函数 {ψi}i=1N 的知识。这就引出了以下挑战：
1. 给定 N 个试验基函数 {?i}i=1N，我们需要从 (2.9) 中恢复 N 个权重函数。由于 ψi(x) 没有封闭形式的表达式，因此需要使用高阶数值求解器（如有限元方法、等几何分析等）来近似求解 (2.9)。
2. 由于 {ψi}i=1N 依赖于 g，每次偏微分方程数据 g 发生变化时，都需要求解一组新的 N 个伴随问题来恢复权重函数。

在这项工作中，我们提出了一种数学上合理的深度算子学习方法来解决上述第一个挑战，这为解决第二个挑战奠定了必要的基础（将在后续工作中提出）。

**3. Petrov–Galerkin VarMiON**
我们不是直接使用 (2.10)，而是将其与 (2.9) 结合，得到以下新的 Petrov–Galerkin 公式：寻找 u?∈Vˉ=span{?1,…,?N}，使得 (3.1)(u?,?i)?=(f,ψi)+(η,ψi)Γη?1≤i≤N。

注意，这个新公式不需要明确知道底层的偏微分方程结构。我们现在提出一个受 (3.1) 激发的深度算子学习框架。我们假设明确知道一个合适的试验基 Φ(x)=[?1(x),…,?N(x)]?∈RN，它张成了 V??V。我们的目标有两个方面：
- 给定关于 f∈F 和 η∈H 的部分信息（例如在一系列有限节点上的 f 和 η 的值），确定一个准确的 Petrov–Galerkin 解 u?，使其满足 (3.1)。
- 以无监督的方式学习最优权重函数 {ψi}i=1N。

**引理 2.1 的证明**
设 u 是无限维变分问题 (2.3) 的解，并且假设 2.1 对基 Φ 和内积 (.,.)? 成立。那么 u? 是在 Vˉ 中的最优解，因为它满足最优性条件 (2.6)。因此，选择一个好的试验基函数集Φ可以有助于降低整体的近似误差。有限元空间在Sobolev范数下的逼近性质始于经典的Bramble-Hilbert引理[50]。Bramble-Hilbert引理在同构几何分析中的推广在[51]中提出。对于有限元，L2和H1结果总结在以下估计中，适用于网格长度h和多项式度数p：如果u∈Hr(Ω)，1表4比较了所有方法在每个测试数据集上的平均相对L2误差。我们观察到PG-VarMiON在所有三个数据集上都表现最佳。值得注意的是，与另外两种方法相比，L-DeepONet在数据集3上的表现要差得多，这表明它对未知数据（OOD数据）的泛化能力较弱。有趣的是，BNet在数据集1和2上的表现与PG-VarMiON相当。这可能是因为BNet和PG-VarMiON都为这个问题提供了一个很好的预定义试验基。然而，BNet在具有挑战性的数据集3上的表现急剧恶化。这清楚地表明BNet有过度拟合训练数据分布的倾向，而PG-VarMiON中基于Ψ?的矩阵A的专门结构（由Petrov–Galerkin公式规定）在确保算子网络更好的泛化能力方面起着关键作用。我们声称，通过模仿PDE的Petrov–Galerkin结构，也可以显著降低使用PG-VarMiON时的数据复杂性。为了证明这一点，我们在不同大小的数据集上训练所有算子网络（这些数据集的特征是使用的f样本数量不同）。这些模型的平均相对测试误差显示在图8中。随着训练样本数量的改变，PG-VarMiON的误差（在所有测试数据集上）基本保持不变，当使用接近100个f样本构建训练集时，误差略有恶化。这种鲁棒性在FNO或L-DeepONet上并不明显，它们需要更多的训练样本来降低测试误差。虽然BNet在前两个（较简单的数据集）上表现稳健，但在数据集3上的近似效果非常差。

下载：下载高分辨率图像（310KB）
下载：下载全尺寸图像

图3. 一维扩散问题：直方图与rug图显示了相对L2误差（以百分比表示），以及投影解u?和PG-VarMiON解u?。每个数据集的平均误差显示在括号中。

下载：下载高分辨率图像（598KB）
下载：下载全尺寸图像

图4. 一维扩散问题：数据集1中的4个样本，第一行绘制了强迫函数f。第二行显示了相应的参考解（红色虚线）和PG-VarMiON近似解（紫色方块）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

下载：下载高分辨率图像（558KB）
下载：下载全尺寸图像

图5. 一维扩散问题：数据集2中的4个样本，第一行绘制了强迫函数f。第二行显示了相应的参考解（红色虚线）和PG-VarMiON近似解（紫色方块）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

下载：下载高分辨率图像（562KB）
下载：下载全尺寸图像

图6. 一维扩散问题：数据集3中的4个样本，第一行绘制了强迫函数f。第二行显示了相应的参考解（红色虚线）和PG-VarMiON近似解（紫色方块）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

下载：下载高分辨率图像（547KB）
下载：下载全尺寸图像

图7. 一维扩散问题：比较了精确权重函数Ψ（黑色）和PG-VarMiON产生的近似值Ψ?（红色）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

表4. 一维扩散问题：比较了各种方法的平均相对L2测试误差（以百分比表示）。误差的标准差在括号中。每个测试集的最低算子网络误差用粗体表示。

方法 | 参数数量 | 数据集1 | 数据集2 | 数据集3
| --- | --- | --- | --- |
| 投影 | 0.61 (0.63) | 0.31 (0.29) | 0.99 (1.06) |
| PG-VarMiON | 118 | 0.69 (0.67) | 0.38 (0.33) | 1.19 (1.21) |
| FNO | 115 | 1.41 (1.10) | 1.06 (0.77) | 1.61 (1.34) |
| L-DeepONet | 158 | 2.41 (2.16) | 1.17 (0.80) | 16.72 (21.56) |
| BNet | 40 | 0.62 (0.64) | 0.51 (0.48) | 31.91 (33.74) |

下载：下载高分辨率图像（353KB）
下载：下载全尺寸图像

图8. 一维扩散问题：随着训练集中f样本数量的变化，各种算子模型的平均相对测试误差（以百分比表示）。

4.4. 对流-扩散问题

现在，我们考虑在Ω=[0,1]上以c=0.1和κ=10??设置的对流主导问题，这导致全局Peclet数为1000。训练和测试数据集是通过如4.1节所述选择强迫函数f来构建的。这里的强对流在右边界产生了一个难以解决的边界层。如果我们使用纯扩散问题中的正弦函数作为试验基，则需要超过100个频率递增的正弦函数才能将投影误差（这是PG-VarMiON误差的下限）降低到可接受的值，如表5所示。PG-VarMiON不太可能充分解决如此高的频率，在尝试用这种基进行训练时，结果通常较差。相反，我们选择了一个维度相对较小的试验基，这可以通过考虑边界层来获得良好的近似。为此，我们从Φ={2sin(jπx)}j=1开始构建Petrov–Galerkin试验基，并用（4.6）给出的十个函数来增强基：Φn(x)=2πκnsinπnx?ccosπnx+hx,nπnπnκ2+c2,1≤n≤10，其中h(x,n)=?1(n?1)e?cκ1?x?e?cκc?1?e?cκ1?xce?cκ?1。

表5. 一维对流-扩散问题：在纯正弦试验基下，测试集的平均相对L2投影误差（以百分比表示），基的维度不同。

因此，这个基的维度为15。请注意，对应于这个基的质量矩阵条件非常差，所以我们使用Gram–Schmidt过程将基转换为正交归一化的试验基。我们观察到这有助于保持PG-VarMiON的稳定性。所得到的试验基显示在图9中。我们按照4.2节中描述的方法构建了一个PG-VarMiON，其中包含5个隐藏层，层宽分别为[10,20,30,40,30]。然后在三个测试数据集上使用训练好的网络。图10显示了相对L2测试误差的直方图（带rug图），我们还将其与相对有限维投影误差进行了比较。请注意，数据集3的（平均）投影误差比数据集1和2的大得多。我们观察到PG-VarMiON的表现接近投影解，但在数据集3上稍有困难。这并不奇怪，因为当前问题比扩散问题更具挑战性，特别是由于存在边界层和施加了均匀的Dirichlet边界条件。在图11、12和13中，我们分别展示了数据集1、2和3中的4个样本的f和相应的PG-VarMiON解。PG-VarMiON解与参考解不可区分。

下载：下载高分辨率图像（544KB）
下载：下载全尺寸图像

图9. 用于一维对流-扩散问题的由十五个正交归一化函数组成的试验基。注意右边界附近存在边界层。

我们在图14中绘制了真实的Ψ和PG-VarMiON近似Ψ?。回想一下，这些基函数没有包含在训练目标中，即Ψ是隐式学习的。我们可以观察到PG-VarMiON很好地捕捉了低频模式，而高频模式也得到了很好的近似，除了两个模式不太准确。由于大多数最优权重函数都正确捕获，PG-VarMiON在OOD数据集上的表现很好。

接下来，我们比较了PG-VarMiON与合适的L-DeepONet、BNet和FNO的性能。表6比较了所有方法在每个测试数据集上的平均相对L2误差。我们观察到PG-VarMiON和FNO的表现相似。L-DeepON在所有3个数据集上的表现都较差，但我们注意到数据集1和2上的误差低于使用100维纯正弦基的投影误差（参见表5）。这表明，在选择不合适的试验基时，L-DeepONNet可能优于PG-VarMiON，因此为PG-VarMiOn选择一个低投影误差的试验基非常重要。与一维扩散问题类似，BNet在前两个数据集上的表现与PG-VarMiON相当，但在具有挑战性的数据集3上的表现最差。

当我们在不同大小的数据集（以使用的f训练样本数量为特征）上训练算子网络时，我们再次观察到（见图15），PG-VarMiON误差对训练样本数量的敏感性较低。令人惊讶的是，我们也注意到FNO在测试数据集3上的表现相当稳健，尽管在另外两个数据集上并非如此。

下载：下载高分辨率图像（306KB）
下载：下载全尺寸图像

图10. 一维对流-扩散问题：直方图与rug图显示了相对L2误差（以百分比表示），以及投影解u?和PG-VarMiON解u?。每个数据集的平均误差显示在括号中。

下载：下载高分辨率图像（608KB）
下载：下载全尺寸图像

图11. 一维对流-扩散问题：数据集1中的4个样本，第一行绘制了强迫函数f。第二行显示了相应的参考解（红色虚线）和PG-VarMiON近似解（紫色方块）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

下载：下载高分辨率图像（554KB）
下载：下载全尺寸图像

图12. 一维对流-扩散问题：数据集2中的4个样本，第一行绘制了强迫函数f。第二行显示了相应的参考解（红色虚线）和PG-VarMiON近似解（紫色方块）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

下载：下载高分辨率图像（588KB）
下载：下载全尺寸图像

图13. 一维对流-扩散问题：数据集3中的4个样本，第一行绘制了强迫函数f。第二行显示了相应的参考解（红色虚线）和PG-VarMiON近似解（紫色方块）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

下载：下载高分辨率图像（820KB）
下载：下载全尺寸图像

图14. 一维对流-扩散问题：比较了精确权重函数Ψ（黑色）和PG-VarMiON产生的近似值Ψ?（红色）。（关于此图例中颜色参照的解释，请参阅本文的网络版本。）

表6. 一维对流-扩散问题：比较了各种方法的平均相对L2测试误差（以百分比表示）。误差的标准差在括号中。每个测试集的最低算子网络误差用粗体表示。

方法 | 参数数量 | 数据集1 | 数据集2 | 数据集3 |
| --- | --- | --- | --- |
| 投影 | 0.33 (0.35) | 0.10 (0.09) | 2.60 (2.15) |
| PG-VarMiON | 380 | 50.48 (0.40) | 0.28 (0.20) | 3.53 (2.82) |
| FNO | 395 | 30.34 (0.16) | 0.36 (0.23) | 3.26 (2.62) |
| L-DeepONet | 440 | 52.36 (0.84) | 2.04 (0.91) | 17.59 (16.24) |
| BNet | 600 | 0.36 (0.34) | 0.54 (0.55) | 47.57 (40.31) |

下载：下载高分辨率图像（358KB）
下载：下载全尺寸图像

图15. 一维对流-扩散问题：比较了各种方法的平均相对L2测试误差（以百分比表示）。

4.5. 二维对流-扩散问题

现在，我们考虑由（2.2）给出的对流-扩散问题的解定义的算子，其中κ=10?3且c是以（0.75,0.75）为中心的涡旋，表示为（4.7）：c1=?5(y?0.75)exp1?(5(x?0.75))2?(5(y?0.75))22，c2=5(x?0.75)exp1?(5(x?0.75))2?(5(y?0.75))22。尽管c在空间上是变化的，但我们在所有样本上都固定了这个对流场。这个问题的速度场显示在图16中。训练和测试数据集是通过如4.1节所述选择强迫函数f来构建的。与之前考虑的一维对流-扩散问题不同，为这个2D问题构建一个手工制作的试验基是相当非平凡的。因此，我们提出了一种更系统的方法来选择试验基。我们选择生成一个225维的张量化三次B样条基，其节点向量被优化以最小化训练集上200个样本的投影误差。与一维对流-扩散问题一样，然后我们使用Gram–Schmidt过程将基转换为正交归一化的试验基。我们认为这对于生成适用于Φ选择不明显的问题的合适试验基通常是一个好方法。图17展示了试验基的前十六个基函数。请注意，这些函数是局部的，因为它们是由B样条给出的。

下载：下载高分辨率图像（287KB）
下载：下载全尺寸图像

图16. 二维对流-扩散解样本的速度场。c1和c2分别是速度场的x和y分量。‖c‖是速度的大小。红色箭头表示速度的方向。（关于此图例中颜色参考的解释，请参阅本文的网页版本。）注释4.2我们认为，构建试验基的上述策略并不会降低PG-VarMiON方法的自主性或通用性。其他流行的算子学习框架（如DeepONet）也会使用训练数据来学习合适的基。我们的方法将算子学习任务分为两个阶段：i）如果事先没有提供适当的试验基，则从训练数据中构建一个合适的试验基；ii）训练PG-VarMiON以确定当投影到试验空间时能够恢复最优偏微分方程（PDE）解的算子。后一阶段以无监督的方式近似最优权重函数。我们构建的PG-VarMiON中，N如第4.2节所述，具有6个隐藏层，层的宽度分别为[10,40,60,80,100,200]。然后使用该训练好的网络处理三个测试数据集。图18显示了相对L2测试误差的直方图（附带草图），其中我们还与相对有限维投影误差进行了比较。需要注意的是，与一维问题相比，偏离投影误差的程度更大。然而，这是意料之中的，因为我们在基函数数量（每个维度）上保持了与一维问题相同的分辨率，但现在处理的是更复杂的速度场。虽然这里没有显示，但我们观察到通过选择更大的试验基可以进一步减少PG-VarMiON的误差。下载：下载高分辨率图像（473KB）下载：下载全尺寸图像图17. 用于2D平流-扩散问题的前十六个试验基函数。这些是前四个1D B样条基1≤i,j≤4的张量积。接下来，我们将PG-VarMiON的性能与合适的L-DeepONet、BNet和FNO进行比较。表7比较了所有方法在每个测试数据集上的平均相对L2误差。我们注意到FNO在DATASET 1上的表现最好，其误差低于投影误差。当然，这是可能的，因为它在其结构中没有包含试验基Φ，因此不会有投影误差作为下限。然而，这种趋势在OOD测试数据上并不成立。FNO在DATASET 2上的表现较差，而在DATASET 3上的表现与PG-VarMiON类似。我们观察到PG-VarMiON和L-DeepONet（它学习的是一个225维的干线）在所有三个数据集上的表现相似，但PG-VarMiON的误差略低。不过请注意，PG-VarMiON使用的可训练参数数量是L-DeepONet的五分之一，而L-DeepOnet由于其架构中的B矩阵，至少具有与BNet相同数量的参数。与一维问题类似，BNet在前两个数据集上表现非常好，但在具有挑战性的DATASET 3上几乎无用。接下来，我们仔细研究了DATASET 3中的三个测试样本，其强迫函数显示在图19中，相应的解在图20中进行了比较。从这些等高线图中可以看出，参考解、投影解和PG-VarMiON解非常相似。BNet的解被省略了，因为它们基本上看起来像噪声（请注意表7中列出的DATASET 3上BNet的平均误差）。为了突出各种方法之间的相似性（和差异），我们还在图21中绘制了点误差图，这清楚地显示了PG-VarMiON的误差低于L-DeepONet。我们还在图22中绘制了沿1D切片的解。总体而言，所有方法都能捕捉到这些1D切片中参考解的形状。然而，我们观察到在某些区域，PG-VarMiON、L-DeepONet和FNO存在明显的误差，这清楚地表明了这个OOD数据集的挑战性。此外，我们注意到L-DeepONet和FNO的解可能包含低幅值的虚假振荡（见图22中y=0.51处的样本3切片）。最后，我们展示了使用nutils解决伴随问题计算出的预期权重函数（见图23），以及PG-VarMiON的近似值。我们观察到，尽管在训练过程中没有显示真实的Ψ，PG-VarMiON仍能够定性地学习到最优权重函数。表7. 2D平流-扩散问题：与各种方法相比的平均相对L2测试误差（以百分比表示）。误差的标准差在括号中。每个测试集的最低算子网络误差用粗体表示，低于投影误差的误差用*标记。方法参数数量DATASET 1DATASET 2DATASET 3投影1.74 (0.48)0.85 (0.33)2.20 (0.81)PG-VarMiON81 3352.47 (0.63)1.42 (0.35)4.44 (1.77)FNO81 2491.58* (0.40)3.69 (1.71)4.11 (1.39)L-DeepONet441 3353.32 (0.86)1.49 (0.38)5.76 (2.39)BNet360 0002.00 (0.54)2.06 (0.77)177.24 (75.26)下载：下载高分辨率图像（332KB）下载：下载全尺寸图像图18. 2D平流-扩散问题：直方图和草图显示了投影解u?和PG-VarMiON解u?的相对L2误差。每个数据集的平均误差在括号中显示。下载：下载高分辨率图像（309KB）下载：下载全尺寸图像图19. 三个测试样本的强迫函数的3D图及等高线。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图20. 三个测试样本的参考解、投影、PG-VarMiON、L-DeepONet和FNO近似的3D图及等高线。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图21. 三个测试样本的投影、PG-VarMiON、L-DeepONet和FNO近似的误差图。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图22. 三个测试样本的1D切片，包括参考解、投影、PG-VarMiON、L-DeepON和FNO近似。切片包括对角线x=y和反对角线x=1?y，以及线y=0.51、x=0.51。下载：下载高分辨率图像（935KB）下载：下载全尺寸图像图23. 对于前四个1D B样条基1≤i,j≤4的张量积函数，预期和PG-VarMiON的近似值。5. 结论在这项工作中，我们提出了一种新的框架，用于设计线性椭圆PDE的算子网络，通过模仿最优Petrov–Galerkin变分形式。这种变分形式的解是将PDE的无限维弱解投影到给定的有限维函数空间上，因此是最优投影的最好近似。如果我们能够明确构建最优权重函数集，就可以恢复这个最优解。然而，除了简单问题外，这些权重函数的构建是不可用的。所提出的PG-VarMiON模仿了PDE的对称化Petrov–Galerkin公式，并在给定源函数f和边界通量η的情况下恢复最优解。此外，通过在源函数和解对的数据集上进行训练，PG-VarMiON还能够无监督地学习最优基函数的结构。因此，PG-VarMiON能够超越现有算子学习框架，泛化到分布之外的数据。我们还推导出了泛化误差的显式估计，其下限是投影误差，上限是投影误差、由于有限维网络输入导致的求积误差以及权重函数近似误差的总和。以平流-扩散方程为例，我们展示了详细的数值结果，以证明我们方法的有效性。特别是，我们展示了：•给定一个好的试验基Φ(x)，PG-VarMiON能够准确近似最优（投影）解。•由于PG-VarMiON学习了权重函数的结构，它能够泛化到分布之外的样本，与其他流行的算子网络框架不同。•通过在网络中嵌入Petrov–Galerkin结构，我们构建了一种更易于解释的方法，同时在训练算子网络时显著降低了数据复杂性。如图8和图15所示，当训练数据稀缺时，PG-VarMiON可以显著优于其他基于深度学习的算子学习方法（包括FNO）。当训练数据来自昂贵的高保真数值求解器时，这一点尤其有用。此外，这种专有结构允许我们通过分配所有可训练权重来学习权重函数，从而控制网络的整体大小。在考虑2D问题时，这种大小优势尤为明显。基于PG-VarMiON框架，有几种扩展的可能性。首先，我们只考虑了源函数f（和η）变化的情况，保持所有其他参数（如扩散率κ和流速c）固定。因此，我们只需要为给定问题学习一组权重函数Ψ。然而，如果这些额外参数也发生变化，Ψ也需要相应地包含这些参数。因此，我们需要设计一个考虑Ψ随κ和c变化的PG-VarMiON。这种扩展将是即将发表的论文的重点，并将展示PG-VarMiON方法的真正优势。其次，解的质量取决于试验基Φ的选择。对于纯扩散问题，正弦基是一个很好的选择。然而，为更一般的PDE制定合适的Φ并不容易。在本工作中，我们还探讨了一种使用训练集的小子集系统地设计B样条试验基的方法。另一种值得探索的替代方法是使用DeepONet类型的方法学习基于网络的试验基，然后使用它来构建PG-VarMiON（即学习相应的最优权重函数）。最后，我们希望为非线性PDE设计PG-VarMiON类型的算子网络。作为一种可能性，我们设想使用迭代方法，结合牛顿-拉夫森方法中的线性化问题，其中线性问题继承了PG-VarMiON的结构。这些及相关扩展将在未来的工作中进行考虑。最终结论：为了获得高效且准确的PDE网络架构，我们认为基于变分方法对网络进行建模是明智且有益的，因为变分方法是获得PDE解的金标准方法。这就是PG-VarMiON的理念，而本文是朝这个方向迈出的一步。最终，我们的目标是将PG-VarMiON解收敛到所需范数中的最佳近似，并获得工程设计、制造、优化和逆问题应用所需的准确性和效率。CRediT作者贡献声明Philip Charles：数据管理、调查、软件开发、验证、可视化、初稿撰写、审稿与编辑。Deep Ray：概念化、形式分析、调查、方法论、软件开发、监督、初稿撰写、审稿与编辑。Yue Yu：调查、方法论、验证、初稿撰写、审稿与编辑。Joost Prins：软件开发、验证。Hugo Melchers：软件开发、验证。Michael R.A. Abdelmalik：概念化、方法论、审稿与编辑、监督。Jeffrey Cochran：软件开发、验证。Assad A. Oberai：概念化、形式分析、监督、审稿与编辑。Thomas J.R. Hughes：概念化、监督、初稿撰写、审稿与编辑。Mats G. Larson：概念化。

热点排行