《Journal of Computational Physics》:An operator learning method for solving partial differential equations: From transformer to adaptive low-rank resnet-type network
编辑推荐:
提出自适应低秩ResNet型网络(ALRN),利用相关矩阵低秩特性降低计算复杂度,在Burgers方程、Darcy流等四类PDE问题中验证其高效性及参数优势。
Jingfei Chen | Minxin Chen | Jingrun Chen
数学科学学院,苏州大学,中国江苏省苏州市,215006
摘要
Transformer在多种自然语言处理任务中表现出色。其应用范围已扩展到偏微分方程领域,由此产生了两种新型模型:Fourier和Galerkin。然而,Transformer中内置的自注意力模块对于输入序列长度$n$的计算复杂度为二次方,正如在Fourier模型中所观察到的那样,这导致长输入序列时会产生较大的计算开销。详细分析表明,自注意力机制中的相关矩阵具有低秩特性。我们将这一结构融入网络架构中,使得自注意力机制退化为一种自适应的低秩ResNet类型网络(ALRN)。该网络能够自适应地捕捉相关矩阵的秩。因此,ALRN模型的计算复杂度为,而Fourier模型的计算复杂度为O(n^2d),Galerkin模型的计算复杂度为O(12nd),其中$k$表示相关矩阵的秩,$d$表示特征空间的维度。在参数空间方面,值得注意的是,Fourier和Galerkin方法需要较高的计算资源(计算复杂度为$O(d^3)$),而ALRN模型的计算复杂度较低(计算复杂度为$O(d^2 + 2nd + kn)$)。因此,在某些情况下,ALRN模型具有明显优势。针对Burgers方程、Darcy流动、Darcy流动的逆系数识别以及Navier-Stokes方程的数值结果表明,ALRN模型在保持准确性的同时具有更高的效率,并且所需的参数更少。
章节摘录
引言
深度神经网络(DNN)在自然语言处理和计算机视觉领域取得了显著成功,这得益于它们强大的表示能力。近年来,将DNN应用于偏微分方程(PDE)的问题日益受到关注,这一点在[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]等文献中得到了证明。传统方法(如有限元方法[11]和有限差分方法[12])需要网格划分
方法论
基于机器学习方法解决算子学习问题通常涉及三个关键组成部分:使用神经网络结构定义待逼近的算子,指定要优化的损失函数,以及采用优化方法找到最优参数。我们使用标准的Adam优化器来解决优化问题。后续章节将概述算子学习问题及其相关的损失函数。
自适应低秩ResNet类型网络
在训练阶段之后,我们根据[25]中的结果对相关矩阵应用SVD(奇异值分解)。得到的奇异值按降序排列,图3中仅显示了前25个值,其中大多数值相对较小。例如,在Burgers方程的情况下(图3的左上角),只有三个奇异值显著非零。这一明显的观察结果凸显了相关矩阵的低秩特性。
数值结果
在本节中,我们展示了ALRN在四个基准问题上的表现:Burgers方程、Darcy流动、Darcy流动的逆系数识别以及Navier-Stokes方程。对于每个问题,我们评估了不同注意力层(包括Fourier、Galerkin和ALRN)的性能,并将其与其他基线模型(如FNO和UNet)进行了比较。所有模型都训练了500个周期,以确保公平和一致的比较
结论
在这项工作中,我们提出了一种用于偏微分方程算子学习任务的自适应低秩ResNet类型网络(ALRN)。它以完全自适应的方式利用了相关矩阵的低秩特性,并且相对于输入序列的长度具有线性复杂度。我们测试了四个问题,包括Burgers方程、Darcy流动、Darcy流动的逆系数识别问题以及Navier-Stokes方程。结果表明,ALRN模型
CRediT作者贡献声明
Jingfei Chen:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,方法论,研究,形式分析,概念化。Minxin Chen:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,监督,方法论,研究,资金获取,形式分析,概念化。Jingrun Chen:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,监督,方法论,研究,形式分析
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所报告的工作