近年来,深度学习在计算机视觉[1]、[2]和自然语言处理[3]、[4]领域取得了突破,并逐渐渗透到科学计算[5]、[6]领域。物理信息神经网络(PINNs)[7]作为一种解决复杂物理系统问题的代表性范式应运而生。与依赖于大规模标记数据集的数据驱动深度学习模型不同,PINNs直接将偏微分方程(PDEs)的约束嵌入到损失函数中。这种独特的设计使PINNs能够对流体动力学[8]、[9]、热传递[10]、[11]和电磁学[12]、[13]等复杂物理系统进行建模和求解。
然而,PINNs的可靠性从根本上受到梯度计算准确性的限制,而梯度计算对于评估PDE残差至关重要。神经网络[14]、[15]、[16]固有的光谱偏差使得它们在估计高阶导数时容易出错,特别是对于具有高频或多尺度特征的解。为了解决与梯度计算准确性相关的这一核心挑战,现有研究提出了多种改进策略。例如,VS-PINN[17]引入了基于神经 tangent 核(NTK)的可变缩放技术和优化策略。这些方法有助于抵消梯度误差放大并提高训练性能。XPINN[18]利用了广义时空域分解方法,它结合了子域特定的子网络和界面连续性约束,从而增强了局部梯度稳定性和对复杂几何形状和高频特征的适应性。NAS-PINN[19]通过双层优化自动搜索最优的PDE求解架构。这一过程涉及混合操作和掩蔽,有效地整合了空间信息。PMTPINNs[20]合并了初始边界域并增加了rogue wave sharp-region采样,解决了原始PINNs由于梯度不稳定而无法模拟cmKdV方程高阶rogue wave的问题。gPINNs[21]将PDE残差的梯度信息嵌入到损失函数中。这些发展表明,高精度梯度估计不仅仅是渐进式的改进,而是PINNs可靠求解复杂PDEs的基础要求。
同时,越来越多的研究表明稳定梯度在实际应用中的重要性。Liu等人[22]通过将PINN架构与血流模型结合,提出了AW-vsPINN,提高了预测准确性和泛化能力。Kapoor等人[23]利用因果PINN和迁移学习来处理束动力学问题,利用时间梯度约束来增强泛化能力。Rodrigues等人[24]优化了低维弹性问题中的超参数,以提高高维场景下的准确性和效率。Wang等人[25]依靠稳定的梯度学习实现了高保真度的电池预测。这些多样化的应用表明,跨领域的成功PINN实现必须有效管理梯度计算挑战。
像大多数深度学习模型一样,PINNs的训练依赖于优化算法来最小化损失函数。随机梯度下降(SGD)[26]及其许多变体[27]主导了这一过程。其中,Adam算法[28]因其自适应学习率机制而成为最广泛使用的优化器之一,在复杂的非凸优化场景中表现出出色的收敛效率。在过去几年中,出现了几种Adam优化器的变体,以解决其局限性并提高其性能。例如,Amsgrad[29]限制了二阶动量的历史最大值,以防止学习率过早衰减。BGE-Adam[30]采用动态调整和熵加权来处理复杂的训练场景。其他变体,如LBFGS-Adam(LA)[31],整合了来自二阶优化方法的概念。除了性能之外,ADAM-DPGAN[32]还为GAN训练引入了差分隐私等机制。然而,这些改进几乎都针对计算机视觉和自然语言处理等传统领域。它们没有考虑到PINNs对高精度梯度估计的独特需求。
现有Adam变体用于PINNs的梯度估计器存在一个关键瓶颈。在计算PDE残差的高阶导数时,这些优化器通常依赖于数值微分,最常见的是前向差分[33]、[34]。前向差分通过单边扰动计算梯度,具有一阶数值精度,这意味着截断误差与扰动步长成正比。相比之下,中心差分方法[35]、[36]采用双边扰动,具有二阶数值精度,通常提供更准确的梯度估计。不幸的是,在PINNs框架中,如果使用前向差分进行梯度估计,现有Adam变体[37]的一阶精度近似误差可能会被显著放大:精确满足PDE约束要求高精度地计算导数,而梯度估计的偏差可能导致损失函数无法准确描述真实的物理约束[38]、[39],这最终可能损害模型的收敛性能和泛化能力[40]。
此外,现有优化算法在PINN场景中的理论基础仍然不足。实际上,收敛性分析一直是优化算法研究的重要基础。例如,Shamir等人[41]建立了SGD在非光滑凸优化中的收敛速率,其中是迭代总数。Xu等人[42]在非凸设置下分析了一种基于惩罚的RMSPropW算法,得出了在有界梯度和权重假设下的收敛保证。同样,Yang等人[43]证明了他们的NewAdam算法的收敛速率。Jiang等人[44]进一步提出了UAdam,统一了几种自适应方法,并证明了其在随机非凸优化中收敛到静止点附近的能力。然而,这些分析没有考虑梯度估计误差对收敛性的影响,而这是PINNs不可避免的特点。因此,现有优化器在PINN训练中的有效性缺乏有针对性的理论支持,理论与实践之间存在显著差距。
鉴于PINNs对导数计算误差高度敏感,这一挑战激发了我们寻找高精度梯度估计方法的动力。中心差分方法以其卓越的数值精度而闻名,这一点在先前的工作中已经得到证实[45]。受此优势的启发,我们提出了CDadam(中心差分Adam)优化器,它用高精度的中心差分方案替换了Adam中的梯度估计器。这一关键修改预计将显著提高梯度计算的准确性[46]、[47]。同时,当前研究在以下领域存在明显差距:在算法设计层面,尚未系统探索CDAdam的算法设计原则、收敛保证及其实际效果。在验证层面,缺乏关于CDAdam在PINNs中性能的实证研究,特别是在解决典型PDE问题时对解决方案预测准确性和PDE残差等关键指标的影响方面。
为了解决上述问题,本文重点关注CDAdam算法,其核心思想是用中心差分替换Adam的梯度估计,提高梯度精度并验证其在PINNs中的有效性。本文的其余部分组织如下:第2节系统回顾了PINNs的基本原理、经典优化算法和现有的梯度估计方法。第3节提出了CDAdam算法,推导了迭代过程,并对其收敛性进行了理论分析。第4节通过多个函数优化任务验证了CDAdam的优化性能,并将其与其他算法进行了定量比较。第5节将CDAdam应用于具有多个典型PDE的PINNs,并评估了算法的性能。第6节总结了整个工作。