CDadam:一种用于物理信息神经网络的中心差分Adam算法

《Neurocomputing》:CDadam: Central difference adam algorithm for physics-informed neural networks

【字体: 时间:2026年02月10日 来源:Neurocomputing 6.5

编辑推荐:

  提出中心差分Adam算法(CDadam),通过替换Adam的一阶前向差分为高精度中心差分,解决梯度估计偏差问题,理论证明其收敛性并验证在PINNs中应用效果优于Adam等主流优化器,提升模型精度和鲁棒性。

  
赵梦佳|沈玉秋|马吉德·艾哈迈德·汗|娄远正|戴芳丹|翁家成|王建红
中国江苏省南通市南通大学数学与统计学院,226019

摘要

在深度学习中,梯度估计的准确性直接影响优化器的收敛行为和模型的最终性能。作为代表性的自适应优化器,Adam在处理稀疏梯度方面表现出色,但它依赖于一阶梯度近似,这使得它容易受到随机噪声和单边估计误差的影响。这些问题可能会减慢收敛速度或导致参数更新失真。为了解决这些限制,我们提出了中心差分Adam算法(CDAdam),该算法将中心差分集成到Adam的梯度计算过程中。我们对CDAdam进行了理论分析,并通过数值模拟证明,CDAdam不仅收敛速度快,而且具有高精度和全局收敛能力。然后,将CDAdam算法应用于物理信息神经网络(PINNs)来求解多个偏微分方程。结果表明,所提出的CDAdam比其他四种主流优化器具有更高的准确性和鲁棒性。CDAdam的代码可在https://github.com/LYZ-NTU/CDadam-algorithm/tree/main获取。

引言

近年来,深度学习在计算机视觉[1]、[2]和自然语言处理[3]、[4]领域取得了突破,并逐渐渗透到科学计算[5]、[6]领域。物理信息神经网络(PINNs)[7]作为一种解决复杂物理系统问题的代表性范式应运而生。与依赖于大规模标记数据集的数据驱动深度学习模型不同,PINNs直接将偏微分方程(PDEs)的约束嵌入到损失函数中。这种独特的设计使PINNs能够对流体动力学[8]、[9]、热传递[10]、[11]和电磁学[12]、[13]等复杂物理系统进行建模和求解。
然而,PINNs的可靠性从根本上受到梯度计算准确性的限制,而梯度计算对于评估PDE残差至关重要。神经网络[14]、[15]、[16]固有的光谱偏差使得它们在估计高阶导数时容易出错,特别是对于具有高频或多尺度特征的解。为了解决与梯度计算准确性相关的这一核心挑战,现有研究提出了多种改进策略。例如,VS-PINN[17]引入了基于神经 tangent 核(NTK)的可变缩放技术和优化策略。这些方法有助于抵消梯度误差放大并提高训练性能。XPINN[18]利用了广义时空域分解方法,它结合了子域特定的子网络和界面连续性约束,从而增强了局部梯度稳定性和对复杂几何形状和高频特征的适应性。NAS-PINN[19]通过双层优化自动搜索最优的PDE求解架构。这一过程涉及混合操作和掩蔽,有效地整合了空间信息。PMTPINNs[20]合并了初始边界域并增加了rogue wave sharp-region采样,解决了原始PINNs由于梯度不稳定而无法模拟cmKdV方程高阶rogue wave的问题。gPINNs[21]将PDE残差的梯度信息嵌入到损失函数中。这些发展表明,高精度梯度估计不仅仅是渐进式的改进,而是PINNs可靠求解复杂PDEs的基础要求。
同时,越来越多的研究表明稳定梯度在实际应用中的重要性。Liu等人[22]通过将PINN架构与血流模型结合,提出了AW-vsPINN,提高了预测准确性和泛化能力。Kapoor等人[23]利用因果PINN和迁移学习来处理束动力学问题,利用时间梯度约束来增强泛化能力。Rodrigues等人[24]优化了低维弹性问题中的超参数,以提高高维场景下的准确性和效率。Wang等人[25]依靠稳定的梯度学习实现了高保真度的电池预测。这些多样化的应用表明,跨领域的成功PINN实现必须有效管理梯度计算挑战。
像大多数深度学习模型一样,PINNs的训练依赖于优化算法来最小化损失函数。随机梯度下降(SGD)[26]及其许多变体[27]主导了这一过程。其中,Adam算法[28]因其自适应学习率机制而成为最广泛使用的优化器之一,在复杂的非凸优化场景中表现出出色的收敛效率。在过去几年中,出现了几种Adam优化器的变体,以解决其局限性并提高其性能。例如,Amsgrad[29]限制了二阶动量的历史最大值,以防止学习率过早衰减。BGE-Adam[30]采用动态调整和熵加权来处理复杂的训练场景。其他变体,如LBFGS-Adam(LA)[31],整合了来自二阶优化方法的概念。除了性能之外,ADAM-DPGAN[32]还为GAN训练引入了差分隐私等机制。然而,这些改进几乎都针对计算机视觉和自然语言处理等传统领域。它们没有考虑到PINNs对高精度梯度估计的独特需求。
现有Adam变体用于PINNs的梯度估计器存在一个关键瓶颈。在计算PDE残差的高阶导数时,这些优化器通常依赖于数值微分,最常见的是前向差分[33]、[34]。前向差分通过单边扰动计算梯度,具有一阶数值精度,这意味着截断误差与扰动步长成正比。相比之下,中心差分方法[35]、[36]采用双边扰动,具有二阶数值精度,通常提供更准确的梯度估计。不幸的是,在PINNs框架中,如果使用前向差分进行梯度估计,现有Adam变体[37]的一阶精度近似误差可能会被显著放大:精确满足PDE约束要求高精度地计算导数,而梯度估计的偏差可能导致损失函数无法准确描述真实的物理约束[38]、[39],这最终可能损害模型的收敛性能和泛化能力[40]。
此外,现有优化算法在PINN场景中的理论基础仍然不足。实际上,收敛性分析一直是优化算法研究的重要基础。例如,Shamir等人[41]建立了SGD在非光滑凸优化中的收敛速率,其中是迭代总数。Xu等人[42]在非凸设置下分析了一种基于惩罚的RMSPropW算法,得出了在有界梯度和权重假设下的收敛保证。同样,Yang等人[43]证明了他们的NewAdam算法的收敛速率。Jiang等人[44]进一步提出了UAdam,统一了几种自适应方法,并证明了其在随机非凸优化中收敛到静止点附近的能力。然而,这些分析没有考虑梯度估计误差对收敛性的影响,而这是PINNs不可避免的特点。因此,现有优化器在PINN训练中的有效性缺乏有针对性的理论支持,理论与实践之间存在显著差距。
鉴于PINNs对导数计算误差高度敏感,这一挑战激发了我们寻找高精度梯度估计方法的动力。中心差分方法以其卓越的数值精度而闻名,这一点在先前的工作中已经得到证实[45]。受此优势的启发,我们提出了CDadam(中心差分Adam)优化器,它用高精度的中心差分方案替换了Adam中的梯度估计器。这一关键修改预计将显著提高梯度计算的准确性[46]、[47]。同时,当前研究在以下领域存在明显差距:在算法设计层面,尚未系统探索CDAdam的算法设计原则、收敛保证及其实际效果。在验证层面,缺乏关于CDAdam在PINNs中性能的实证研究,特别是在解决典型PDE问题时对解决方案预测准确性和PDE残差等关键指标的影响方面。
为了解决上述问题,本文重点关注CDAdam算法,其核心思想是用中心差分替换Adam的梯度估计,提高梯度精度并验证其在PINNs中的有效性。本文的其余部分组织如下:第2节系统回顾了PINNs的基本原理、经典优化算法和现有的梯度估计方法。第3节提出了CDAdam算法,推导了迭代过程,并对其收敛性进行了理论分析。第4节通过多个函数优化任务验证了CDAdam的优化性能,并将其与其他算法进行了定量比较。第5节将CDAdam应用于具有多个典型PDE的PINNs,并评估了算法的性能。第6节总结了整个工作。

部分摘录

物理信息神经网络

PINNs将PDEs嵌入神经网络的损失函数中,并利用自动微分无缝整合数据和控制PDEs的信息。这种方法的核心在于损失函数的设计,它不仅包括来自神经网络训练本身的数据误差项,还特别纳入了受数学物理方程约束的残差误差项。这确保了模型不仅能够拟合数据

CDadam算法

Adam使用一阶前向差分来估计梯度,这会产生的数值近似误差。为了解决Adam中的梯度估计偏差,我们提出了中心差分Adam(CDAdam),其中标准的一阶梯度被中心差分梯度所替代,以实现更高的梯度计算精度。
从概念上讲,用中心差分梯度替换一阶梯度是直接的,因为中心差分提供了的精度

数值实验

在本节中,将CDAdam算法与Adam及其变体(包括Adamax、Nadam和Amsgrad)进行了比较。通过多个示例验证了CDAdam算法的有效性。

在PINNs上的应用

为了全面验证所提出的CDAdam,我们选择了七个涵盖不同数学类型和物理现象的代表性PDEs。CDAdam在PINNs中的集成通过图14中的流程图进行了说明。以下小节介绍了这些PDEs并展示了它们的解决性能。在我们的实验中,我们使用了激活函数,CDAdam中引入的超参数被固定为0.01,神经网络架构详细信息见表5。

结论

本文提出了一种自适应优化器CDAdam,它用中心差分公式替换了传统的Adam梯度。理论分析表明,CDAdam算法确保了收敛性,同时提供了更精确的梯度方向估计。
在基准测试函数上的实验结果表明,CDAdam算法相比几种现有的主流算法具有更快的收敛速度和更高的解决方案准确性,表现出特别强的

CRediT作者贡献声明

赵梦佳:撰写——审稿与编辑,撰写——初稿,可视化,软件,资源,方法论,调查,形式分析,数据整理,概念化。沈玉秋:撰写——审稿与编辑,撰写——初稿,可视化,软件,方法论,调查,数据整理,概念化。马吉德·艾哈迈德·汗:撰写——审稿与编辑,撰写——初稿,验证,软件,方法论,数据整理,概念化。娄远正:撰写

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢匿名审稿人的建设性意见和评论,这些评论显著改进了本文。本工作得到了中国国家自然科学基金(项目编号62473215)的支持。
王建红于2000年在中国江苏师范大学获得数学和应用数学学士学位,2007年在中国上海交通大学获得运筹学与控制理论硕士学位,2016年在中国南京航空航天大学获得控制理论与控制工程博士学位。2015年,他曾是美国加州大学默塞德分校工程学院的访问学者。他目前
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号