基于残差门控自适应Kolmogorov-Arnold网络(RGA KAN)的物理信息机器学习新架构及其在偏微分方程求解中的应用

《Computer Methods in Applied Mechanics and Engineering》:Training deep physics-informed Kolmogorov–Arnold networks

【字体: 时间:2026年01月26日 来源:Computer Methods in Applied Mechanics and Engineering 7.3

编辑推荐:

  本文针对物理信息机器学习(PIML)中深度网络训练不稳定的挑战,提出了一种新型的残差门控自适应Kolmogorov-Arnold网络(RGA KAN)。该研究通过引入Glorot-like初始化方案和自适应训练策略,显著提升了深度KAN在求解Burgers方程、Allen-Cahn方程等偏微分方程时的精度和稳定性。结果表明,RGA KAN在多个基准测试中优于现有方法,误差降低达数个数量级,为复杂物理系统的深度学习模拟提供了新范式。

  
在科学计算和工程应用领域,求解偏微分方程(PDE)始终是核心挑战。传统数值方法如有限元法虽然成熟,但在处理高维问题或反问题时往往计算成本高昂。近年来,物理信息机器学习(PIML)崭露头角,它将物理定律以约束形式嵌入神经网络训练,无需大量标注数据即可求解PDE。然而,随着PIML研究深入,人们发现当使用多层感知机(MLP)作为基础架构时,网络深度增加会导致训练过程不稳定甚至发散,这严重制约了其解决复杂问题的能力。
为什么深度PIML模型会难以训练?究其根源,与模型初始化后梯度传播的动态特性密切相关。近期提出的Kolmogorov-Arnold网络(KAN)因其优于MLP的准确性和可解释性,为PIML带来了新的希望。但初代的KAN同样面临深度增加时性能下降的问题。本文发表于《Computer Methods in Applied Mechanics and Engineering》的研究,正是为了突破这一瓶颈。研究人员问道:能否为KAN设计一种新的架构和初始化方法,使其在变深时保持稳定且高效?
为了回答这个问题,研究团队提出了一种名为残差门控自适应KAN(RGA KAN)的新架构。它并非对KAN的简单修补,而是一个系统性的创新。首先,作者借鉴深度学习中的经典Glorot初始化思想,为KAN量身定制了一套初始化方案,旨在确保信号在前向传播和梯度在反向传播中的方差保持稳定,为深度训练打下坚实基础。其次,也是最具创新性的部分,是引入了受PirateNet启发的残差门控自适应(RGA)机制。该机制在网络的每一层(或每个构建块)引入了可学习的门控参数,这些参数能够动态调节跳过连接(skip connection)的强度,从而让网络在训练过程中自适应地调整其有效深度,避免梯度消失或爆炸。
研究人员将这一新架构应用于一系列经典的PDE基准问题,包括Burgers方程、Allen-Cahn方程和Helmholtz方程,并与传统的物理信息KAN(cPIKAN)以及先进的PirateNet等现有方法进行了全面对比。理论分析方面,他们运用信息瓶颈(Information Bottleneck, IB)理论深入剖析了不同架构的训练动态,揭示了RGA KAN能够成功穿越“拟合”(fitting)、“扩散”(diffusion)并最终到达“扩散平衡”(diffusion equilibrium)阶段的关键,而其他架构则往往停滞在前中期阶段,无法实现真正的泛化。
在关键技术方法上,本研究主要依托以下几点:首先,构建了基于切比雪夫(Chebyshev)多项式的KAN作为基础计算单元,替代了标准MLP中的线性变换与固定激活函数组合。其次,设计了包含可学习参数(α, β)的残差门控自适应(RGA)块,用于动态控制信息流。此外,采用了物理信息机器学习(PIML)的统一训练框架,通过组合PDE残差、初始条件和边界条件残差的损失函数来优化网络。训练过程中还结合了自适应加权策略(如基于损失的注意力机制RBA、基于残差的自适应分布RAD等)以提升训练效率。
研究结果
RGA KAN架构设计与初始化策略的有效性验证
通过系统性的数值实验,研究发现新提出的Glorot-like初始化方案相较于KAN常用的默认初始化方法,在函数拟合和PDE求解任务上均能带来显著且一致的性能提升。对于复杂的二维函数和三维Hartmann函数,新初始化方法甚至能将最终相对L2误差降低近两个数量级。这表明所提出的初始化策略能有效为KAN训练提供一个更稳定、更有利的起点。
深度网络训练稳定性突破
在求解Burgers方程和Allen-Cahn方程时,研究重点考察了网络深度增加对性能的影响。结果清晰地表明,传统的cPIKAN在隐藏层数超过4层后便出现训练发散,相对误差达到O(1)量级。相比之下,相同深度的RGA KAN不仅训练稳定,还能获得低至O(10-3)至O(10-4)的相对误差,优势极其明显。即使对于更具挑战性的Allen-Cahn方程,RGA KAN也展现出更好的稳定性,虽然其性能随深度增加亦有所衰减,但远未达到发散的程度。
信息瓶颈理论下的训练动态洞察
研究利用信息瓶颈理论分析了训练过程。结果显示,成功的RGA KAN训练会经历三个清晰的阶段:初始的“拟合”阶段,模型主要记忆训练数据;随后的“扩散”阶段,模型开始探索并学习泛化;以及最终的“扩散平衡”阶段,模型预测误差急剧下降,残差趋于随机噪声,标志着模型获得了良好的泛化能力。而训练失败的cPIKAN则无法进入最终的平衡阶段,其信号噪声比(SNR)持续剧烈震荡,几何复杂度提前饱和,导致模型“被困”在欠佳的解中。
综合性能基准测试
在统一的超参数设置下,研究对RGA KAN、cPIKAN和PirateNet在多个PDE问题上进行了公平比较。结果表明,RGA KAN在Burgers、Allen-Cahn和Helmholtz方程上均取得了最佳的整体性能,其精度显著优于PirateNet,且稳定性远胜于cPIKAN。这证明了RGA KAN架构在处理不同特性PDE方面的有效性和鲁棒性。
研究结论与意义
本研究系统地论证了所提出的残差门控自适应KAN(RGA KAN)架构及其配套的初始化策略,能够有效解决物理信息机器学习中深度网络训练不稳定的核心难题。理论分析和大量数值实验均表明,RGA KAN在保持KAN原有高精度和可解释性优势的同时,引入了关键的训练稳定性,使其能够成功训练更深的网络,从而有望解决更复杂的科学计算问题。
该研究的重要意义在于:其一,它首次将自适应深度控制机制(源于PirateNet)与新型的KAN架构成功融合,为PIML领域提供了一种兼具强大表达能力和训练稳定性的新工具。其二,它通过信息瓶颈理论等工具对训练动态进行了深入解读,为理解深度PIML模型的优化行为提供了新的视角,超越了单纯依赖实验观察的层面。其三,所提出的方法具有通用性,不依赖于特定PDE的形式,为应用于更广泛的科学发现和工程仿真问题铺平了道路。
总之,这项工作不仅是KAN在PIML应用中的重要进展,也为整个科学机器学习社区如何构建和训练更可靠、更强大的深度模型提供了宝贵的设计原则和实践方案。未来,此架构有望拓展至逆问题、参数识别和高维PDE等更具挑战性的场景中。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号