基于残差门控自适应Kolmogorov-Arnold网络（RGA KAN）的物理信息机器学习新架构及其在偏微分方程求解中的应用

《Computer Methods in Applied Mechanics and Engineering》：Training deep physics-informed Kolmogorov–Arnold networks

【字体：大中小】 时间：2026年01月26日 来源：Computer Methods in Applied Mechanics and Engineering 7.3

编辑推荐：

　　本文针对物理信息机器学习（PIML）中深度网络训练不稳定的挑战，提出了一种新型的残差门控自适应Kolmogorov-Arnold网络（RGA KAN）。该研究通过引入Glorot-like初始化方案和自适应训练策略，显著提升了深度KAN在求解Burgers方程、Allen-Cahn方程等偏微分方程时的精度和稳定性。结果表明，RGA KAN在多个基准测试中优于现有方法，误差降低达数个数量级，为复杂物理系统的深度学习模拟提供了新范式。

在科学计算和工程应用领域，求解偏微分方程（PDE）始终是核心挑战。传统数值方法如有限元法虽然成熟，但在处理高维问题或反问题时往往计算成本高昂。近年来，物理信息机器学习（PIML）崭露头角，它将物理定律以约束形式嵌入神经网络训练，无需大量标注数据即可求解PDE。然而，随着PIML研究深入，人们发现当使用多层感知机（MLP）作为基础架构时，网络深度增加会导致训练过程不稳定甚至发散，这严重制约了其解决复杂问题的能力。

为什么深度PIML模型会难以训练？究其根源，与模型初始化后梯度传播的动态特性密切相关。近期提出的Kolmogorov-Arnold网络（KAN）因其优于MLP的准确性和可解释性，为PIML带来了新的希望。但初代的KAN同样面临深度增加时性能下降的问题。本文发表于《Computer Methods in Applied Mechanics and Engineering》的研究，正是为了突破这一瓶颈。研究人员问道：能否为KAN设计一种新的架构和初始化方法，使其在变深时保持稳定且高效？

为了回答这个问题，研究团队提出了一种名为残差门控自适应KAN（RGA KAN）的新架构。它并非对KAN的简单修补，而是一个系统性的创新。首先，作者借鉴深度学习中的经典Glorot初始化思想，为KAN量身定制了一套初始化方案，旨在确保信号在前向传播和梯度在反向传播中的方差保持稳定，为深度训练打下坚实基础。其次，也是最具创新性的部分，是引入了受PirateNet启发的残差门控自适应（RGA）机制。该机制在网络的每一层（或每个构建块）引入了可学习的门控参数，这些参数能够动态调节跳过连接（skip connection）的强度，从而让网络在训练过程中自适应地调整其有效深度，避免梯度消失或爆炸。

研究人员将这一新架构应用于一系列经典的PDE基准问题，包括Burgers方程、Allen-Cahn方程和Helmholtz方程，并与传统的物理信息KAN（cPIKAN）以及先进的PirateNet等现有方法进行了全面对比。理论分析方面，他们运用信息瓶颈（Information Bottleneck, IB）理论深入剖析了不同架构的训练动态，揭示了RGA KAN能够成功穿越“拟合”（fitting）、“扩散”（diffusion）并最终到达“扩散平衡”（diffusion equilibrium）阶段的关键，而其他架构则往往停滞在前中期阶段，无法实现真正的泛化。

在关键技术方法上，本研究主要依托以下几点：首先，构建了基于切比雪夫（Chebyshev）多项式的KAN作为基础计算单元，替代了标准MLP中的线性变换与固定激活函数组合。其次，设计了包含可学习参数（α, β）的残差门控自适应（RGA）块，用于动态控制信息流。此外，采用了物理信息机器学习（PIML）的统一训练框架，通过组合PDE残差、初始条件和边界条件残差的损失函数来优化网络。训练过程中还结合了自适应加权策略（如基于损失的注意力机制RBA、基于残差的自适应分布RAD等）以提升训练效率。

研究结果

RGA KAN架构设计与初始化策略的有效性验证

通过系统性的数值实验，研究发现新提出的Glorot-like初始化方案相较于KAN常用的默认初始化方法，在函数拟合和PDE求解任务上均能带来显著且一致的性能提升。对于复杂的二维函数和三维Hartmann函数，新初始化方法甚至能将最终相对L²误差降低近两个数量级。这表明所提出的初始化策略能有效为KAN训练提供一个更稳定、更有利的起点。

深度网络训练稳定性突破

在求解Burgers方程和Allen-Cahn方程时，研究重点考察了网络深度增加对性能的影响。结果清晰地表明，传统的cPIKAN在隐藏层数超过4层后便出现训练发散，相对误差达到O(1)量级。相比之下，相同深度的RGA KAN不仅训练稳定，还能获得低至O(10^-3)至O(10^-4)的相对误差，优势极其明显。即使对于更具挑战性的Allen-Cahn方程，RGA KAN也展现出更好的稳定性，虽然其性能随深度增加亦有所衰减，但远未达到发散的程度。

信息瓶颈理论下的训练动态洞察

研究利用信息瓶颈理论分析了训练过程。结果显示，成功的RGA KAN训练会经历三个清晰的阶段：初始的“拟合”阶段，模型主要记忆训练数据；随后的“扩散”阶段，模型开始探索并学习泛化；以及最终的“扩散平衡”阶段，模型预测误差急剧下降，残差趋于随机噪声，标志着模型获得了良好的泛化能力。而训练失败的cPIKAN则无法进入最终的平衡阶段，其信号噪声比（SNR）持续剧烈震荡，几何复杂度提前饱和，导致模型“被困”在欠佳的解中。

综合性能基准测试

在统一的超参数设置下，研究对RGA KAN、cPIKAN和PirateNet在多个PDE问题上进行了公平比较。结果表明，RGA KAN在Burgers、Allen-Cahn和Helmholtz方程上均取得了最佳的整体性能，其精度显著优于PirateNet，且稳定性远胜于cPIKAN。这证明了RGA KAN架构在处理不同特性PDE方面的有效性和鲁棒性。

研究结论与意义

本研究系统地论证了所提出的残差门控自适应KAN（RGA KAN）架构及其配套的初始化策略，能够有效解决物理信息机器学习中深度网络训练不稳定的核心难题。理论分析和大量数值实验均表明，RGA KAN在保持KAN原有高精度和可解释性优势的同时，引入了关键的训练稳定性，使其能够成功训练更深的网络，从而有望解决更复杂的科学计算问题。

该研究的重要意义在于：其一，它首次将自适应深度控制机制（源于PirateNet）与新型的KAN架构成功融合，为PIML领域提供了一种兼具强大表达能力和训练稳定性的新工具。其二，它通过信息瓶颈理论等工具对训练动态进行了深入解读，为理解深度PIML模型的优化行为提供了新的视角，超越了单纯依赖实验观察的层面。其三，所提出的方法具有通用性，不依赖于特定PDE的形式，为应用于更广泛的科学发现和工程仿真问题铺平了道路。

总之，这项工作不仅是KAN在PIML应用中的重要进展，也为整个科学机器学习社区如何构建和训练更可靠、更强大的深度模型提供了宝贵的设计原则和实践方案。未来，此架构有望拓展至逆问题、参数识别和高维PDE等更具挑战性的场景中。

热点排行