编辑推荐:
本文系统回顾了柯尔莫哥洛夫-阿诺德网络(KANs)在科学机器学习(SciML)中的研究进展。与传统的多层感知机(MLPs)相比,KANs凭借其基于柯尔莫哥洛夫-阿诺德表示定理(KART)的网络结构,在可解释性、捕捉复杂非线性特征(如高频或局部特征)方面展现出显著优势。文章从数据驱动学习、物理信息建模和深度算子学习三个视角梳理了KANs的架构设计、训练策略与应用效能,并通过与MLPs的对比,凸显了KANs在精度、收敛性与谱表示等方面的持续改进。此外,综述也指出了KANs在计算效率、理论保证、超参数调优及算法复杂度等方面面临的挑战,并展望了未来的研究方向。
科学机器学习(SciML)领域正在经历一场静默的范式变革。长久以来,作为该领域主力的多层感知机(MLPs)虽功勋卓著,却难以摆脱其固有的局限:难以洞察的“黑箱”特性、一成不变的激活函数,以及在捕捉复杂、高维非线性关系时力不从心。这些挑战催生了对新架构的探索,而柯尔莫哥洛夫-阿诺德网络(KANs)的兴起,为突破这些瓶颈提供了一条源自经典数学定理的新路径。与MLPs将非线性置于神经元节点不同,KANs将可学习的非线性函数置于网络的“边”上,节点仅执行简单的求和运算,这种结构设计使其天生具备更佳的潜在可解释性。
柯尔莫哥洛夫-阿诺德表示定理
柯尔莫哥洛夫-阿诺德表示定理(KART)是KANs的数学基石。该定理指出,任何定义在n维单位立方体上的连续多元函数,都可以精确表示为有限个单变量连续函数的嵌套组合与求和。简而言之,复杂的多维世界,可以被拆解为一系列简单的一维变换的组合。这为函数逼近提供了强大的理论保证。然而,原始的KART是存在性定理,并未给出构造这些单变量函数的具体方法。KANs的诞生,正是为了将这一优美的数学表述,转化为一个可训练、可操作的神经网络架构。
柯尔莫哥洛夫-阿诺德网络
KANs将KART中的每个单变量函数参数化,例如使用B样条、高斯径向基函数或切比雪夫多项式等基函数的展开,其系数通过数据学习得到。这就将一个符号化的结构,转变成了一个计算图。最初的KAN结构对应KART的两层表示,但在实践中,这种浅层结构可能不足以学习复杂的映射。因此,研究者们将其扩展为更深、更宽的多层KAN架构,在保留维度自适应函数学习核心理念的同时,极大地增强了其表达能力。
KANs vs. MLPs
KANs与MLPs在架构上存在根本性差异。MLPs在每一层通过权重矩阵实现所有输入维度的全局线性混合,然后在每个神经元节点上施加一个固定的非线性激活函数(如ReLU)。而KANs则在网络的每条边上放置一个可学习的单变量函数,节点仅对来自不同边的结果进行求和。这种“边非线性、节点求和”的设计,带来了几大潜在优势:首先,它可能提供更高的参数效率,尤其是在目标函数具有可分离结构时;其次,可学习的单变量函数使其更易于可视化和解释,为理解模型决策过程打开了窗口;最后,在处理具有高频振荡或尖锐特征的问题时,KANs往往表现出更好的逼近能力。
单变量基函数的选择
基函数的选择是构建KAN的关键设计决策。经典的实现多采用B样条,因其具有良好的局部支持和平滑性。然而,不同基函数各有千秋:切比雪夫多项式(ChebKAN)擅长处理振荡剧烈的函数;高斯径向基函数(FastKAN)能实现快速计算;小波基函数(Wav-KAN)则能同时捕捉信号的高频和低频成分,实现多分辨率表示。基函数的灵活选择,使得KANs能够根据不同任务的特性和需求进行定制。
KANs的三大应用范式
综述从三个主要建模视角系统梳理了KANs的应用进展。
数据驱动学习:当物理机制未知、不完整或难以用方程描述时,数据驱动建模成为核心。KANs凭借其结构化的单变量函数组合,在数据有限的情况下,往往能比MLPs提供更稳定、更高效的训练和更优的泛化性能,在回归、分类等任务中展现出潜力。
物理信息建模:在已知物理定律(通常以偏微分方程PDEs形式表达)但求解困难(如几何不规则、高维、反问题)的场景下,物理信息学习通过将控制方程的残差作为损失项纳入训练,将物理约束嵌入模型。物理信息神经网络(PINNs)是此领域的代表,但常面临数值稳定性和训练效率的权衡。物理信息KANs(PIKANs)用KAN结构替代传统PINNs中的MLP主干网络,通过对解空间更精细的控制,有望更紧密地贴合底层物理,提升求解的精度和鲁棒性。
深度算子学习:深度算子学习旨在近似无穷维函数空间之间的映射,而不仅仅是点对点的映射。DeepONet是代表性架构,它通过“分支-主干”结构分别编码输入函数和输出位置。将KAN作为算子集成到此类框架中(如DeepOKAN),可以进一步提升模型在多变函数输入下的表达能力,降低样本复杂度,并在多保真度、物理信息等复杂设置中改善近似效果。
挑战与未来方向
尽管前景广阔,KANs的发展仍面临诸多挑战。计算效率是首要瓶颈,由于边上的函数需要精细的参数化,其训练和推理成本可能显著高于高度优化的MLP。理论保证尚不完善,需要更严格的逼近率、泛化误差和优化动态分析。超参数调优(如网格大小、基函数类型、深度宽度)过程复杂且缺乏指导原则。此外,高维可扩展性、网格无关建模以及开发高级基函数选择方案也是未来需要重点攻关的方向。
KANs的出现,标志着SciML领域模型架构与学习任务本质更深入的结合。无论是在纯粹的数据海洋中挖掘模式,还是在已知物理定律的指引下探索解空间,亦或是学习函数之间的复杂变换,KANs都提供了一种结构上更有洞察力、理论上更有依据的建模新选择。它架起了一座连接经典逼近理论与现代深度学习实践的桥梁,其发展有望推动科学机器学习迈向一个更高效、更透明、更可靠的新阶段。