综述：从逼近论视角看机器学习

《Neural Networks》：An Approximation Theory Perspective on Machine Learning

【字体：大中小】 时间：2026年03月15日 来源：Neural Networks 6.3

编辑推荐：

　　这篇综述深入探讨了逼近论与机器学习理论框架之间的关联。文章指出，尽管函数逼近是机器学习的核心数学问题，但逼近论并未在其理论基石中占据中心地位。这种割裂导致我们常常难以评估训练模型在未知或未标记数据上的泛化能力。作者通过回顾现有机器学习框架的不足，分析了理论与实践中产生鸿沟的原因，并重点探讨了浅/深层网络、流形上的逼近、物理信息神经代理、神经算子和Transformer架构等新兴趋势。本文致力于弥合这一裂痕，为相关研究指明方向。

引言

机器学习正日益渗透现代生活的方方面面，从扫地机器人到月球着陆，从救死扶伤的外科手术到攻击敌方目标的无人机。这个领域的核心目标是复制并超越人类的学习能力。人类学习通常包括观察多个样本并将其与标签或预测相关联。例如，我们观察周围的各种物体，如花朵、小鸟、猫咪、小狗和月亮。即使没有外部指导，我们也能区分这些物体，虽然偶尔会有些混淆。之后，有人会教我们这些物体的名称。这种独立识别它们的过程被称为无监督学习，而为这些物体分配标签的过程则被称为有监督学习。泛化则是指正确标记那些之前未见但类似于先前见过物体的能力。

更形式化地，机器学习的中心问题可描述如下。存在一个未知的概率分布 τ，所有我们感兴趣的对象 x 及其对应的标签 y 都从中抽取。实践中，这个分布是未知的。我们只能观察到一个样本集 {(x_j, y_j)}_j=1^M（称为训练数据）。挑战在于从这些样本中泛化，以预测新数据点 x 的标签 y。数学上，这可以表述为寻找目标函数 f(x) = E_τ(y | x) 的近似。我们的目标是基于给定的训练数据来近似 f，这可以表达为 y_j= f(x_j) + ?_j，其中 ?_j代表一个均值为零的未知随机变量的实现。

在学术研究中，当 y 可以取的值的集合是有限集时，该问题被称为分类。相反，当这些值的集合构成一个连续统时，该问题则被称为回归。这两类问题的数学描述本质上是相同的。

传统逼近论的角色

监督机器学习的目标是构建一个近似未知目标函数 f 的模型 P。常用的模型包括浅层和深层神经网络、径向和椭圆基函数网络，以及一般的基于核的方法。这类模型的集合构成了假设空间。一个核心的理论挑战是评估模型在未见数据上的泛化程度。解决这一问题的传统方法涉及定义一个损失泛函 L，用以量化模型预测 P(x) 与真实输出 y 之间的误差。几种常用的损失泛函包括平方损失、指数损失、0-1损失、逻辑损失和合页损失。

模型 P 的泛化误差定义为 E_τ(L(P(x), y))。理想情况下，给定一个假设空间 H，我们希望找到 P^#∈ H 以最小化泛化误差。然而，由于底层数据分布 τ 未知，这通常是不可行的；我们只能访问从 τ 中抽取的有限样本集。因此，重点转向最小化 P 的经验风险，定义为 (1/M) Σ_j=1^ML(P(x_j), y_j)。经验风险为模型优化提供了一个实用框架，但在此过程中，可能会出现经验风险最小化器 P 满足 P(x_j) = y_j的现象，这被称为记忆。通常表现出记忆的模型泛化能力较差。为了解决这个问题，会在经验风险最小化中引入正则化项以改善泛化。

为了建立经验风险最小化问题，首先需要定义一个合适的假设空间。传统上，逼近论在此设置中发挥作用。我们考虑一系列假设空间 {Π_n}，其中 n 表示空间的复杂度。在这种情况下，逼近论主要关注估计最小逼近误差 ∥f - P∥ 作为 n 的函数。我们使用平方损失来展示逼近误差与泛化误差之间的联系。可以证明，对于任何模型 P，有 ∫|y - P(x)|²dτ(x, y) = ∫|y - f(x)|²dτ(x, y) (方差) + ∫|f(x) - P(x)|²dμ(x) (偏差)，其中 μ是 x 的边缘分布。因此，在这种情况下，偏差（逼近误差）的最小化器与泛化误差的最小化器相同。对于其他损失泛函，情况可能并非如此。

无论选择何种损失泛函，这个框架中一个固有的挑战是众所周知的偏差-方差权衡。要获得对 f 的良好近似，需要选择一个高复杂度的假设空间，这意味着模型 P 必须依赖于大量参数。然而，这种增加的复杂性也加剧了学习过程中的优化难度，可能导致泛化误差和经验风险之间的差距增大。

逼近论入门

在逼近论中，主要目标是在一个（通常是）Banach空间 X 中，使用来自一系列扩张的 X 子集（称为假设空间 {Π_n}_n∈N）中的元素来逼近目标函数，其中 Π₀? Π₁? ···。这里，索引 n 通常表示近似的复杂度。一个核心关注的量是 f ∈ X 从 Π_n的逼近度，定义为 dist(f, Π_n) = inf_{P∈Π_n}∥f - P∥。

逼近论中的主要问题是：

•
通用逼近性质，密度：当 n → ∞ 时，dist(f, Π_n) → 0 吗？
•
最佳逼近：是否存在最佳逼近 P* ∈ Π_n使得 dist(f, Π_n) = ∥f - P*∥？如果存在，最佳逼近的性质是什么，例如唯一性、表征等？

在构造性逼近的背景下，量 ∥f - P_n∥ 被称为逼近误差，而诸如 O(n^-γ) 的表达式被称为逼近速率。

光滑性类的一般理论与构造

我们假设假设空间 Π_n满足一些基本性质，例如包含零、嵌套性、对数乘法和加法封闭，并且其并集在 X 中稠密。

中心问题是：令 γ > 0 并定义 A_γ= {f ∈ X : dist(f, Π_n) ? n^-γ}。目标是确定等价于 f ∈ A_γ的 f 的条件。

一种方法是通过选择 r > γ 并确定一个定义良好的子空间 W_r，配备一个半范数 ∥·∥_r，使得以下两个估计成立。

Favard不等式的形式为：dist(f, Π_n) ≤ c_Fn^-r∥f∥_r, f ∈ W_r。许多关于机器学习的文献研究了类似于 W_r的各类空间的Favard不等式。一个常被提出的关键问题是，如何将这些结果推广到逼近 X 中任意函数。这个问题的解决方案在于 K-泛函 的概念。

X 和 W_r之间的 K-泛函 作为一个正则化准则，定义为：K(X, W_r; f, δ) = inf_{g∈W_r}{∥f - g∥ + δ^r∥g∥_r}。

直接定理指出，对于每个 f ∈ X 和 n ≥ 1，有 dist(f, Π_n) ≤ c_FK(X, W_r; f, 1/n)。因此，任何Favard不等式都足以估计 X 中任意函数的逼近度。

理论与实践之间常常存在差距，实际性能经常超过理论保证。一个自然的问题是：这是由于设计了巧妙的算法，还是源于函数本身允许更高逼近速率的内在属性？在逼近论中，这个问题通过证明所谓的逆定理来解决。我们首先回顾Bernstein不等式，其形式为 ∥P∥_r≤ c_Bn^r∥P∥, P ∈ Π_n。

逆定理指出，对于任何 δ ∈ (0, 1/2) 且 n 是不超过 log₂(1/δ) 的最大整数，有 K(X, W_r; f, δ) ≤ 2^3r+1c_Bδ^r{∥f∥ + Σ_k=1^2ⁿk^r-1dist(f, Π_k)}。特别地，我们有等价定理：∥f∥ + sup_n≥02^nγdist(f, Π_2ⁿ) ～ ∥f∥ + sup_n≥02^nγK(X, W_r; f, 2^-n)。

我们观察到，等价定理左侧的表达式是有限的当且仅当 f ∈ A_γ，并且独立于 r > γ 的选择。因此，右侧表达式也独立于 r（除了～中涉及的常数）。对于任何逼近过程，关键目标是识别空间 W_r并获得 K-泛函的一个“可理解”的表达式。通常，人们首先建立直接定理，在可行的情况下也建立逆定理，后者通常更具挑战性。

我们现在来到逼近论中的第二个主要问题：构造性逼近。构造一系列线性算子 σ_n，每个 σ_n(f) 基于 f 的有限信息（通常是 f 的值或 f 在正交展开中的系数，数量对应于 Π_n的复杂度），使得 σ_n(f) ∈ Π_n，并且对于某个 β ∈ (0, 1]，有 ∥f - σ_n(f)∥ ? dist(f, Π_βn)。必然地，如果 P ∈ Π_βn则 σ_n(P) = P，并且 ∥σ_n(f)∥ ? ∥f∥, f ∈ X。

利用Favard和Bernstein不等式，不难证明 K(X, W_r; f, 1/n) ～ ∥f - σ_n(f)∥ + n^-r∥σ_n(f)∥_r。定义 τ_j(f) = σ₁(f) 若 j=0，否则为 σ_2^j(f) - σ_2^j-1(f)，显然有 f = Σ_j=0^∞τ_j(f)。

我们以以下定理结束本节：

定理 3.1 令 f ∈ X, r > γ > 0，且满足Favard和Bernstein不等式。则以下条件等价。

(a) f ∈ A_γ。

(b) sup_n≥02^nγK(X, W_r; f, 2^-n) < ∞。

(d) sup_j∈N2^jγ∥τ_j(f)∥ < ∞。

类似于 (3.8) 的范数等价成立。

我们注意到，(a) 中的条件是问题固有的。(b) 中的条件依赖于 r 的选择，因此需要先验了解 f 的光滑性。(c) 和 (d) 中的条件依赖于 σ_n的构造，但不需要先验了解 f 的光滑性。这些条件中的每一个都可用于定义 f 的光滑性概念。我们倾向于条件 (a)，因为其本质性，以及条件 (d)，因为其在调和分析估计中的实用性。此类估计中涉及的常数将相应不同。

我们通过讨论一个额外的关键概念来结束本节，这个概念被称为宽度，它提供了一个比逆定理更弱的准则。虽然逆定理表明，对于任何单个函数，收敛速率意味着属于特定的光滑性类，但宽度结果处理的是最坏情况误差。

文献中有许多宽度的概念。我们的目标是讨论所谓的维度灾难的概念，它是用宽度来定义的。因此，我们将专注于非线性/流形宽度。

令 K ? X 是一个紧集。任何逼近过程都可以描述为两个过程的组合。令 N ≥ 1 为整数。参数选择/信息算子/编码器是一个映射 E: K → R^N。一个算法/重构/解码器是一个映射 D: R^N→ X。对于任何 f ∈ K，近似为 D(E(f))。那么，仅给定 f ∈ K 这一先验假设时的最坏情况误差定义为 wor(K; D, E) = sup_f∈K∥f - D(E(f))∥。K 的宽度衡量了即使允许设计任何巧妙的编码器/解码器对，人们期望的绝对最小最坏情况误差。由于技术原因，必须限制编码器是连续函数。那么 K 的（非线性/流形）宽度定义为 width_N(K) = inf_D,Ewor(K; D, E)，其中下确界取遍所有解码器和所有连续编码器。

在这方面的一个重要定理是以下定理：

定理 3.2 令 ∥·∥_*是在 X 的子空间 Y 上定义的半范数，且 K = {g ∈ Y : ∥g∥_*≤ 1} 是紧子集。对于整数 N ≥ 1，令 X_N是 X 的线性子空间，维数为 N+1，使得以下Bernstein型估计成立：∥P∥_*≤ c_BN^r∥P∥, P ∈ X_N。那么对于任何连续映射 A: K → X_N，有 sup_f∈K∥f - A(f)∥ ≥ (1/2) c_B^-1N^-r。因此，width_N(K) ≥ (1/2) c_B^-1N^-r。

这个定理表明，如果假设空间包含满足Bernstein不等式（关于半范数 ∥·∥_*）的“多项式”，那么宽度至少以 N^-r衰减。对于光滑性由导数界定义的函数类，r 是光滑度指数。在逼近论中，众所周知，对于定义在 R^q的紧子集上的函数，基于 n 个参数的逼近的最佳可能速率是 n^-r/q。这展示了维度灾难：为了获得与一维情况相同的精度，所需的参数数量随维度 q 呈指数增长。

热点排行

新闻专题