引言
机器学习正日益渗透现代生活的方方面面,从扫地机器人到月球着陆,从救死扶伤的外科手术到攻击敌方目标的无人机。这个领域的核心目标是复制并超越人类的学习能力。人类学习通常包括观察多个样本并将其与标签或预测相关联。例如,我们观察周围的各种物体,如花朵、小鸟、猫咪、小狗和月亮。即使没有外部指导,我们也能区分这些物体,虽然偶尔会有些混淆。之后,有人会教我们这些物体的名称。这种独立识别它们的过程被称为无监督学习,而为这些物体分配标签的过程则被称为有监督学习。泛化则是指正确标记那些之前未见但类似于先前见过物体的能力。
更形式化地,机器学习的中心问题可描述如下。存在一个未知的概率分布 τ,所有我们感兴趣的对象 x 及其对应的标签 y 都从中抽取。实践中,这个分布是未知的。我们只能观察到一个样本集 {(xj, yj)}j=1M(称为训练数据)。挑战在于从这些样本中泛化,以预测新数据点 x 的标签 y。数学上,这可以表述为寻找目标函数 f(x) = Eτ(y | x) 的近似。我们的目标是基于给定的训练数据来近似 f,这可以表达为 yj= f(xj) + ?j,其中 ?j代表一个均值为零的未知随机变量的实现。
在学术研究中,当 y 可以取的值的集合是有限集时,该问题被称为分类。相反,当这些值的集合构成一个连续统时,该问题则被称为回归。这两类问题的数学描述本质上是相同的。
传统逼近论的角色
监督机器学习的目标是构建一个近似未知目标函数 f 的模型 P。常用的模型包括浅层和深层神经网络、径向和椭圆基函数网络,以及一般的基于核的方法。这类模型的集合构成了假设空间。一个核心的理论挑战是评估模型在未见数据上的泛化程度。解决这一问题的传统方法涉及定义一个损失泛函 L,用以量化模型预测 P(x) 与真实输出 y 之间的误差。几种常用的损失泛函包括平方损失、指数损失、0-1损失、逻辑损失和合页损失。
模型 P 的泛化误差定义为 Eτ(L(P(x), y))。理想情况下,给定一个假设空间 H,我们希望找到 P#∈ H 以最小化泛化误差。然而,由于底层数据分布 τ 未知,这通常是不可行的;我们只能访问从 τ 中抽取的有限样本集。因此,重点转向最小化 P 的经验风险,定义为 (1/M) Σj=1ML(P(xj), yj)。经验风险为模型优化提供了一个实用框架,但在此过程中,可能会出现经验风险最小化器 P 满足 P(xj) = yj的现象,这被称为记忆。通常表现出记忆的模型泛化能力较差。为了解决这个问题,会在经验风险最小化中引入正则化项以改善泛化。
为了建立经验风险最小化问题,首先需要定义一个合适的假设空间。传统上,逼近论在此设置中发挥作用。我们考虑一系列假设空间 {Πn},其中 n 表示空间的复杂度。在这种情况下,逼近论主要关注估计最小逼近误差 ∥f - P∥ 作为 n 的函数。我们使用平方损失来展示逼近误差与泛化误差之间的联系。可以证明,对于任何模型 P,有 ∫|y - P(x)|2dτ(x, y) = ∫|y - f(x)|2dτ(x, y) (方差) + ∫|f(x) - P(x)|2dμ(x) (偏差),其中 μ是 x 的边缘分布。因此,在这种情况下,偏差(逼近误差)的最小化器与泛化误差的最小化器相同。对于其他损失泛函,情况可能并非如此。
无论选择何种损失泛函,这个框架中一个固有的挑战是众所周知的偏差-方差权衡。要获得对 f 的良好近似,需要选择一个高复杂度的假设空间,这意味着模型 P 必须依赖于大量参数。然而,这种增加的复杂性也加剧了学习过程中的优化难度,可能导致泛化误差和经验风险之间的差距增大。
逼近论入门
在逼近论中,主要目标是在一个(通常是)Banach空间 X 中,使用来自一系列扩张的 X 子集(称为假设空间 {Πn}n∈N)中的元素来逼近目标函数,其中 Π0? Π1? ···。这里,索引 n 通常表示近似的复杂度。一个核心关注的量是 f ∈ X 从 Πn的逼近度,定义为 dist(f, Πn) = infP∈Πn∥f - P∥。
逼近论中的主要问题是:
- •
通用逼近性质,密度:当 n → ∞ 时,dist(f, Πn) → 0 吗?
- •
最佳逼近:是否存在最佳逼近 P* ∈ Πn使得 dist(f, Πn) = ∥f - P*∥?如果存在,最佳逼近的性质是什么,例如唯一性、表征等?
在构造性逼近的背景下,量 ∥f - Pn∥ 被称为逼近误差,而诸如 O(n-γ) 的表达式被称为逼近速率。
光滑性类的一般理论与构造
我们假设假设空间 Πn满足一些基本性质,例如包含零、嵌套性、对数乘法和加法封闭,并且其并集在 X 中稠密。
中心问题是:令 γ > 0 并定义 Aγ= {f ∈ X : dist(f, Πn) ? n-γ}。目标是确定等价于 f ∈ Aγ的 f 的条件。
一种方法是通过选择 r > γ 并确定一个定义良好的子空间 Wr,配备一个半范数 ∥·∥r,使得以下两个估计成立。
Favard不等式的形式为:dist(f, Πn) ≤ cFn-r∥f∥r, f ∈ Wr。许多关于机器学习的文献研究了类似于 Wr的各类空间的Favard不等式。一个常被提出的关键问题是,如何将这些结果推广到逼近 X 中任意函数。这个问题的解决方案在于 K-泛函 的概念。
X 和 Wr之间的 K-泛函 作为一个正则化准则,定义为:K(X, Wr; f, δ) = infg∈Wr{∥f - g∥ + δr∥g∥r}。
直接定理指出,对于每个 f ∈ X 和 n ≥ 1,有 dist(f, Πn) ≤ cFK(X, Wr; f, 1/n)。因此,任何Favard不等式都足以估计 X 中任意函数的逼近度。
理论与实践之间常常存在差距,实际性能经常超过理论保证。一个自然的问题是:这是由于设计了巧妙的算法,还是源于函数本身允许更高逼近速率的内在属性?在逼近论中,这个问题通过证明所谓的逆定理来解决。我们首先回顾Bernstein不等式,其形式为 ∥P∥r≤ cBnr∥P∥, P ∈ Πn。
逆定理指出,对于任何 δ ∈ (0, 1/2) 且 n 是不超过 log2(1/δ) 的最大整数,有 K(X, Wr; f, δ) ≤ 23r+1cBδr{∥f∥ + Σk=12nkr-1dist(f, Πk)}。特别地,我们有等价定理:∥f∥ + supn≥02nγdist(f, Π2n) ~ ∥f∥ + supn≥02nγK(X, Wr; f, 2-n)。
我们观察到,等价定理左侧的表达式是有限的当且仅当 f ∈ Aγ,并且独立于 r > γ 的选择。因此,右侧表达式也独立于 r(除了 ~ 中涉及的常数)。对于任何逼近过程,关键目标是识别空间 Wr并获得 K-泛函的一个“可理解”的表达式。通常,人们首先建立直接定理,在可行的情况下也建立逆定理,后者通常更具挑战性。
我们现在来到逼近论中的第二个主要问题:构造性逼近。构造一系列线性算子 σn,每个 σn(f) 基于 f 的有限信息(通常是 f 的值或 f 在正交展开中的系数,数量对应于 Πn的复杂度),使得 σn(f) ∈ Πn,并且对于某个 β ∈ (0, 1],有 ∥f - σn(f)∥ ? dist(f, Πβn)。必然地,如果 P ∈ Πβn则 σn(P) = P,并且 ∥σn(f)∥ ? ∥f∥, f ∈ X。
利用Favard和Bernstein不等式,不难证明 K(X, Wr; f, 1/n) ~ ∥f - σn(f)∥ + n-r∥σn(f)∥r。定义 τj(f) = σ1(f) 若 j=0,否则为 σ2j(f) - σ2j-1(f),显然有 f = Σj=0∞τj(f)。
我们以以下定理结束本节:
定理 3.1 令 f ∈ X, r > γ > 0,且满足Favard和Bernstein不等式。则以下条件等价。
(a) f ∈ Aγ。
(b) supn≥02nγK(X, Wr; f, 2-n) < ∞。
(c) supn≥02nγ∥f - σ2n(f)∥ < ∞。
(d) supj∈N2jγ∥τj(f)∥ < ∞。
类似于 (3.8) 的范数等价成立。
我们注意到,(a) 中的条件是问题固有的。(b) 中的条件依赖于 r 的选择,因此需要先验了解 f 的光滑性。(c) 和 (d) 中的条件依赖于 σn的构造,但不需要先验了解 f 的光滑性。这些条件中的每一个都可用于定义 f 的光滑性概念。我们倾向于条件 (a),因为其本质性,以及条件 (d),因为其在调和分析估计中的实用性。此类估计中涉及的常数将相应不同。
我们通过讨论一个额外的关键概念来结束本节,这个概念被称为宽度,它提供了一个比逆定理更弱的准则。虽然逆定理表明,对于任何单个函数,收敛速率意味着属于特定的光滑性类,但宽度结果处理的是最坏情况误差。
文献中有许多宽度的概念。我们的目标是讨论所谓的维度灾难的概念,它是用宽度来定义的。因此,我们将专注于非线性/流形宽度。
令 K ? X 是一个紧集。任何逼近过程都可以描述为两个过程的组合。令 N ≥ 1 为整数。参数选择/信息算子/编码器是一个映射 E: K → RN。一个算法/重构/解码器是一个映射 D: RN→ X。对于任何 f ∈ K,近似为 D(E(f))。那么,仅给定 f ∈ K 这一先验假设时的最坏情况误差定义为 wor(K; D, E) = supf∈K∥f - D(E(f))∥。K 的宽度衡量了即使允许设计任何巧妙的编码器/解码器对,人们期望的绝对最小最坏情况误差。由于技术原因,必须限制编码器是连续函数。那么 K 的(非线性/流形)宽度定义为 widthN(K) = infD,Ewor(K; D, E),其中下确界取遍所有解码器和所有连续编码器。
在这方面的一个重要定理是以下定理:
定理 3.2 令 ∥·∥*是在 X 的子空间 Y 上定义的半范数,且 K = {g ∈ Y : ∥g∥*≤ 1} 是紧子集。对于整数 N ≥ 1,令 XN是 X 的线性子空间,维数为 N+1,使得以下Bernstein型估计成立:∥P∥*≤ cBNr∥P∥, P ∈ XN。那么对于任何连续映射 A: K → XN,有 supf∈K∥f - A(f)∥ ≥ (1/2) cB-1N-r。因此,widthN(K) ≥ (1/2) cB-1N-r。
这个定理表明,如果假设空间包含满足Bernstein不等式(关于半范数 ∥·∥*)的“多项式”,那么宽度至少以 N-r衰减。对于光滑性由导数界定义的函数类,r 是光滑度指数。在逼近论中,众所周知,对于定义在 Rq的紧子集上的函数,基于 n 个参数的逼近的最佳可能速率是 n-r/q。这展示了维度灾难:为了获得与一维情况相同的精度,所需的参数数量随维度 q 呈指数增长。