从数据中估计高维概率分布的模型是数据科学和统计物理的核心。对于处于平衡状态的物理系统,场φ∈R^d的概率分布p(φ)具有密度p(φ) = Zφ ? e^U(φ),其中U(φ)是吉布斯能量[1]。学习意味着从m个数据样本{φ^(i)}_{i≤m}(这些样本来自测量或数值模拟)中估计和优化高维能量函数U。然后可以通过采样估计出的p模型来生成新数据,该模型也被用于估计逆问题[2]、[3]。当φ具有长程依赖性且其维度d较大时,估计吉布斯能量特别困难。构建湍流流动的概率模型是一个长期存在的问题,这一问题可以追溯到科尔莫哥洛夫1942年的工作[4]、[5]。
在统计学中,p是通过定义一个近似类p_θ并优化θ来估计的。这些近似和优化问题受到维数灾难的困扰。第2节回顾了这两个方面,包括吉布斯能量的线性近似、最大似然估计与分数匹配(score matching),以及通过朗之万扩散(Langevin diffusions)进行采样。如果p的对数索伯列夫常数(log-Sobolev constant)在d增加时保持有界,就可以避免θ的维数灾难[6]、[7]、[8]。如果我们能够定义一个参数向量θ,其维度在d增加时保持有界或增长缓慢,也可以避免维数灾难。这在马尔可夫随机场(Markov random fields)中是可能的,因为其中的相互作用是局部的[9]。遗憾的是,湍流场等复杂数据并不满足这两个条件。对于多尺度场,重整化群提供了一种强大的层次化方法来应对这些维数灾难问题。
从控制论的角度来看,赫伯特·西蒙斯(Herbert Simons)观察到,大多数复杂系统的架构都是层次化的,无论是在物理学、生物学、符号语言还是社会组织中。他认为这可能是由于它们的动态演化导致的,其中中间状态必须是稳定的[10]。这个有趣的想法可以解释为什么在分析这些系统时可以避免维数灾难,但层次化的概念定义较为模糊。层次化组织的核心原则是从层次结构中邻居之间的有限数量局部相互作用构建长程相互作用。然而,大型系统包含多个层次结构,这些层次结构在多维矩阵组织中产生复杂的長程相互作用,而不是树状结构。例如,大型企业通常在每个垂直层次结构中都有专门针对特定项目的横向层次化组织[11],这会在从事同一项目的员工之间产生长程相互作用。在物理学中,重整化群理论提供了对多体相互作用的层次化分析,它计算了从微观细尺度到宏观较大尺度的概率流[12]、[13]、[14]、[15]。
然而,在考虑空间和跨尺度的非局部相互作用时遇到了重大困难,特别是对于像湍流这样的不可重整化系统,其自由度随φ的维度d增加而增加[16]。
本文定义了层次化模型来估计和采样具有非局部相互作用的高维非高斯过程。第3节考虑了定义在图上或图像上的数据φ∈R^d。首先通过逐渐减小尺度2^j的粗粒度近似φ_j来构建一个层次化结构。图1展示了二维湍流的涡度场。概率密度p(φ)逐渐从细尺度2^j映射到粗尺度2^j的密度p_j(φ_j)。这种重整化群变换是通过高频自由度的边缘积分计算得出的,随着j的增加,这些高频自由度逐渐消失。如果φ_j的维度较低,估计和采样p_J(φ_j)并不困难。根据这一估计,可以使用逆马尔可夫链(reverse Markov chain)来估计和采样高维模型p。如图1所示,这种层次化流的每个转移核p_j?1是从p_j转换到p的。这个层次化流的主要难点在于理解在什么条件下可以估计和采样这些转移核,同时避免维数灾难的影响。
跨尺度的层次化概率流是威尔逊重整化群(Wilson’s renormalization group)的逆过程。如果我们在小波基础上表示高频,那么转移核可以写成小波系数的条件概率[17]。通过对小波系数进行重整化,可以控制转移概率的对数索伯列夫常数。对于相变时的铁磁体φ^4模型,已经证明在小波基础上进行重整化可以消除朗之万采样算法的“临界减速”现象[18]。第4节验证并分析了不同类型小波基础下的这一现象。由于小波在傅里叶域(Fourier domain)中的局部化特性,这种临界减速现象得到了克服。此外,由于小波具有局部化的空间支持,条件概率可以通过局部标量势来近似,从而定义一个低维参数模型。因此,小波的选择是在空间局部化和频率局部化之间的权衡,这两者会影响对数索伯列夫常数和模型维度。
φ^4的能量在空间上是局部的且“可重整化的”,这意味着它可以用一组耦合参数来近似,而这些参数不依赖于场维度d,适用于所有尺度。这一性质不适用于像流体湍流这样的复杂系统,因为随着维度d的增加,这些系统的自由度会逐渐增加[16]。为了解决这个问题,我们引入了层次化势模型,其维度随着尺度2^j的减小而增加。这种层次结构保留了一个耦合流方程,该方程将一个尺度上的能量耦合参数与下一个尺度上的能量耦合参数联系起来。
在物理学和统计学中,非高斯概率分布的吉布斯能量通常用高于2次的多项式来近似,通常是3次或4次[1]。对于维度为d的静止场,这涉及d^2或d^3的近似项,其估计具有较大的方差。此外,对于多尺度场,吉布斯能量的参数化通常不稳定,导致如φ^4模型中的剧烈相变。第5节引入了稳定的层次化参数化方法,使用了O(log^3d)维的多尺度相互作用能量模型。高阶多项式被散射协方差系数所替代。这些系数是通过二次小波变换计算得出的,应用于第一次小波变换的模。这定义了第二个层次结构,具有第二个尺度参数。由此产生的散射系数[19]可以捕捉到空间和跨尺度的长程非高斯相互作用[20]、[21]。这种方法为不可重整化系统提供了一种重整化群表示,具有O(log^3d)的自由度。利用这种层次化方法可以估计和采样二维湍流涡度场和暗物质密度的吉布斯能量模型。