准黑箱变分推断在贝叶斯学习中的应用（补充材料）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：Pattern Recognition 7.6

编辑推荐：

　　提出Quasi Black-box Variational Inference（QBVI）方法，结合自然梯度与黑盒框架，适用于指数族变分后验的高效训练，无需模型参数梯度或Fisher信息矩阵求逆，在复杂模型中实现简单可行的优化。

Martin Magris|Mostafa Shabani|Alexandros Iodifidis

墨西哥自治技术学院统计系，墨西哥城álvaro Obregón市Rio Hondo 1，Altavista，邮编01080，墨西哥

摘要

我们开发了一种适用于复杂模型中贝叶斯学习的优化算法。我们的方法依赖于自然梯度更新，在一个通用的黑盒框架内进行高效训练，同时减少了模型特定导数的需求。该方法适用于指数族变分后验分布类，其中高斯情况得到了广泛讨论，其更新形式相对简单。我们的准黑盒变分推断（QBVI）框架可以轻松应用于广泛的贝叶斯推断问题，并且实现简单，因为变分后验的更新不涉及模型参数的梯度，也不需要指定费舍尔信息矩阵。我们在不同的后验协方差矩阵假设下开发了QBVI，讨论了其稳健性和可行性的细节，并提供了一些实际应用来证明其有效性。

引言

机器学习（ML）技术在自然语言处理、计算机视觉、时间序列分析和金融应用等多个预测和分类任务中已被证明是成功的。最近，贝叶斯方法因能够处理不确定性、在减少过拟合的同时进行泛化以及保留先验和过去知识而受到广泛关注[1]。毫不奇怪，贝叶斯学习已被应用于模式识别[2]、领域泛化[3]、自监督学习和强化学习[4],[5]、医学[6],[7]以及金融[8]等多个领域。尽管贝叶斯原理早在几十年前就被提出[例如，9]，但直到最近，快速且可行的方法才促进了贝叶斯方法在复杂模型中的广泛应用[10]。

最具挑战性的任务是后验的计算。在典型的ML环境中，由于参数数量众多且数据量庞大，传统的采样方法变得耗时，然而变分推断（VI）等近似方法已被证明是合适且成功的[11],[12]。此外，最近的研究提倡使用自然梯度来加速最优搜索和训练[13]，从而实现快速且可扩展的贝叶斯学习算法。随机梯度下降（SGD）方法促进了VI在复杂深度学习模型中的使用[11]，但它们需要大量的实现和调整[14]。另一方面，在指数族近似下的VI框架中使用自然梯度已被证明是高效且稳健的[11],[13],[16]。特别是在选择高斯近似并利用指数族分布的某些统计特性时，变分均值和精度矩阵的更新相对简单[17],[18]。基于这些结果，已经推导出了一些算法[16]；然而，这些算法需要模型梯度（可能还需要Hessian矩阵），而后验协方差矩阵的正定性约束是一个具有挑战性的问题[19]。

传统的优化算法依赖于广泛使用梯度来动态调整模型权重以最小化给定的损失，例如通过反向传播[10]。这也适用于基于VI的贝叶斯学习，因为似然函数和变分近似的选取会导致一系列模型特定的导数，这并不适合立即适应通用的、即插即用的优化器，尽管使用自动微分可以缓解这个问题[20]。黑盒方法[14]依赖于随机采样，而不需要模型特定的导数。尽管黑盒方法可以从许多改进中受益，但由于使用了费舍尔矩阵的逆，应用自然梯度更新仍然具有挑战性。

我们提出了准黑盒变分推断（QBVI），它在黑盒VI框架中引入了自然梯度更新。我们的方法结合了黑盒方法的灵活性和SGD理论，用于指数族VI的优化，实现了一个可行、可扩展且灵活的优化器。特别是，我们依靠VI通过参数更新来近似真实后验，这些更新仅涉及似然函数的评估，而不需要反向传播其梯度，也不需要对似然函数的形式或底层模型进行假设。我们采用了广泛采用的高斯变分假设[10]，在这种假设下，更新形式相对简单，同时结合了封闭形式和黑盒元素进行梯度计算（因此称为“准”黑盒）。

我们在完全和对角后验协方差假设下提供了结果和更新规则，并讨论了所提出方法在成熟的平均场近似下的泛化能力[例如，12]。我们还开发了控制变量技术[例如，[21],[22]]，以实现高效的蒙特卡洛采样，并提供了有效的协方差更新解决方案，改进了现有方法[16],[23]。在讨论了VI应用中的典型实用性和建议[24]之后，我们提供了实验来验证所提出的优化器的有效性，展示了其在复杂学习任务中的可行性，并推广了其作为实用的、即用型贝叶斯优化工具的使用。

我们无需梯度的自然梯度方法可以在多个领域中应用，例如在医疗保健中的复杂贝叶斯层次模型中[20]，可以直接使用对数联合分布进行层次模型采样，并应用黑盒更新而无需专门的导数。在肿瘤系统发育学的背景下[6]，可扩展且快速的VI方法对于处理庞大的参数空间和模型的复杂性至关重要。在基因组关联研究和大规模基因网络推断[25]中，VI也是有益的，因为大量的遗传变异和较小的样本量需要层次化或稀疏诱导的先验，这些先验不允许使用共轭更新。具有基因表达和非线性关系的基因模型自然需要通过无梯度自然梯度加速的全协方差更新。基于SDE/PDE的问题通常没有封闭形式的似然函数或容易导出的梯度。在这种情况下，黑盒优化器特别有用，因为它们构建的更新仅依赖于对数似然评估，而不需要显式地微分PDE求解器[26]。然而，PDE求解器本身可能是一个计算瓶颈，每次似然评估仍然可能非常昂贵：使用自然梯度可以改善收敛性，减少求解器的调用次数。

在后验是多模态的[12]、高维空间中重尾或复杂相关的[27]，或者纯粹离散的[28]情况下，VI的应用受到限制且具有挑战性，同时优化程序的稳健性和效率也存在问题[29]；例如，在复杂拓扑的潜在模型中，VI在计算时间方面存在困难[6],[7]。然而，VI背景下的优化是一个活跃的研究领域，正在开发新的方法来解决这些问题，例如，参见[19],[23]关于流形优化，[30]关于FIM近似，以及[31]关于可扩展性。

部分摘录

变分推断

设 y 表示数据，p(y|θ) 表示基于假设模型的数据的似然函数，其中 θ 是一个 d 维的模型参数向量。设 p(θ) 是 θ 的先验分布。贝叶斯推断的目标是后验分布

p (θ | y) = p (θ) p(y | θ)/p(y)

。贝叶斯推断通常很复杂，因为边际似然 p(y) 通常是难以处理的且形式未知的。在高维应用中，用于采样后验的蒙特卡洛（MC）方法具有挑战性

准黑盒自然梯度VI

我们的方法依赖于三个要素：(i) 使用所谓的得分函数估计器，通过它可以将期望的梯度写成梯度的期望；(ii) 使用自然梯度代替欧几里得梯度；(iii) 采用某些理论结果来简化自然梯度的计算，避免求逆费舍尔矩阵。

在F.1中，我们证明了使用得分函数估计器

\begin{matrix} {\overset{?}{?}}_{λ L} & = η ? λ + {\overset{?}{?}}_{λ} E_{q_{λ}} [\log p (y | θ) \end{matrix}

\begin{matrix} = η ? λ + E_{q_{λ}} [{\overset{?}{?}}_{λ} [\log q_{λ} (θ) \end{matrix}

梯度估计和控制变量

对于算法1和2的实现，需要解决的核心问题是梯度期望的估计以及使用可行的方法来减少方差。在迭代 t 时，其中

θ_{s} \overset{i.i.d.}{～} q_{λ_{t}}

，

s = 1, ?,N

，为了使更新在实践中可行，可以通过以下简单的估计器通过MC采样来近似期望：

\begin{matrix} E_{q_{λ_{t}} [Σ_{t}^{? 1} ? v_{t} v_{t}^{< />})} & \approx \frac{1}{N} \sum s = 1 [Σ_{t ? 1 ? v_{t,,s} {< />}_{t, s} {< />}_{t,,s},} \\ E_{q_{λ_{t}} [v_{t} < /> p (y |} \end{matrix}

实验

本文介绍了一种适用于复杂且不可微分骨干模型的新VI方法。即使在通过一系列复杂层构建输出的深度学习应用中，输出也被解析为一个似然函数，其数值值可以直接输入QBVI，而无需反向传播。在实际应用中，最常见的似然形式类似于逻辑回归和线性回归。

结论

尽管贝叶斯推断在高风险领域和应用中非常吸引人，但在机器学习和复杂模型中，一些困难阻碍了其广泛应用。变分推断（VI）是一种有效的近似真实后验的方法，但其实现存在一些注意事项。在高斯框架下，我们的准黑盒VI（QBVI）方法优化了证据下界，无需使用模型特定的梯度，也不需要正式计算费舍尔矩阵

CRediT作者贡献声明

Martin Magris：撰写 – 审稿与编辑，撰写 – 原始草稿，方法论，研究，数据分析，概念化。Mostafa Shabani：软件，数据分析。Alexandros Iodifidis：撰写 – 审稿与编辑，项目管理，资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言