机器学习(ML)技术在自然语言处理、计算机视觉、时间序列分析和金融应用等多个预测和分类任务中已被证明是成功的。最近,贝叶斯方法因能够处理不确定性、在减少过拟合的同时进行泛化以及保留先验和过去知识而受到广泛关注[1]。毫不奇怪,贝叶斯学习已被应用于模式识别[2]、领域泛化[3]、自监督学习和强化学习[4],[5]、医学[6],[7]以及金融[8]等多个领域。尽管贝叶斯原理早在几十年前就被提出[例如,9],但直到最近,快速且可行的方法才促进了贝叶斯方法在复杂模型中的广泛应用[10]。
最具挑战性的任务是后验的计算。在典型的ML环境中,由于参数数量众多且数据量庞大,传统的采样方法变得耗时,然而变分推断(VI)等近似方法已被证明是合适且成功的[11],[12]。此外,最近的研究提倡使用自然梯度来加速最优搜索和训练[13],从而实现快速且可扩展的贝叶斯学习算法。随机梯度下降(SGD)方法促进了VI在复杂深度学习模型中的使用[11],但它们需要大量的实现和调整[14]。另一方面,在指数族近似下的VI框架中使用自然梯度已被证明是高效且稳健的[11],[13],[16]。特别是在选择高斯近似并利用指数族分布的某些统计特性时,变分均值和精度矩阵的更新相对简单[17],[18]。基于这些结果,已经推导出了一些算法[16];然而,这些算法需要模型梯度(可能还需要Hessian矩阵),而后验协方差矩阵的正定性约束是一个具有挑战性的问题[19]。
传统的优化算法依赖于广泛使用梯度来动态调整模型权重以最小化给定的损失,例如通过反向传播[10]。这也适用于基于VI的贝叶斯学习,因为似然函数和变分近似的选取会导致一系列模型特定的导数,这并不适合立即适应通用的、即插即用的优化器,尽管使用自动微分可以缓解这个问题[20]。黑盒方法[14]依赖于随机采样,而不需要模型特定的导数。尽管黑盒方法可以从许多改进中受益,但由于使用了费舍尔矩阵的逆,应用自然梯度更新仍然具有挑战性。
我们提出了准黑盒变分推断(QBVI),它在黑盒VI框架中引入了自然梯度更新。我们的方法结合了黑盒方法的灵活性和SGD理论,用于指数族VI的优化,实现了一个可行、可扩展且灵活的优化器。特别是,我们依靠VI通过参数更新来近似真实后验,这些更新仅涉及似然函数的评估,而不需要反向传播其梯度,也不需要对似然函数的形式或底层模型进行假设。我们采用了广泛采用的高斯变分假设[10],在这种假设下,更新形式相对简单,同时结合了封闭形式和黑盒元素进行梯度计算(因此称为“准”黑盒)。
我们在完全和对角后验协方差假设下提供了结果和更新规则,并讨论了所提出方法在成熟的平均场近似下的泛化能力[例如,12]。我们还开发了控制变量技术[例如,[21],[22]],以实现高效的蒙特卡洛采样,并提供了有效的协方差更新解决方案,改进了现有方法[16],[23]。在讨论了VI应用中的典型实用性和建议[24]之后,我们提供了实验来验证所提出的优化器的有效性,展示了其在复杂学习任务中的可行性,并推广了其作为实用的、即用型贝叶斯优化工具的使用。
我们无需梯度的自然梯度方法可以在多个领域中应用,例如在医疗保健中的复杂贝叶斯层次模型中[20],可以直接使用对数联合分布进行层次模型采样,并应用黑盒更新而无需专门的导数。在肿瘤系统发育学的背景下[6],可扩展且快速的VI方法对于处理庞大的参数空间和模型的复杂性至关重要。在基因组关联研究和大规模基因网络推断[25]中,VI也是有益的,因为大量的遗传变异和较小的样本量需要层次化或稀疏诱导的先验,这些先验不允许使用共轭更新。具有基因表达和非线性关系的基因模型自然需要通过无梯度自然梯度加速的全协方差更新。基于SDE/PDE的问题通常没有封闭形式的似然函数或容易导出的梯度。在这种情况下,黑盒优化器特别有用,因为它们构建的更新仅依赖于对数似然评估,而不需要显式地微分PDE求解器[26]。然而,PDE求解器本身可能是一个计算瓶颈,每次似然评估仍然可能非常昂贵:使用自然梯度可以改善收敛性,减少求解器的调用次数。
在后验是多模态的[12]、高维空间中重尾或复杂相关的[27],或者纯粹离散的[28]情况下,VI的应用受到限制且具有挑战性,同时优化程序的稳健性和效率也存在问题[29];例如,在复杂拓扑的潜在模型中,VI在计算时间方面存在困难[6],[7]。然而,VI背景下的优化是一个活跃的研究领域,正在开发新的方法来解决这些问题,例如,参见[19],[23]关于流形优化,[30]关于FIM近似,以及[31]关于可扩展性。