张量网络的贝叶斯方法

《Neurocomputing》:A Bayesian approach to tensor networks

【字体: 时间:2026年02月06日 来源:Neurocomputing 6.5

编辑推荐:

  贝叶斯张量网络通过有效初始化策略和Laplace近似方法提升训练稳定性与模型泛化能力,在多个数据集上验证优于传统张量网络模型。

  
郭 Erdong | David Draper
美国加州大学圣克鲁兹分校

摘要

贝叶斯统计学习是一种强大的推理和预测范式,它将内部信息(训练数据的采样分布)和外部信息(先验知识或背景信息)整合在一个逻辑一致的概率框架内。此外,由贝叶斯规则得出的后验分布和后验预测(边际)分布分别总结了进行推理和预测所需的所有信息。在这项工作中,我们从两个角度研究了张量网络(Tensor Network,简称BTN)的贝叶斯框架。首先,在推理阶段,我们提出了一种有效的BTN参数初始化方案,该方案显著提高了训练过程的鲁棒性和效率,并改善了测试性能。其次,在预测阶段,我们考虑了BTN中权重的高斯先验,并通过后验预测(边际)分布来预测新观测值的标签。我们通过拉普拉斯近似(Laplace approximation)推导出后验预测分布的近似值,其中应用了后验分布的海森矩阵(Hessian matrix)的外积近似。在数值实验中,我们评估了我们初始化策略的性能,并通过将其与其他流行的初始化方法(包括He初始化、Xavier初始化和Haliassos初始化方法)在加州房价(California House Price,简称CHP)、乳腺癌(Breast Cancer,简称BC)、钓鱼网站(Phishing Website,简称PW)、MNIST、Fashion-MNIST(FMNIST)、SVHN和CIFAR-10数据集上进行比较,展示了其优势。我们还通过展示在二维合成数据集上训练的BTN的参数和决策边界来进一步研究其特性。从泛化能力和校准能力两个角度全面分析了BTN的性能。通过对上述各种数据集的实验,我们证明了BTN在泛化和校准方面都优于传统的基于张量网络(TN)的学习模型。这展示了贝叶斯形式主义在开发更强大的基于TN的学习模型中的潜力。

引言

贝叶斯统计学习是一种多功能且原理性的数据分析框架,特别适用于模式识别任务[1]、[2]。通过结合内部数据和关于特定学习问题的外部背景知识,贝叶斯方法能够通过应用贝叶斯定理[3]、[4],实现逻辑性和系统性的推理和预测方法。这种范式在模式识别中尤其强大,因为利用先验知识(如模式的结构信息或领域特定约束)可以显著提高模型的鲁棒性和准确性。此外,贝叶斯方法自然支持不确定性量化,这对于涉及噪声、模糊或不完整数据的模式识别任务中的可靠决策至关重要[5]。在医学诊断[6]、自主系统[7]和自然语言处理[8]等应用中,这种能力尤为重要,因为不确定性估计可以显著提高鲁棒性和可靠性[9]。在贝叶斯框架中,模型参数被视为随机变量,其分布基于对问题的背景知识或先验信念来确定。这种概率形式为将外部信息纳入学习过程提供了原理性的机制,使贝叶斯推理能够系统地将先验知识与观测数据结合起来[10]。在模式识别任务中,这种整合尤为重要,因为它能够提高分类和预测的准确性。
贝叶斯推理和频率主义方法之间的一个关键区别在于参数估计。虽然频率主义方法通常依赖于最大似然估计器(Maximum Likelihood Estimator,简称MLE),但贝叶斯学习通常采用最大后验概率(Maximum A Posteriori,简称MAP)估计器,后者将先验分布纳入估计过程。在观测数据有限或噪声较大的情况下,MAP估计器通常比MLE产生更稳健的参数估计,这在模式识别任务中很常见[11]。
除了点估计之外,贝叶斯推理还强调模型参数的后验分布,后者量化了不确定性并实现了概率预测。在实践中,精确计算后验分布往往是不可行的,因此采用了近似方法。一种常用的简化方法是在鞍点处使用狄拉克分布(Dirac distribution),这实际上将贝叶斯推理简化为MAP估计,但代价是忽略了不确定性[12]。为了更准确地近似后验分布,可以保留围绕MAP估计的泰勒展开的高阶项。保留到二阶项可以得到拉普拉斯近似(Laplace approximation),其中后验被近似为以MAP估计为中心的高斯分布[13]。这种近似提供了一种计算效率高的方法来表示参数不确定性,同时保持了分析上的可行性,因此在BNN和其他大规模概率模型中得到了广泛应用[14]。
贡献:在我们的工作中,我们提出了一种新的初始化技术,提高了BTN参数推理的稳定性和收敛速度。由于张量网络(Tensor Network,简称BTN)的独特结构,它是张量链乘积的总和,该模型的输出容易出现过冲或衰减到零,导致推理过程不稳定。通过我们的初始化策略,参数及其梯度可以保持在稳定区域内,从而使梯度下降优化能够健康地进行。对于BTN的推理和预测,我们推导出了海森矩阵外积近似的解析公式以及预测后验分布的拉普拉斯二阶近似公式。利用矩阵求逆的迭代关系,我们还推导出了后验二阶导数矩阵的逆的公式。在数值实验中,我们通过将我们的初始化方案与各种数据集上广泛使用的初始化方法进行比较来评估其性能。此外,我们还分析了BTN的属性并评估了其性能。根据我们的实验,BTN在泛化和校准方面都优于传统的TN基学习模型。这主要是由于BTN能够缓解其骨干网络中大量参数导致的过拟合问题。

章节摘录

贝叶斯神经网络

深度神经网络(Deep Neural Networks,简称DNN)在图像分类[15]、自然语言处理[16]和语音识别[17]等模式识别任务中取得了优异的性能。然而,它们的确定性往往导致过拟合[18]、过于自信且校准不良的预测[19],以及对超参数选择的敏感性。贝叶斯神经网络(Bayesian Neural Networks,简称BNN)通过在模型参数上放置分布来解决这些限制,从而实现了原则性的不确定性处理

初步介绍

尽管张量网络(Tensor Networks,简称TN)具有出色的表示能力,但其性能在很大程度上受到初始化的影响,特别是在高维输入空间中。在基于MPS的学习模型中,logits是作为张量链乘积的总和计算的。这种结构虽然表达能力强,但容易受到数值不稳定性的影响,例如随着链长度的增加而崩溃到零或呈指数级爆炸。这种不稳定性会严重影响模式识别任务中的训练过程(图1)。

张量网络的贝叶斯框架

在本节中,我们介绍了BTN的理论框架,并探讨了它们在分类任务中的应用,重点关注推理和预测。我们的方法与最近在概率机器学习方面的进展保持一致,这些进展将贝叶斯原理整合进来,以提高神经网络(NNs)的泛化能力和不确定性量化能力。

结论

在这项工作中,我们研究了BTN并提出了一种有效的初始化策略,提高了训练的鲁棒性和收敛速度。我们对多个数据集(包括BC、PW、MNIST、FMNIST、SVHN和CIFAR-10)进行了系统的实证评估,从泛化准确性和预测校准的角度评估了BTN的性能。通过利用贝叶斯先验,我们通过分析参数分布和决策边界展示了明显的正则化效果

CRediT作者贡献声明

郭 Erdong:撰写 – 审稿与编辑、撰写 – 原稿、方法论、研究、形式分析、概念化。David Draper:撰写 – 审稿与编辑、监督、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

作者感谢David Helmbold、Hongyun Wang、Qi Gong、Torsten Ehrhardt和Francois Monard的有益讨论。作者还要感谢匿名审稿人的宝贵建议和评论。郭 Erdong非常怀念David Draper以及他们一起工作的时光。
郭 Erdong在中国科学院理论物理研究所获得了博士学位,并在美国加州大学圣克鲁兹分校在David Draper教授的指导下获得了硕士学位。他的研究兴趣包括数据科学、统计学习和计算统计学,所有这些都是从贝叶斯的角度进行的。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号