编辑推荐:
贝叶斯神经网络先验设计及不确定性量化应用。针对传统BNN独立高斯先验缺乏可解释性及高斯过程扩展性差的问题,提出Mercer先验方法,通过Mercer分解将目标协方差核转化为BNN参数先验,使网络输出逼近指定高斯过程,兼具可解释性与计算高效性,并验证了其在工程实际中的有效性。
Alex Alberts | Ilias Bilionis
普渡大学机械工程学院,美国印第安纳州西拉斐特
摘要
量化神经网络输出的不确定性对于在科学或工程应用中的部署至关重要,因为在这些应用中,决策必须在数据有限或存在噪声的情况下做出。贝叶斯神经网络(BNN)通过构建网络参数的贝叶斯后验分布来提供这一框架。然而,在任何贝叶斯设置中都至关重要的先验对于BNN来说很少具有实际意义。这是因为BNN的输入到输出映射的复杂性使得很难理解某些分布如何对网络的输出空间施加可解释的约束。另一方面,高斯过程(GPs)由于其可解释性而常被用于不确定性量化任务。缺点是,如果没有先进的技术,GPs仅适用于小型数据集,而这些技术通常依赖于具有特定结构的协方差核。为了解决这些挑战,我们引入了一类新的BNN先验,称为Mercer先验,使得生成的BNN的样本能够近似于指定的GP。该方法通过直接基于协方差核的Mercer表示来定义先验,而不依赖于网络具有特定结构。通过这种方式,我们可以以一种有意义的贝叶斯方式利用BNN的可扩展性。
引言
随着神经网络开始应用于敏感领域,如复杂的工程系统或医疗保健[1]、[2]、[3]、[4],可靠地评估其预测变得至关重要。在这些情况下,神经网络仅仅提供准确的点预测往往是不够的,因为模型还必须量化输出中的不确定性以支持决策。对于神经网络,这项任务可以在贝叶斯范式下进行,即将网络参数视为随机变量并构建基于数据的后验分布,从而得到贝叶斯神经网络(BNN)[5]、[6]。神经网络的输入到输出映射的复杂性使得在为BNN的输出空间指定特定形式的先验时很难施加任何可解释的约束。因此,通常的选择是在各个网络参数上放置一个独立同分布的高斯先验。尽管这种选择很方便,但它并不总是合适的,并且很少能转化为任何有意义的约束。相比之下,高斯过程(GPs)为不确定性量化任务提供了更高的可解释性。然而,这会带来更大的计算成本,因为GPs在没有巧妙实现的情况下难以扩展到大型数据集,而这些实现通常依赖于具有特定结构的协方差核。值得注意的是,文献[7]、[8]、[9]、[10]中详细记录了BNN和GPs之间的密切关系。例如,当BNN的参数以通常的方式从高斯分布中独立抽取时,所得到的函数分布会在无限宽度极限下收敛到GP[6]。然而,极限GP的形式完全取决于网络的激活函数,因为激活函数决定了协方差核。这意味着要指定一个所需的GP先验,就需要确定一个特定的激活函数,其诱导的核与GP的核相匹配。虽然已经证明在某些情况下这是可能的[7]、[11]、[13],但通用程序仍然难以实现。这一观察激发了一个替代观点:与其固定激活函数并独立抽取参数,不如设计参数分布,使BNN能够近似于给定的GP。
在这项工作中,我们提出了一类新的BNN先验,称为Mercer先验。关键思想是直接从目标GP核的Mercer表示来构建BNN参数的先验,从而使网络的参数分布类似于高斯分布的概率密度函数。通过这种方式,可以在BNN参数上施加协方差结构,使网络在函数空间中的抽样结果类似于GP的抽样。这种方法允许BNN继承GP先验的可解释性,同时保留神经网络的可扩展性。
我们首先在第2节中介绍了这种技术,并将其置于现有的BNN采样方法背景下进行说明。第3节介绍了Mercer先验,并推导出一种可扩展的采样方案,并讨论了可能的协方差选择。在第4节中,我们深入探讨了Mercer先验在采样类似布朗运动抽样的BNN中的应用。我们将BNN的输出统计与真实的布朗运动进行了比较,并提供了数值证据,表明在无限宽度极限下预期会收敛。然后在第5节中展示了三个基于应用的示例:(i) 在异方差噪声下的分层GP回归,(ii) 在具有周期结构的数据上的时间序列预测,以及 (iii) 带有真实世界数据的椭圆非线性PDE逆问题。这些结果共同说明了Mercer先验如何为BNN提供一种原则性和可扩展的方法,使其能够在标准GP模型目前无法处理的不确定性量化任务中得到应用。
部分摘录
背景和设置
为了说明这种方法,我们研究了用BNN近似确定性函数的任务,其中,假设u ∈ L2(Ω)。我们重点关注回归任务,其中存在噪声观测数据,其形式为,其中是前向观测映射,是加性噪声。使用BNN可以对从数据中重建u的不确定性进行量化。固定一个激活函数,我们定义了一个BNN uθ。
Mercer先验
我们的方法依赖于GPs和高斯测度之间的关系[34]。也就是说,我们首先将所需GP的样本路径视为等同于从函数空间上的诱导高斯测度中抽取的样本路径。然后我们使用神经网络构建这个测度的有限维近似。参考文献[35]和[36]提供了关于无限维空间中高斯测度理论的背景,而[15]则是对这一理论的介绍。
案例研究:从布朗运动中抽取神经网络
为了说明Mercer先验在实践中的表现,我们详细研究了如何使用该先验来抽取遵循布朗运动的BNN。设C0([0, 1])是[0,1]上实值连续函数u的空间,具有性质。如果一个随机过程是从具有协方差的居中GP中抽取的样本路径,则称该随机过程遵循布朗运动。然后我们在C0([0, 1])上定义了一个协方差算子S然后,布朗运动X(t)就是这样的。
示例应用
我们提供了一些Mercer先验在实践中的应用示例。我们强调了在某些情况下用BNN替换GP是有益的,同时也展示了添加Mercer先验可以提高BNN的性能,相比于独立同分布的高斯先验。所涵盖的所有示例都包含真实世界的数据,而不仅仅是简单的合成示例,这有助于证明在实践中实施Mercer先验是值得的。在每个示例中,我们都报告了如何
结论
在这项工作中,我们引入了Mercer先验,这是一种从协方差核的Mercer表示派生出的新的BNN先验类别。该先验在BNN参数上施加了协方差结构,使得在输出空间中,网络的行为类似于具有所选协方差的相应GP。这使得BNN能够继承GP先验的可解释性,同时保留了神经网络的可扩展性和灵活性。这种方法的主要优势之一是
资金支持
这项工作得到了NSF计算和数据驱动科学与工程项目的资助,项目编号为#2347472。
CRediT作者贡献声明
Alex Alberts:撰写——原始草稿、可视化、验证、软件、方法论、形式分析、概念化。Ilias Bilionis:撰写——审阅与编辑、资金获取、概念化。