DE-BNN: 一种用于贝叶斯神经网络后验采样的进化方法

《Neurocomputing》：DE-BNN: An evolutionary approach to Bayesian neural network posterior sampling

【字体：大中小】 时间：2026年02月22日 来源：Neurocomputing 6.5

编辑推荐：

　　本文聚焦于贝叶斯神经网络在面临可扩展性差、难以收敛等挑战时的训练难题。研究人员创新性地将差分进化算法与马尔可夫链蒙特卡罗方法相结合，提出了DE-MCMC框架，并构建了DE-BNN模型。实验结果表明，该方法在神经进化回归问题以及电力负荷预测、混凝土强度预测等工业应用中表现优异，其概率预测能力优于变分推断贝叶斯神经网络和哈密顿蒙特卡洛贝叶斯神经网络。这项工作为高维非凸空间中的贝叶斯推理提供了一种新颖且高效的采样策略。

在机器学习和人工智能领域，贝叶斯神经网络相较于传统神经网络，其核心优势在于能够量化预测中的不确定性，从而获得更可靠的模型并避免过拟合。它通过将网络权重和偏置视为随机变量，并利用贝叶斯推断来计算其后验分布来实现这一目标。然而，构建一个高效的贝叶斯神经网络并非易事。传统的马尔可夫链蒙特卡罗方法虽然理论上可以提供精确的后验采样，但在处理高维、非凸的参数空间时，常常遭遇可扩展性差和难以收敛的瓶颈。另一方面，变分推断等方法虽然计算效率更高，但需要对后验分布形式进行假设，是一种近似方法，可能牺牲了准确性。如何找到一种既能有效探索复杂参数空间，又能高效、准确地进行贝叶斯推理的方法，成为了一个重要的研究挑战。

针对这一挑战，来自博伊西州立大学计算机科学系的Wesley Forbes和Min Long在《Neurocomputing》期刊上发表了一项研究。他们独辟蹊径，将目光投向了进化计算领域中的差分进化算法。差分进化是一种强大的随机优化技术，具有良好的可扩展性，并已被成功用作神经网络的替代训练机制，形成所谓的神经进化算法。研究人员敏锐地发现，差分进化算法在迭代过程中产生的候选解序列，可以视为一种经过修改的马尔可夫链，从而能够巧妙地作为MCMC方法中的提议分布生成器。基于这一洞见，他们提出了一种名为DE-BNN的新方法，将增强型差分进化与MCMC相结合，形成了一个名为DE-MCMC的新型非参数化框架，专门用于训练贝叶斯神经网络。

这项研究主要采用了几个关键的技术方法：首先是差分进化，作为一种基于种群的优化算法，它通过变异、交叉和选择操作来进化候选解（即神经网络的权重和偏置集）。研究中对经典DE进行了增强，引入了可变突变率、可变交叉率以及当算法陷入停滞时触发的超突变策略，以更好地平衡探索与利用。其次，研究将DE过程构建为一个马尔可夫链蒙特卡罗采样器，利用DE生成的提议分布来探索贝叶斯后验分布，并通过Metropolis-Hastings准则接受或拒绝提议，从而获得权重和偏置的后验分布样本。此外，研究还应用了奇异值分解和聚类算法作为辅助的细化技术，在算法停滞时对权重矩阵进行修改或对种群进行聚类，以注入新的搜索多样性。最终，利用从DE-MCMC过程中获得的后验分布样本，可以进行概率预测，例如提供预测均值及其可信区间。

研究结果

2. 提出的方法

研究提出使用DE-MCMC作为贝叶斯神经网络中高维采行的可行替代方案。其主要优势在于DE算法本身具备逃离局部最小值的能力、易于并行化，并且在可扩展性方面展现出潜力。采样技术的核心优势在于无需对后验分布的形式做任何假设。DE-MCMC通过其种群候选解隐式地生成并行链，这些链通过彼此间的差分组合而相互混合，从而改善了参数空间的探索。本研究将此方法应用于一个具有701个参数的中等规模多层感知机。

3. 增强技术

为了克服差分进化中可能出现的停滞问题，研究引入了一套增强技术。当检测到数代平均适应度残差为零时，即判定为停滞。此时，系统会激活一系列机制：可变突变率与算子：缩放因子F和突变算子类型在预设范围内随机选择，可以针对不同权重/偏置层变化，以增加搜索的多样性。可变交叉率：交叉率CR同样在停滞期间从离散集中随机选取。SVD修改：对权重矩阵进行奇异值分解，并通过三种方式（乘以标量、取幂、对对数取幂）修改奇异值，或进行低秩近似，以去除噪声或引入新搜索点。聚类：使用K-means、谱聚类或凝聚聚类对种群候选解进行聚类，并用聚类中心替代原候选解，旨在发现更有希望的搜索区域。局部搜索：对当前候选解进行多次随机扰动，若找到更优解则替换。这些技术按一定周期（如每十代）在停滞期应用，以平衡探索与利用。

4. DE-NN (差分进化训练的神经网络)

研究使用差分进化而非反向传播来训练神经网络的权重和偏置。每个权重矩阵和偏置向量都独立维护一个种群，并在其自身的维度空间内进行差分进化的变异、交叉和选择操作。这种方法保留了权重矩阵的结构，使得前述的SVD修改等技术得以应用。

5. DE-BNN (基于差分进化的贝叶斯神经网络)

研究将DE过程构建为一个MCMC采样器（DE-MCMC），用于对权重和偏置的后验分布进行采样。在每一代，根据Metropolis-Hastings准则接受或拒绝DE产生的新候选解（即提议），从而形成马尔可夫链。DE-MCMC利用其并行种群天然地构建了多条链，这些链之间的混合有助于减少自相关性。最终，从后验分布中获得的样本被用于进行概率预测。预测基于预测后验分布，通过对从权重/偏置后验中抽取的样本进行前向传播并聚合结果来实现，从而提供点估计（如后验均值或众数）以及预测区间。

6. 实验与应用：每小时电力负荷预测

研究将DE-BNN应用于一个实际的长期（三年训练，一年测试）每小时电力负荷预测问题。使用了一个(7,35,10,5,1)结构的多层感知机。实验将DE-BNN与变分推断贝叶斯神经网络和哈密顿蒙特卡洛贝叶斯神经网络进行了比较。结果显示，DE-BNN在测试适应度和准确率方面取得了接近或更好的结果。更重要的是，DE-BNN提供了更优的概率预测，其预测区间能够更好地覆盖实际观测值。

7. 实验与应用：混凝土抗压强度预测

在另一个工业问题——混凝土抗压强度预测中，DE-BNN再次接受了测试。结果表明，DE-BNN在测试适应度上表现最佳，并且其概率预测（预测区间）同样展现出卓越的性能，能够有效地涵盖实际值。

8. 复杂度分析

研究对DE-BNN的计算复杂度进行了分析，主要开销在于神经网络的前向传播计算以适应度评估。由于DE-MCMC可以并行评估种群个体，其计算时间与种群大小和网络规模呈线性关系。与需要计算梯度的HMC等方法相比，DE-BNN避免了梯度计算的开销，这在处理复杂、非凸的损失面时可能是一个优势。

结论与讨论

本研究成功地提出并验证了一种新颖的、非参数化的贝叶斯神经网络训练方法——DE-BNN。该方法的核心创新在于将增强型差分进化算法与马尔可夫链蒙特卡罗采样相结合，形成了DE-MCMC框架。这一框架巧妙地利用了差分进化在高维空间中的高效搜索能力来生成MCMC的提议分布，从而克服了传统MCMC方法在BNN中面临的可扩展性和收敛性挑战。

研究结果表明，DE-BNN在神经进化回归任务以及电力负荷预测、混凝土强度预测两个实际工业问题上均表现出色。它不仅能够达到与先进的变分推断BNN和哈密顿蒙特卡洛BNN相媲美甚至更优的预测精度，更重要的是，它提供了显著更优的概率预测能力。DE-BNN生成的预测区间（可信区间）能够更可靠地覆盖真实数据，这在实际应用中对于风险评估和决策制定至关重要。

这项工作的意义在于为贝叶斯神经网络的后验采样提供了一个强大且实用的替代方案。它证明了基于种群的进化算法可以与贝叶斯推理框架有效融合，为解决高维、非凸空间中的不确定性量化问题开辟了一条新途径。DE-BNN的并行特性使其具有良好的可扩展性，而其不依赖于梯度信息的特点，使其能够处理那些梯度难以计算或存在大量局部最优值的复杂模型。未来，该方法可以进一步扩展到更复杂的网络架构和更大规模的数据集上。

热点排行

新闻专题