深度神经网络不确定性量化方法综述：从贝叶斯到证据推理

《IEEE Transactions on Pattern Analysis and Machine Intelligence》：A Review of Uncertainty Representation and Quantification in Neural Networks

【字体：大中小】 时间：2026年02月10日 来源：IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐：

　　本文系统梳理了深度神经网络（DNN）不确定性量化（UQ）的前沿进展，重点对比了贝叶斯神经网络（BNN）、深度集成（DE）、证据深度学习（EDL）及基于置信函数和信度集的方法。研究为解决DNN在安全关键应用中过度自信、无法区分认知不确定性（EU）和偶然不确定性（AU）等核心挑战提供了理论框架与实践指南。文章指出，融合概率与集合思想的混合方法（如Credal DEs）展现出更优的UQ性能，为构建可靠、可解释的AI系统奠定了重要基础。

随着深度神经网络（DNN）在医疗诊断、自动驾驶、金融风控等安全关键领域的广泛应用，其预测的可靠性问题日益凸显。一个核心挑战在于，传统的DNN通常只输出一个确定的预测结果，而无法告知我们这个预测有多“不确定”。这种不确定性可能源于数据本身的噪声（偶然不确定性，AU），也可能源于模型在面对前所未见的数据时因知识不足而产生的认知不确定性（EU）。将这两种不确定性混为一谈，或者对其视而不见，可能导致灾难性后果。例如，一个自动驾驶系统如果对自己在恶劣天气下的判断过于自信，就可能做出错误决策。因此，如何让DNN不仅会“答题”，还能评估自己“答题的把握”，即进行不确定性量化（UQ），成为了人工智能领域亟待解决的关键问题。

为了应对这一挑战，研究者们提出了多种技术路径。近期发表于《IEEE Transactions on Pattern Analysis and Machine Intelligence》的综述文章，系统梳理了DNN不确定性量化的前沿进展。该研究旨在为从业者提供一份UQ方法的“导航图”，通过深入分析不同方法（如贝叶斯神经网络BNN、深度集成DE、证据深度学习EDL等）的内在机理、优势与局限，阐明如何根据具体任务需求选择合适的不确定性表示与量化策略，并展望了未来融合多种范式的混合方法在提升AI系统安全性与可信度方面的巨大潜力。

研究者主要围绕几种核心的UQ范式展开论述。贝叶斯神经网络（BNN）将网络权重视为随机变量，通过计算其后验分布来捕获参数不确定性，进而反映认知不确定性。其核心是贝叶斯模型平均（BMA），即对参数空间进行积分。然而，精确计算后验分布极其困难，催生了马尔可夫链蒙特卡洛（MCMC）、变分推断（VI）和拉普拉斯近似等多种近似推断方法。尽管BNN理论坚实，但其计算开销大、先验选择敏感，且在实际分布偏移（OOD）检测中的表现有时不尽如人意。深度集成（DE）则提供了一种更实用的替代方案，通过训练多个独立模型并聚合其预测，有效模拟了预测的多样性。DE被证明在准确性和不确定性估计方面往往优于许多贝叶斯近似方法，特别是在OOD场景下，因其能捕捉假设空间中的不同模式。但其缺乏坚实的理论根基，且多模型部署带来高昂的计算成本。

证据深度学习（EDL）是另一条值得关注的路径。它不满足于预测单一的概率分布，而是预测一个二阶分布（如分类中的狄利克雷分布Dirichlet distribution或回归中的正态逆伽马分布NIG），从而直接对预测本身的不确定性进行建模。这种方法能够显式地输出认知不确定性，例如通过狄利克雷分布的浓度参数。然而，如何设计合适的损失函数来训练这类网络，以及其理论性质（如是否真的能渐进地正确反映不确定性）仍是当前研究的焦点和争议点。更进一步，有研究尝试用比概率分布更一般的数学工具，如置信函数（Dempster-Shafer theory）和信度集（credal sets），来表征不确定性。置信函数允许给类别的子集分配质量（mass），从而能更灵活地表示“无知”或“冲突”的证据状态。基于信度集的神经网络（如Credal DEs）则预测每个类别的概率上下界，形成一个概率分布的集合（即信度集），其大小直观反映了认知不确定性。这些方法在OOD检测和带有拒绝选项的分类任务中展现了优越性。

研究表明，没有一种方法在所有场景下都是完美的。BNN理论优美但计算挑战大；DE简单有效但理论解释性稍弱且成本高；EDL和信度集方法提供了新的不确定性表征方式，但其训练和理论保证仍需深入探索。未来的方向可能在于融合这些范式的优点，例如开发兼具贝叶斯严谨性和集成多样性的高效方法，或者探索能够提供统计保证（如 conformal prediction）的UQ技术。最终目标是构建出在复杂真实世界中真正可靠、可信赖的DNN系统。

该综述并未涉及具体的实验操作步骤和试剂使用，而是对已有理论和方法进行系统性的梳理、比较和评述。其分析基于对大量现有文献的归纳总结。

贝叶斯神经网络（BNN）及其不确定性量化

BNN通过将网络权重ω视为随机变量，并计算给定数据D后的后验分布p(ω|D)来建模参数不确定性。预测分布通过对参数空间积分（即BMA）获得，该积分通常难以直接计算，需借助MCMC采样或变分推断等近似方法。不确定性分解为：总不确定性（TU）= 偶然不确定性（AU）+ 认知不确定性（EU）。对于分类任务，可通过计算多个权重样本下预测概率的熵或方差来估计TU、AU和EU。

深度集成（DE）及其不确定性量化

DE通过独立训练多个DNN并平均其预测来工作。其不确定性量化方式与BMA类似，将每个集成成员视为一个样本，计算预测的方差或熵。DE被证明能有效捕捉假设空间中的不同模式，从而在OOD检测中表现优异，但其计算成本和理论基础是其主要考量。

证据深度学习（EDL）与狄利克雷分布

EDL（如Evidential Neural Networks, Prior Networks）预测狄利克雷分布的参数α，该分布刻画了类别概率向量p本身的不确定性。认知不确定性可通过狄利克雷强度（α₀= Σα_c）或分布的微分熵等方式衡量。训练通常采用包含证据正则项的特殊损失函数，以使模型对ID数据置信度高，对OOD数据不确定性大。

基于置信函数与信度集的方法

这类方法（如Dempster-Shafer理论、Credal DEs）采用比概率更一般的不确定性表示。Credal DEs预测每个类别的概率区间[p?_i, p?_i]，这些区间定义了一个信度集（所有满足区间约束的概率分布的集合）。信度集的大小（如p?_c?- p?_c?，其中c?是最可能的类别）直接反映了认知不确定性。这类方法在理论上能更好地区分无知和随机性。

不确定性量化方法的比较与讨论

文章对不同方法进行了深入比较。BNN基于严谨的贝叶斯理论，但计算复杂且先验选择影响大。DE实践简单有效，但缺乏严格理论解释且资源消耗大。EDL和信度集方法提供了新的不确定性表征视角，特别是在区分AU和EU方面有潜力，但其训练动态、理论性质（如损失函数的合理性、渐进性）以及在实际大规模应用中的效率仍是需要进一步研究的问题。研究指出，近期的一些批评性工作对某些EDL方法的理论基础提出了质疑。

研究结论与意义

该综述系统性地总结和批判性评估了深度神经网络不确定性量化的主要范式。研究表明，不确定性量化对于构建安全、可靠、可信的AI系统至关重要。不同的UQ方法各有优劣，适用于不同的场景和需求。贝叶斯方法理论坚实但计算挑战大；深度集成实践效果好但理论支撑和效率有待提升；证据深度学习和信度集等新兴方法为不确定性的表示和分解提供了新的、有前景的思路，但其理论成熟度和广泛应用仍需社区共同努力。未来的研究方向可能包括开发高效且理论性质良好的混合方法，探索具有统计保证的UQ技术，以及将UQ更深入地融入到决策支持系统中。最终目标是推动人工智能在安全关键领域实现从“有用”到“可靠可用”的跨越。

热点排行

新闻专题