一种通用且高效的神经网络不确定性量化方法：识别人工智能系统中的风险决策

《ADVANCED ENGINEERING INFORMATICS》：A general and efficient approach for uncertainty quantification in neural networks: Identifying risky decisions in AI systems

【字体：大中小】 时间：2026年01月27日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　鲁棒不确定性量化框架研究。针对现有方法在资源受限条件下采样不足、模型训练开销大及度量泛化性差等问题，提出系统可重复集合(SRE)框架。通过神经网络组件的共享重组实现并行训练，采用贡献-探索-多样性剪枝策略优化参数空间采样，构建基于证据理论的多维度不确定性度量。实验表明该框架在五类机器学习任务中均有效提升决策可靠性，且计算开销低于传统方法1.8倍。

赵张|罗森林|吴小龙|高锡凯|皮家伟|潘立民

北京工业大学信息系统与安全对策实验中心，北京，100081，中华人民共和国

摘要

神经网络中的不确定性量化能够评估人工智能系统的预测可靠性，从而降低不安全决策的风险。现有方法主要依赖于集成构建来采样模型参数空间并捕捉决策的变异性。然而，在现实资源限制下，小规模采样会导致证据来源不足和不确定性估计不准确。此外，不确定性度量的设计显著影响估计精度，并可能限制其在不同类型机器学习（ML）任务中的适用性。本文提出了一种系统可重用集成（SRE）框架用于不确定性量化。该方法在重新训练过程中重用和共享神经网络组件，以在单个训练过程中高效生成多个模型实例。进一步引入了一种复合集成剪枝策略，以促进参数空间中更均匀的采样。然后基于证据理论开发了一种通用的融合度量，并重新设计了信任分配机制。实验结果表明，所提出的框架系统地降低了集成构建的开销，同时提高了不确定性估计的可靠性。通过其在至少五种机器学习任务中识别高风险决策的有效性，进一步验证了SRE的泛化能力。

引言

神经网络在各种应用中越来越支持高效和有效的决策制定。然而，这些决策在实际工程系统中的安全性影响仍然是一个主要问题。包括自动驾驶车辆碰撞和外科机器人系统故障在内的高调事件凸显了模型不准确性在极端条件下的严重后果。为了提高决策的可靠性，已经引入了神经网络中的不确定性量化（UQ）[1]、[2]、[3]、[4]。其目的是主动识别和过滤模型难以识别或解释的样本，从而降低不安全或有害行为的可能性。

不确定性是一个跨学科的概念，涵盖了数学、统计学、物理学、经济学和社会学等领域，近年来在深度神经网络研究中受到了越来越多的关注[5]、[6]。一般来说，不确定性指的是由于推理或预测过程中信息不完整、不精确或可变而导致的不可预测性或可靠性降低。在神经网络的背景下，不确定性通常表现为模型预测的分散，并与对预测输出的信心降低密切相关。

为了更准确地建模和量化不确定性，已经提出了多种UQ框架。这些框架旨在从不同的理论角度描述不确定性，包括贝叶斯方法[7]，如变分推断[8]、拉普拉斯近似[9]和规范化流[10]，以及深度集成[11]和测试时增强方法[12]。这些方法共同提供了表示和分析神经网络预测中不确定性的互补工具。

图1(a)展示了模型不确定性分析的概念可视化。模型参数的值空间非常广泛，由蓝色区域表示。在给定的训练条件下，参数值在橙色区域内波动。为了清晰起见，该区域在图中被夸大了，实际上只占整个参数空间的一小部分。一个训练好的模型对应于该区域内的一个点，由红点表示。UQ的目标是从这一有限的观察中推断出底层参数区域的形状和边界。理想情况下，参数采样应该在整个区域内均匀分布，如图1(b)所示。然而，在实际的工程环境中，资源限制导致了图1(c)所示的情况，即采样覆盖不准确以及样本之间的过度聚合或重叠。这些效应阻碍了参数空间的有效表示并降低了不确定性估计的质量。考虑到现有UQ框架的固有特性和操作机制，可以总结出以下问题。

(1) 由于采样不足导致的量化精度低。深度集成方法[11]共同训练多个网络实例，从而近似模型的底层参数空间并从预测结果的分散中估计不确定性。测试时增强方法[12]遵循类似的原则，通过对输入数据应用仿射变换或插值来测量不同视角下的模型预测变化。然而，在实际的工程应用中，这些方法带来了巨大的内存和计算需求，限制了大规模集成和重复采样。在有限的测试预算下，采样实例之间的聚合和重叠变得更加明显，最终降低了不确定性估计的精度。

(2) 重新训练带来的沉重开销。这一限制在深度集成方法[11]中尤为明显，每个集成成员都需要一个完整且独立的训练过程。贝叶斯方法[13]通过将网络参数视为随机变量并从其后验分布中采样，进一步增加了计算复杂性。随着参数数量的增加，优化变得越来越具有挑战性，导致收敛缓慢和显著的计算开销，限制了可扩展性。

由于分布差异导致的定量指标泛化能力有限。在许多现有研究中，不确定性指标并不是为通用性而明确设计的，而是从标准统计度量中采用的。例如，Tang等人[14]使用预测方差，而Wang等人[15]使用预测熵来量化不确定性。这些指标依赖于关于数据分布的隐含假设，如方差捕捉分散程度或熵需要一个明确定义的参考分布。在复杂的机器学习（ML）任务中，没有单一指标是普遍适用的。例如，在生成建模中，约束定义较为宽松，输出格式可能不同，且语义信息通常伴随数值。这些特性违反了传统不确定性指标的假设，限制了它们在任务间的泛化能力。

现有的高效集成方法，如多输入多输出（MIMO）和批量集成，试图降低训练多个模型的成本，但仍面临固有的限制。MIMO训练一个同时处理多个输入的单一网络，这避免了重新训练，但经常受到输出之间高相关性的影响，且集成多样性有限。批量集成引入了一阶参数扰动，在共享的框架内创建多个模型实例，但每个子模型的表达能力仍受共享参数的限制，导致不确定性量化质量不足。相比之下，所提出的系统可重用集成（SRE）框架采取了根本不同的方法：它在单个训练过程中系统地重用和重组网络组件，生成结构上不同的子模型，并进一步应用贡献-探索-多样性（CED）剪枝策略以确保有效的多样性。结合通用的证据理论不确定性度量，SRE不仅实现了更高质量的不确定性量化，而且与MIMO和批量集成相比，保持了显著更低的计算开销。

为了解决上述问题，提出了一种通过系统可重用集成进行高效和通用不确定性量化的方法。通过执行结构化的扩展和重组神经网络，不同实例之间的神经网络组件参数得以共享。在单个重新训练过程中实现了并行实例化，加速了实例训练并提高了集成构建的效率。随后，引入了集成剪枝策略来移除过于相似的实例，从而确保了均匀采样和高级别的量化精度。此外，利用证据理论整合了多个统计值，从多样化的角度分析预测分散，从而减轻了定量指标对数据分布的敏感性，并促进了机器学习任务中的泛化能力。主要贡献如下：

•
系统化的重用以实现高效集成。我们提出了一种新的框架，它在实例之间共享和重组神经网络组件，实现并行训练并降低了集成构建的开销。
•
CED剪枝策略。我们设计了一种原则性的剪枝方法，确保参数空间的均匀采样，从而提高了量化精度。
•
通用的多维不确定性度量。我们开发了一种新的度量，它在Dempster–Shafer证据理论（DST）中整合了多种统计度量，实现了在多样化ML任务中的稳健和通用不确定性量化。
•
广泛的验证。我们在各种基准测试和应用场景（分类、回归、聚类、生成、强化学习和医学成像）上进行了全面实验，证明了所提出的方法能够有效识别高风险决策并提高可靠性。

本文的其余部分结构如下：第2节总结了关于深度集成和不确定性度量的相关工作。第3节描述了算法原理和实现细节。第4节展示了实证研究和实验结果。第5节讨论了有效性的威胁和未来展望。最后，第6节总结了本文。

章节片段

深度集成

集成[16]基于来自多个所谓的集成成员的预测来得出预测结果。它们通过利用不同模型之间的协同效应来实现泛化，认为一组决策者通常比单个决策者做出更多的决策。神经网络中的基于集成的不确定性量化首次出现在Lakshminarayanan等人的工作中[11]，他们使用随机初始化或选择性添加随机扰动到参数中

方法概述

鉴于第2节讨论的现有基于集成的不确定性量化方法的局限性，我们介绍了所提出的SRE框架，该框架以统一的方式解决了效率、多样性和泛化问题。

实验与分析

为了验证所提出的SRE框架的有效性和通用性，我们在多个任务和评估设置中进行了全面实验。

讨论

本节讨论了第4节中的实验发现，并进一步解释了它们对不确定性量化（UQ）的影响。

(1) 总体性能和贡献。SRE在所有评估的基准测试中都实现了持续的不确定性量化改进，表现为校准误差的减少和更可靠的预测分布。这些改进为下游任务提供了有效的指导，使得在安全敏感的应用中能够做出风险意识强的决策。

结论

SRE提出了一种不确定性量化方法。具体来说，基本组件在实例之间共享，并且在单次训练会话中多次高效提取模型参数，从而促进了有效的集成构建。此外，还结合了集成剪枝策略，以实现集成内实例之间的协同效应，从而确保了参数空间的均匀采样。此外，采用了DST来融合多种类型的统计值，

CRediT作者贡献声明

赵张：写作 – 审稿与编辑，监督，资源管理。罗森林：写作 – 审稿与编辑，监督，项目管理。吴小龙：写作 – 审稿与编辑，原始草稿编写，软件开发，项目管理，方法论，数据管理，概念化。高锡凯：写作 – 审稿与编辑，形式分析。皮家伟：软件开发，数据管理。潘立民：写作 – 审稿与编辑，监督，资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了242个国家信息安全项目（编号：2020A065）和2020年工业和信息化部信息安全软件项目（编号：CEIEC-2020-ZM02-0134）的支持。

摘要

引言