神经网络在各种应用中越来越支持高效和有效的决策制定。然而,这些决策在实际工程系统中的安全性影响仍然是一个主要问题。包括自动驾驶车辆碰撞和外科机器人系统故障在内的高调事件凸显了模型不准确性在极端条件下的严重后果。为了提高决策的可靠性,已经引入了神经网络中的不确定性量化(UQ)[1]、[2]、[3]、[4]。其目的是主动识别和过滤模型难以识别或解释的样本,从而降低不安全或有害行为的可能性。
不确定性是一个跨学科的概念,涵盖了数学、统计学、物理学、经济学和社会学等领域,近年来在深度神经网络研究中受到了越来越多的关注[5]、[6]。一般来说,不确定性指的是由于推理或预测过程中信息不完整、不精确或可变而导致的不可预测性或可靠性降低。在神经网络的背景下,不确定性通常表现为模型预测的分散,并与对预测输出的信心降低密切相关。
为了更准确地建模和量化不确定性,已经提出了多种UQ框架。这些框架旨在从不同的理论角度描述不确定性,包括贝叶斯方法[7],如变分推断[8]、拉普拉斯近似[9]和规范化流[10],以及深度集成[11]和测试时增强方法[12]。这些方法共同提供了表示和分析神经网络预测中不确定性的互补工具。
图1(a)展示了模型不确定性分析的概念可视化。模型参数的值空间非常广泛,由蓝色区域表示。在给定的训练条件下,参数值在橙色区域内波动。为了清晰起见,该区域在图中被夸大了,实际上只占整个参数空间的一小部分。一个训练好的模型对应于该区域内的一个点,由红点表示。UQ的目标是从这一有限的观察中推断出底层参数区域的形状和边界。理想情况下,参数采样应该在整个区域内均匀分布,如图1(b)所示。然而,在实际的工程环境中,资源限制导致了图1(c)所示的情况,即采样覆盖不准确以及样本之间的过度聚合或重叠。这些效应阻碍了参数空间的有效表示并降低了不确定性估计的质量。考虑到现有UQ框架的固有特性和操作机制,可以总结出以下问题。
(1) 由于采样不足导致的量化精度低。深度集成方法[11]共同训练多个网络实例,从而近似模型的底层参数空间并从预测结果的分散中估计不确定性。测试时增强方法[12]遵循类似的原则,通过对输入数据应用仿射变换或插值来测量不同视角下的模型预测变化。然而,在实际的工程应用中,这些方法带来了巨大的内存和计算需求,限制了大规模集成和重复采样。在有限的测试预算下,采样实例之间的聚合和重叠变得更加明显,最终降低了不确定性估计的精度。
(2) 重新训练带来的沉重开销。这一限制在深度集成方法[11]中尤为明显,每个集成成员都需要一个完整且独立的训练过程。贝叶斯方法[13]通过将网络参数视为随机变量并从其后验分布中采样,进一步增加了计算复杂性。随着参数数量的增加,优化变得越来越具有挑战性,导致收敛缓慢和显著的计算开销,限制了可扩展性。
由于分布差异导致的定量指标泛化能力有限。在许多现有研究中,不确定性指标并不是为通用性而明确设计的,而是从标准统计度量中采用的。例如,Tang等人[14]使用预测方差,而Wang等人[15]使用预测熵来量化不确定性。这些指标依赖于关于数据分布的隐含假设,如方差捕捉分散程度或熵需要一个明确定义的参考分布。在复杂的机器学习(ML)任务中,没有单一指标是普遍适用的。例如,在生成建模中,约束定义较为宽松,输出格式可能不同,且语义信息通常伴随数值。这些特性违反了传统不确定性指标的假设,限制了它们在任务间的泛化能力。
现有的高效集成方法,如多输入多输出(MIMO)和批量集成,试图降低训练多个模型的成本,但仍面临固有的限制。MIMO训练一个同时处理多个输入的单一网络,这避免了重新训练,但经常受到输出之间高相关性的影响,且集成多样性有限。批量集成引入了一阶参数扰动,在共享的框架内创建多个模型实例,但每个子模型的表达能力仍受共享参数的限制,导致不确定性量化质量不足。相比之下,所提出的系统可重用集成(SRE)框架采取了根本不同的方法:它在单个训练过程中系统地重用和重组网络组件,生成结构上不同的子模型,并进一步应用贡献-探索-多样性(CED)剪枝策略以确保有效的多样性。结合通用的证据理论不确定性度量,SRE不仅实现了更高质量的不确定性量化,而且与MIMO和批量集成相比,保持了显著更低的计算开销。
为了解决上述问题,提出了一种通过系统可重用集成进行高效和通用不确定性量化的方法。通过执行结构化的扩展和重组神经网络,不同实例之间的神经网络组件参数得以共享。在单个重新训练过程中实现了并行实例化,加速了实例训练并提高了集成构建的效率。随后,引入了集成剪枝策略来移除过于相似的实例,从而确保了均匀采样和高级别的量化精度。此外,利用证据理论整合了多个统计值,从多样化的角度分析预测分散,从而减轻了定量指标对数据分布的敏感性,并促进了机器学习任务中的泛化能力。主要贡献如下:
- •
系统化的重用以实现高效集成。我们提出了一种新的框架,它在实例之间共享和重组神经网络组件,实现并行训练并降低了集成构建的开销。
- •
CED剪枝策略。我们设计了一种原则性的剪枝方法,确保参数空间的均匀采样,从而提高了量化精度。
- •
通用的多维不确定性度量。我们开发了一种新的度量,它在Dempster–Shafer证据理论(DST)中整合了多种统计度量,实现了在多样化ML任务中的稳健和通用不确定性量化。
- •
广泛的验证。我们在各种基准测试和应用场景(分类、回归、聚类、生成、强化学习和医学成像)上进行了全面实验,证明了所提出的方法能够有效识别高风险决策并提高可靠性。
本文的其余部分结构如下:第2节总结了关于深度集成和不确定性度量的相关工作。第3节描述了算法原理和实现细节。第4节展示了实证研究和实验结果。第5节讨论了有效性的威胁和未来展望。最后,第6节总结了本文。