视觉深度学习系统的概率运行时验证、评估与风险分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：Probabilistic Runtime Verification, Evaluation, and Risk Assessment of Visual Deep Learning Systems

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　针对深度神经网络在实际部署中因数据分布偏移导致性能评估不准确的问题，提出一种基于运行时验证和风险分析的框架。通过结合OOD检测器的实时偏移概率估计与条件网络正确性概率的二叉树结构建模，实现可靠精度评估和成本风险分析，在五个数据集和医学图像分割场景中验证了方法的有效性。

摘要

尽管在基准测试中取得了优异的性能，但由于深度神经网络对输入数据的微小变化（称为分布变化）非常敏感，因此在现实世界场景中往往表现不佳。这些变化在实际情况中很常见，但在评估过程中却很少被考虑，导致性能指标被高估。为了解决这一问题，我们提出了一种新的方法来验证、评估和评估深度学习系统。我们的方法通过在运行时从分布外检测器的输出中估计分布变化的概率来明确建模其发生情况。我们将这些估计与网络正确性的条件概率结合起来，并将它们结构化到一个二叉树中。通过遍历这棵树，我们可以计算出可靠且精确的网络准确性估计值。我们在五个数据集上测试了我们的方法，这些数据集模拟了具有不同分布变化频率的部署环境。我们的方法始终优于传统的评估方法，准确性估计的误差通常在0.01到0.10之间。我们还在一个医学分割基准测试中展示了我们方法的潜力，通过将成本与树节点关联起来进行风险评估，为成本效益分析和决策提供信息。总体而言，我们的方法为提高深度学习系统的可靠性和可信度提供了一个强大的框架，特别是在安全关键应用中，通过提供更准确的评估和可操作的风险评估。

AI总结

AI生成的摘要（实验性）

该摘要是使用自动化工具生成的，并非由文章作者编写或审核。它旨在帮助发现、帮助读者评估相关性，并协助来自相关研究领域的读者理解这项工作。它旨在补充作者提供的摘要，后者仍然是论文的主要摘要。完整文章是权威版本。点击这里了解更多。

点击这里对摘要的准确性、清晰度和实用性进行评论。这样做将有助于改进未来的版本。

AI生成的摘要

版本创建于2026年2月3日。

本文探讨了深度神经网络在基准测试中的表现与实际部署结果之间的差距，这主要是由于分布变化造成的——输入数据特征的变化影响了准确性。这些变化在实际情况中很常见，但往往被忽略，导致评估过于乐观。为了解决这个问题，作者提出了一种概率运行时验证和风险评估框架，利用分布外（OOD）检测器在操作过程中动态估计此类变化的概率。这是通过将网络正确性和变化发生的条件概率结构化到事件树中来实现的，从而允许在运行时计算网络准确性和相关风险。

他们的方法区分了分布内数据和分布外数据，计算条件准确性，并使用真阳性和真阴性率等检测器性能指标来调整概率估计。引入的一个关键改进是使用了Rogan-Gladen估计器，该估计器通过考虑检测器错误来纠正朴素事件率估计器中的偏差。该方法支持批量处理，反映了数据以组的形式到达的操作现实，尽管关于批量均匀性的假设会影响检测性能。

在包括分类和医学图像分割任务在内的五个数据集上的评估表明，与忽略分布变化的传统方法相比，该框架一致地减少了准确性估计误差。作者还探讨了风险评估，在一个息肉分割的临床案例研究中为不同的事件结果分配了经济成本。这使得通过成本效益分析进行实际决策成为可能，并确定了自动化系统与手动干预相比不再有益的阈值。

该框架提供了连续和自适应的监控，通过实时更新事件概率来应对动态数据环境。这种适应性提高了透明度，并通过在风险超过可容忍限度时进行干预来支持系统安全。此外，模块化结构允许将分析扩展到其他不良事件，例如对抗性攻击或公平性违规，前提是存在合适的检测器。

局限性包括对OOD校准数据集代表性的依赖性、对OOD检测器准确性的敏感性以及对观察窗口内静态事件概率的假设。该方法还需要仔细选择批量大小，因为过大或非均匀的批次可能会降低性能。尽管主要关注视觉领域，但该方法也有潜力应用于其他模式，包括大型语言模型。

总体而言，这项工作提供了一个实用的框架，通过识别数据的演变性质并将事件检测与概率评估和成本意识的风险评估相结合，提高了部署的深度学习系统的可靠性和风险管理。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号