STOOD-X：通过大规模数据集上的非参数统计检验实现可解释的异常分布检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：STOOD-X: Explainable Out-of-Distribution Detection via Nonparametric Statistical Testing on Large-Scale Datasets

【字体：大中小】 时间：2026年02月10日 来源：Pattern Recognition 7.6

编辑推荐：

　　提出STOOD-X双阶段方法，通过非参数统计测试和可视化解释提升OOOD检测的可解释性，在复杂数据集上表现优于现有方法，支持人类监督和模型调试。

Iván Sevillano-García | Julián Luengo | Francisco Herrera

安达卢西亚数据科学与计算智能研究所（DaSCI），格拉纳达大学计算机科学与人工智能系，西班牙格拉纳达

摘要

异常数据（OOD）检测是机器学习中的关键任务，特别是在安全敏感的应用中，模型故障可能会产生严重后果。然而，当前的OOD检测方法往往受到限制性分布假设的约束，可扩展性有限，并且缺乏可解释性。为了解决这些问题，我们提出了STOOD-X，这是一种结合了统计非参数OOD检测方法和可解释性增强的两阶段方法。在第一阶段，STOOD-X使用特征空间距离和Wilcoxon-Mann-Whitney检验来识别OOD样本，而不需要假设特定的特征分布。在第二阶段，它生成用户友好的、基于概念的可视化解释，揭示了每个决策背后的特征，这与BLUE XAI范式一致。通过在基准数据集和多种架构上的广泛实验，STOOD-X在性能上可与最先进的事后OOD检测器相媲美，尤其是在高维和复杂环境中。此外，其可解释性框架还支持人工监督、偏差检测和模型调试，促进了人类与AI系统之间的信任与合作。因此，STOOD-X为现实世界的OOD检测任务提供了一种稳健、可解释且可扩展的解决方案。

引言

异常数据（OOD）检测已成为机器学习中的一个挑战[1]，其任务是区分分布内（ID）样本和OOD样本。特别是在处理人工智能（AI）模型时，任何引入模型的实例都会得到一个预测结果，因此识别引入的实例是否与模型训练的数据分布相匹配至关重要。在安全关键的场景中，如果没有OOD算法，AI模型可能会做出错误决策，而不是依赖人类判断。因此，可靠地检测OOD样本的能力已成为构建稳健、可靠和值得信赖的AI系统的基本要求。

已经开发了多种算法来应对这一挑战。OOD检测算法可以根据应用起点进行分类，可以分为基于训练的算法和事后算法。基于训练的算法从训练阶段就开始应用它们的近似方法。这些算法通过添加正则化来增加ID样本和OOD样本之间的区分度[2]，甚至添加可训练的层以获得OOD分数[3]。事后方法则在模型已经训练完成的情况下使用，通常在重新训练成本过高时选择这些方法。

在事后算法中，根据算法的基础不同，也有不同的方法。基于分类的算法利用模型输出来检测OOD样本[4]。基于梯度的算法通过分析ID样本的梯度来区分它们和OOD样本[5]。基于距离的算法利用特征空间来检测OOD样本，通过测量ID样本和OOD样本之间的距离来实现。一些近似方法使用参数化假设，如特征空间中的高斯性[6]，而其他方法则使用非参数分析[7]。此外，最近的研究探索了结合多种算法的优势[8]，整合了参数化和非参数方法的分数。

尽管取得了这些进展，现有的OOD检测方法仍存在一些局限性。许多方法依赖于关于数据分布的强假设，例如高斯性，这在现实世界中可能不成立；此外，大多数方法缺乏可解释性，使得难以理解为什么某个样本被分类为OOD。此外，大多数方法提供的分数没有理论上的严谨意义，例如统计测试。这些挑战突显了需要一种更加稳健和可解释的OOD检测解决方案。

与这些算法进展并行的是，人们对可解释AI（XAI）技术的兴趣日益增加，这种技术可以提供模型决策过程的洞察[9]。在[10]中给出了XAI的明确定义：“对于特定受众，可解释的人工智能是指能够提供细节或理由以使其功能清晰或易于理解的人工智能”。我们还可以区分对AI系统的不同查询，例如询问谁、何时、什么以及如何解释一个决策[11]。在[12]中对XAI进行了深入分析和反思。在[13]中提出了两种考虑XAI的方式，即BLUE（责任、合法、可信、伦理）和RED（研究、探索、调试）XAI，将前者纳入专家理解和可信AI的分析范围。本文将使用BLUE XAI方法，考虑[12]中分析的不同利益相关者（见本文图4，其中包含显示不同受众群体的图表）。具体来说，在OOD检测任务中，最近的研究使用解释来验证AI决策[14]。这些方法利用可视化帮助用户理解为什么某个样本被分类为OOD，从而促进信任和人机协作。

在这项工作中，我们从XAI的角度解决了OOD检测问题，引入了STOOD-X（一种结合了可解释性的统计OOD检测方法）。该方法的第一阶段是一种新颖的事后OOD检测算法，利用特征空间距离和统计测试来检测OOD样本。第二阶段包括生成解释，为OOD检测过程中做出的决策提供清晰且用户友好的可视化和理由。STOOD-X使用具有有意义概率基分数的非参数统计测试，并为OOD检测决策提供解释。

我们的实验表明，STOOD-X在多个基准数据集和架构上表现出了竞争性，并且具有可解释性潜力，使其成为现实世界OOD检测的一个有前景的解决方案。

本文的其余部分组织如下：第2节回顾了OOD检测和XAI的相关工作。第3节介绍了STOOD-X，区分了检测和解释阶段。第4节描述了实验设置，第5节展示了结果并与最先进的方法进行了比较。第6节展示了可解释性能力。最后，第7节总结了本文并讨论了未来的发展方向。

STOOD-X方法：利用特征空间分析和统计测试的OOD检测算法，并增强了可解释性

在本节中，我们描述了STOOD-X方法的基础，这是一种新颖的可解释两阶段方法，旨在使用特征空间距离和统计测试来检测OOD样本，并通过改进的可解释性来增强检测能力。由于其基于特征的ID样本构建方式，该方法为OOD检测器的可解释性做出了贡献。

实验设置

本节详细描述了用于评估STOOD-X在OOD检测中性能的实验设置。我们描述了基准数据集的选择（4.1）、神经网络架构（4.2）、性能指标（4.3）、考虑的超参数（4.4）以及最先进的比较算法（4.5）。

评估STOOD-X在OOD检测中的能力

本节分析了STOOD-X的第一阶段行为，即OOD检测算法。分析分为三个步骤：两个步骤用于实证优化STOOD-X，一个步骤用于评估其性能。在5.1节中，我们分析了所用邻居数量的影响。在5.2节中，我们评估了用于计算距离的特征数量的影响。最后，在5.3节中，我们将优化后的STOOD-X与其他方法进行了比较。

评估STOOD-X的可解释性

在本节中，我们从BLUE XAI的角度评估了STOOD-X的可解释性能力。我们的评估从多个维度检查了解释质量：特征相关性对齐、邻居相似性一致性以及偏差检测能力。我们使用zennit-crp库生成特征重要性可视化。

我们首先对解释质量进行了全面评估。我们确定了三个关键评估标准：

1.

特征-邻居一致性：比较

结论

STOOD-X通过将稳健的统计分析与以人为中心的可解释性相结合，在OOD检测方面取得了显著进展。它的两阶段框架使用非参数统计测试进行检测，并提供可解释的可视化支持决策，提供了一种原则性、可扩展且用户可理解的解决方案。与许多现有方法不同，STOOD-X不依赖于限制性分布假设，并通过

CRediT作者贡献声明

Iván Sevillano-García：撰写——原始草稿、软件、方法论、形式分析、概念化。Julián Luengo：撰写——审稿与编辑、验证、监督。Francisco Herrera：撰写——审稿与编辑、验证、监督、资源获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

F. Herrera得到了欧盟下一代复兴、转型和韧性计划（Next Generation）通过数字化转型和公务员部资助的TSI-100927-2023-1项目的支持。所有作者还得到了西班牙科学技术部资助的项目PID2023-150070NB-I00的支持，该项目由MCIN/AEI/10.13039/501100011033提供资金。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作