编辑推荐:
可解释人工智能(XAI)评估框架提出,通过整合人类概念与模型注意力图,利用权重证据量化一致性,并在多数据集验证中优于传统方法。
马可·帕罗拉(Marco Parola)|安东尼奥·卢卡·阿尔费奥(Antonio Luca Alfeo)|马里奥·G.C.A. 西米诺(Mario G.C.A. Cimino)
比萨大学信息工程系,意大利比萨市卢西奥·拉扎里诺广场1号(Largo Lucio Lazzarino, 1, Pisa, Italy)
摘要
近年来,可解释人工智能(Explainable AI,简称XAI)作为使人工智能系统更加透明和易于理解的关键研究领域而受到广泛关注。在各种XAI方法中,出现了一种以人类为中心的评估人工智能(Evaluative AI)的新范式,例如使用XAI方法提供证据来支持或反驳假设。这使得评估人工智能模型及其解释的可靠性成为一种新型的、对人类友好的方式。事实上,许多近期研究指出了基于模型解释的评估方法(如基于保真度的指标)的局限性,这些方法往往无法充分考虑人类的理解能力。本研究通过提出一种以人类为中心的评估框架,为XAI研究做出了贡献,该框架引入了基于证据的连贯性(evidence-based coherence)概念,以衡量人类判断与视觉解释之间的契合度。具体而言,我们提出了“基于概念的提示验证方法”(Concept-Informed Prompt-based Validation,简称CIProVa),据我们所知,这是首个将人类策略和模型策略相结合的框架,它通过概念提示并利用开放词汇架构来实现这一目标。该框架建立在“证据权重”(Weight of Evidence,简称WoE)的概率模型基础上,能够对人类提示的概念与用于解释人工智能模型分类的显著性图(salience maps)之间的契合度进行结构化评估。在这里,“概念”指的是图像中与特定类别相关的人类可识别的视觉模式或区域(例如,在被分类为“森林”的图像中存在“树”)。这一机制量化了单个概念的影响以及人类期望与模型解释之间的整体基于证据的连贯性。我们使用不同的数据集和多种配置评估了CIProVa框架的性能,并通过两项用户研究证明了其在与人类感知的解释正确性方面优于现有的基于保真度的指标。
部分内容
引言与动机
随着人工智能应用的日益普及,对透明和负责任的决策机制的需求不断增加,这推动了可解释人工智能(XAI)研究领域的发展,旨在开发出更易于理解和可靠的人工智能系统[1]。此外,诸如欧盟的《人工智能法案》[2]等监管框架要求人工智能系统,尤其是在高风险领域应用的人工智能系统,必须提供可解释和可解读的结果[3]。这些监管要求进一步加速了学术界开发改进评估方法的努力。
相关工作
根据[18]、[19]、[20]的研究,基于用户需求和解释目的,可以对XAI结果进行以下三类评估:
- •
认知影响与信任校准(Cognitive Impact and Trust Calibration,简称CI)[21]:衡量解释对用户的心理影响,重点关注人类如何内化信息并调整对系统的依赖程度。这些方法通过提供某种不确定性度量来评估最终用户校准信任的能力。
基于概念的提示验证框架
我们提出了“基于概念的提示验证方法”(Concept-Informed Prompt-based Validation,简称CIProVa),这是一种属于评估人工智能范式的解释评估工具[36]。具体而言,CIProVa评估人类知识(通过被认为与特定分类相关的概念表达)与该分类的显著性图之间的契合度。这种契合度是通过“证据权重”(Weight of Evidence,简称WoE)这一概率度量来量化的。
实验设置
为了解决图像分类任务,我们使用了ResNet18[48]和VGG11[49]作为卷积架构;同时采用了Vision Transformer(ViT)[50]作为变换器模型,所有模型都在ImageNetV1[51]上进行过预训练。我们的实验在两个基准数据集上进行:Intel Image Classification数据集[52]和Imagenette[53]。Intel Image Classification数据集包含分为六类的自然场景图像,大约有25,000张图片。
表格
人类验证与调查
据我们所知,目前还没有直接与CIProVa框架竞争的方案,因为它提供了一个基于概率的评估框架(即基于WoE),该框架利用开放词汇架构来检测人类概念并评估它们对图像分类器的重要性。因此,我们首先将CIProVa评估的结果与人类判断进行比较;然后,我们将我们的框架与现有的知名解释质量指标[13]进行对比,以评估哪种方法与人类感知的解释正确性更为一致。
讨论
在本节中,我们讨论了所提出的CIProVa框架的主要意义和局限性,以及各个模块的设计选择。
CIProVa的一个关键组成部分是开放词汇分割模块,用于定位人类提示的概念。我们的研究结果表明,CIProVa的可靠性确实部分受到该组件质量和鲁棒性的影响。如第4.3节所详细说明的,Florence和GroundingDINO在检测视觉概念时可能存在差异。
结论
本研究提出了“基于概念的提示验证方法”(Concept-Informed Prompt-based Validation,简称CIProVa),这是一个用于系统化、以人类为中心的显著性图评估的模块化框架。该框架解决了当前以人类为中心的XAI评估方法的两个主要局限性。首先,传统的视觉解释评估指标主要关注人工智能模型的解释能力。
CRediT作者贡献声明
马可·帕罗拉(Marco Parola):撰写初稿、软件开发、方法论设计、数据整理、概念构建。
安东尼奥·卢卡·阿尔费奥(Antonio Luca Alfeo):审稿与编辑、监督工作、方法论设计、数据整理、概念构建。
马里奥·G.C.A. 西米诺(Mario G.C.A. Cimino):审稿与编辑、验证工作、项目监督、资金筹集。
利益冲突声明
作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。
致谢
本项工作部分得到了以下机构的支持:(i) 欧盟委员会(European Commission)在NextGenerationEU计划下的扩展合作伙伴关系PNRR PE1——“FAIR - 未来人工智能研究”(Spoke 1“以人类为中心的人工智能”)和PNRR - M4 C2项目(投资1.5“创建和加强创新生态系统”,打造“区域研发领导者”,项目“The - 托斯卡纳健康生态系统”,Spoke 6“精准医疗和个性化医疗”);(ii) 意大利教育与研究部(MIUR)。