《Frontiers in Artificial Intelligence》:Designing effective explainable AI: a human-centered evaluation of explanation formats in financial decision-making
编辑推荐:
本文从“以人为本”的视角出发,对金融领域可解释人工智能(XAI)的多种视觉解释格式进行了系统性评估。研究通过结合用户研究与多利益相关方工作坊的混合方法,评估了特征重要性、反事实、对比/相似案例和基于规则等四类解释的可视化设计。一个关键发现是终端用户(偏好简洁、情境化的视觉解释)与其他利益相关方(如合规官、XAI顾问,倾向于更完整、技术性的呈现)之间存在需求差异,这揭示了可解释性与完整性之间的关键权衡。该研究为设计更透明、可信且以用户为中心的金融AI系统提供了可操作的洞见。
随着人工智能(AI)系统越来越多地被部署在信贷评分、风险评估和欺诈检测等高风险的金融决策场景中,对系统透明度和可解释性的需求变得至关重要。可解释人工智能应运而生,旨在解决这些需求。然而,现有的大部分XAI研究侧重于解释的客观质量指标(如正确性和完整性),往往忽视了终端用户的需求以及更广泛的利益相关方生态系统的角色。本研究采用了一种“以人为本”的评估方法,针对金融AI应用中的不同视觉解释设计,评估其有效性。
本研究采用了两阶段的混合方法评估流程,结合了对终端用户的用户研究以及一个多利益相关方工作坊,对四类解释(特征重要性、反事实、对比/相似案例、基于规则的解释)的视觉原型进行了排序。一个关键发现是终端用户(如贷款审批员、保险理赔顾问)与其他利益相关方(包括合规官、XAI顾问和开发者)之间存在显著偏好差异。终端用户倾向于简洁、情境化的视觉解释,例如少量决策规则的集合或相对于类似案例的风险图;而其他利益相关方则通常更青睐更完整、技术细节更丰富的呈现方式。这突显了“可解释性”与“完整性”之间存在一个关键权衡。这表明,视觉编码的选择可能会影响AI解释在不同利益相关群体中的有效性。
为了设计和评估这些解释,研究者首先基于现有文献、两个真实世界的用例(商业信贷审批和汽车保险理赔欺诈评估)以及对相关法规(如欧盟AI法案和GDPR)的分析,提炼了一套解释必须满足的要求。这些要求通过专家研讨会进行了优先级排序,形成了最终的本地解释需求列表。排名最高的要求包括“帮助人们理解如何改变一个决策(例如从拒绝变为接受)”、“鼓励用户采取行动(例如查询或核实信息)”以及“帮助用户识别偏见、画像和歧视的风险”。
在理解用户需求方面,研究者通过结构化用例表和半结构化访谈,详细获取了两个用例的背景信息及终端用户的具体需求。这些需求被转化为用户故事,进而衍生出具体的设计功能要求,为后续的原型开发提供了蓝图。例如,用户故事“作为用户,我希望看到哪些特征对决策贡献最大,以便理解结果背后的推理”对应的功能要求是“显示前五个最具影响力的特征;应用颜色编码来表示正面和负面影响”。
原型开发过程紧密遵循了从用户需求中提炼出的功能要求,并借鉴了认知科学和人机交互(HCI)的成熟原则,如认知负荷理论和选择性注意理论。研究者为每个用例开发了四种解释类型(特征重要性、反事实、对比/相似案例、基于规则)的多个视觉设计原型,共计39个(商业信贷20个,保险欺诈19个)。展示了一个用于保险欺诈用例的对比/相似案例设计示例,它通过一个水平风险评分条(蓝色、橙色、红色)直观地比较了四个汽车盗窃保险案例。
在评估阶段,第一阶段由两个公司的六名终端用户完成。他们通过两两比较对每个解释类型下的不同设计进行偏好排序,并基于11项“以人为本”的解释标准(如“易理解”、“易用”、“满意度”、“有用性”、“简洁性”、“可行动性”等)对原型进行李克特量表评分。斯皮尔曼秩相关分析显示,在“保险理赔”用例中,原型偏好与“简洁性”和“易用性”标准相关性最强;在“金融科技信贷”用例中,则与“满意度”和“易用性”相关性最强。这提示,易用、简洁且令人满意的解释倾向于更受用户青睐。值得注意的是,在41.7%的情况下,用户主观偏好的设计与根据各项标准总分排名最高的设计并不一致,这暗示用户在做出整体偏好判断时,可能对不同标准赋予了不同的权重。
第二阶段的工作坊邀请了来自咨询公司、合规部门和XAI系统开发方的四位利益相关方。他们使用“100美元分配法”对同一组原型进行评估,并对每种解释类型中排名前三的设计提供了定性反馈。定量结果显示,在特征重要性解释中,原型D最受青睐;在反事实解释中,原型C和E并列领先;在对比/相似案例解释中,原型A最受欢迎;在基于规则的解释中,原型B得分最高。
工作坊的定性讨论揭示了不同解释类型设计中的具体挑战和考量。对于特征重要性可视化,参与者关注数值标度的不明确性、特征数量的选择阈值,以及颜色编码(特别是红色表示负面影响)可能导致的自动化偏见风险。对于对比/相似案例,反馈集中在阅读顺序的逻辑性、当前案例的突出显示、示例选择的代表性以及交互性需求上。一个波浪形边界的视觉隐喻因与模型的硬分类决策语义不匹配而引起了混淆,这强调了视觉表示与模型实际行为保持一致的重要性。对于反事实解释,其效用被认为高度依赖于上下文,紧凑、结构化的布局受到青睐。对于基于规则的解释,其设计被认为高度依赖上下文,参与者普遍偏好带有下拉菜单等交互元素的、能减少视觉混乱的设计。一个用阴影框序列表示风险缓解步骤的设计因视觉流程模糊而难以解读,这凸显了清晰视觉层次的重要性,并警告了过度抽象或非标准设计隐喻可能增加认知负荷。
基于整个研究过程,研究者归纳出一些初步的设计原则见解。在色彩使用上,虽然红色因其强烈的直觉信号被用于标记负面结果,但研究者避免使用绿色表示正面结果,而是选择浅蓝色作为更中性的替代,以准确反映决策情境中的连续谱系(例如不同风险等级),而非简单的二元好坏。在上下文信息方面,用户认为缺乏解释性信息(如没有数值的条形图)的图表是不完整的,因此需要在可视化中添加适量的数字细分和比较标度等“提示”。在视觉克制方面,强调只包含对理解结果有必要的元素,避免信息过载。在结构与视觉层次上,强调有序的布局、逻辑分组和视觉层次,以符合阅读习惯(如从左到右、从上到下)的方式引导用户视线,从而降低认知负荷。在泛化性方面,挑战在于设计能够适应不同领域和决策上下文的解释可视化。研究发现,单一、通用的解释可能效果不佳,而允许用户调整细节水平或与不同元素交互的、灵活的、可定制的解释,可能在可用性和全面性之间取得更好平衡。
综上所述,这项针对金融领域XAI视觉解释设计的人本化评估研究,揭示了不同利益相关方群体在解释需求上的显著差异,并系统评估了多种可视化格式的有效性。研究强调了在设计XAI系统时,必须仔细权衡可解释性与完整性,并充分考虑视觉呈现、交互设计以及认知因素对用户体验和决策质量的影响。通过结合定量评估与定性洞察,该研究为开发更透明、可信且真正以用户为中心的金融AI系统提供了宝贵的实践指导和设计原则。