《International Journal of Human-Computer Studies》:Under what influence: Measuring AI influence to fit user profiles in decision-making
编辑推荐:
本研究提出一个新颖的综合性指标框架,以超越传统的人机决策“一致性”度量,旨在量化AI系统对决策质量的真正“影响”,并将其与用户画像(包括专业角色、专长和信赖倾向等)相关联。通过对MRI、ECG、X射线和ENDO四个医学领域的用户研究分析,该研究发现AI的影响力存在显著领域差异,揭示了特定领域的偏见(如MRI中显著的自我锚定偏见)并指明了优化人机协作的途径,从而推动高风险领域中以人为本的AI系统设计。
在当今知识密集型任务领域,如医学影像诊断,人工智能(AI)系统正日益成为辅助人类决策的关键工具。然而,当前AI系统的开发往往过度聚焦于算法层面的技术性能指标,如准确性和效率,而对其如何真正影响用户决策的质量、以及这种影响是否“合适”(appropriate)则缺乏系统性的评估。如果AI的建议没有被用户适当地采纳或拒绝,或者其建议本身对最终决策结果没有带来可衡量的改善,那么该系统不仅可能无效,甚至可能造成资源浪费或更糟糕的后果。一个核心挑战在于,如何超越简单的“人机决策一致性”评估,去度量AI对人类决策者的实际“影响力”(influence),并将其与用户的个人特征(如专业技能、角色、自信心和依赖倾向)相匹配,从而设计出更能增强人类能力、促进校准后信任(calibrated trust)的AI系统。
为了解决上述问题,来自意大利米兰-比可卡大学信息学、系统和通信系的研究团队,在《International Journal of Human-Computer Studies》上发表了一项题为“Under what influence: Measuring AI influence to fit user profiles in decision-making”的研究。他们提出了一个新颖且全面的度量框架,旨在评估AI对人类决策的影响,并强调行为模式和决策结果的可测量改进。研究团队将此框架应用于四个医学领域的案例研究(MRI、ECG、X射线和内窥镜诊断),涉及了从专家、亚专科医生到实习生的不同用户群体。
研究采用的关键技术方法包括:开发一个全面的度量框架,包含从一致性度量(如协议百分比)、依赖性度量(如主导强度、顺从强度)到影响力度量(如影响力指数、适当影响力)和偏见度量(如自动化偏见、自我锚定偏见)等一系列指标;设计并实施了四项基于模拟AI系统的在线用户研究,分别涉及MRI膝关节病变分类、ECG心跳模式分类、X射线胸腰椎骨折检测以及内窥镜视频病灶评估,共收集了330名从业者超过15,000个决策数据;使用Bias-corrected and Accelerated (BCa) Bootstrap算法进行统计推断,计算各指标的95%置信区间,并通过区间比较评估显著性差异;最后,基于用户特征(如专业角色、初始表现水平、自信度)对数据进行分析,以探究AI影响如何随用户画像变化,并为AI系统的个性化配置提供证据支持。
研究结果通过系列指标揭示了AI影响的复杂性:
1. 协议度量揭示了表面一致性:
整体上,人机决策一致性(Percent of Agreement)在所有研究中均较高,从MRI的0.71到内窥镜的0.81不等。然而,协议错误率(Error rate in agreement)在ECG研究中最高(0.27),表明即使在一致的情况下,也有相当比例的决策是双方都错误的。这凸显了仅靠一致性指标无法评估决策质量。
2. 依赖性度量揭示了决策改变的意愿与方向:
主导强度(Dominance Strength,即用户改变主意的频率)在X射线研究中最高(0.24),表明AI建议在该领域最能促使用户改变决策。主导方向(Dominance Orientation)在ECG研究中最为正向(0.71),意味着改变决策更可能带来正确结果。顺从方向(Deference Orientation)在MRI研究中最高(0.82),显示当用户改变主意时,他们更倾向于遵循正确的AI建议,而非错误的。
3. AI决策影响与团队效应:
AI决策影响(AI Decision Impact)以比值比形式衡量,表明X射线(2.00)和ECG(1.61)研究中的AI支持显著降低了错误率(值>1)。团队AI决策效应(Team AI Effect on Decision)也证实了这一点,X射线的效应值高达1.23。相反,MRI研究的影响指数接近1.06,团队效应仅为0.18,表明AI带来的改善有限。所需决策数(Number Needed of Decisions, NND)指标显示,在MRI中需要19次AI辅助诊断才能避免一次未经AI辅助会犯的错误,而在ECG中仅需5次,这量化了AI在不同任务中的“性价比”。
4. 偏见度量揭示了人机互动的潜在障碍:
自动化偏见(Automation Bias,即对错误AI建议的过度依赖)在ECG研究中相对最高(0.30)。而自我锚定偏见(Self-anchoring Bias,即对正确AI建议的过度拒绝)在MRI研究中异常高(6.94),远高于其他研究(如X射线为0.20),这表明MRI专家过于坚持自己的初始判断,即使AI是正确的。这直接导致了MRI研究的适当依赖水平(Appropriate Reliance)最低(0.28),远低于内窥镜和ECG(约0.51)。
5. 影响力指标揭示了AI的真实效应:
影响力指数(Influence Index)衡量了AI暴露后,人机之间经机会修正后的一致性的净增长。X射线研究的值最高(0.27),ECG次之(0.18),而MRI接近零(-0.00)。更重要的是,适当影响力(Appropriate Influence)指标将观察到的适当依赖与随机预期进行比较。结果显示,除了ECG研究(0.04)外,其他研究的适当影响力均为负值,尤其是MRI(-0.59),这表明在这些案例中,观察到的依赖行为可能并不比随机猜测更好,AI未能发挥超越机会的正面影响力。
结论与讨论
本研究的核心结论是,传统的人机“一致性”或“依赖”指标不足以全面评估AI在决策支持中的价值。新提出的“影响力”指标框架,通过结合用户初始决策、最终决策和AI建议的正确性,并考虑自信度变化,能够更细致地刻画AI如何真正改变决策质量。研究发现,AI的影响力高度依赖于领域和用户画像。例如,在X射线诊断中,AI表现出较强的正面影响;而在MRI诊断中,尽管AI本身准确,但由于专家中存在强烈的自我锚定偏见,其正面潜力被严重削弱。
这项研究的意义重大。它强调了在设计AI决策支持系统时,必须将用户特征(如专业水平、自信度)和任务背景纳入考量。度量框架为评估和比较不同AI系统、交互模式对不同用户群体的影响提供了实用工具。研究结果指出,为了最大化AI的益处,可能需要采取针对性的干预措施,例如对MRI专家进行关于AI潜力的认知培训以降低自我锚定偏见,或为ECG用户设计防止过度依赖的保障机制。最终,该工作推动“以人为本的人工智能”(Human-Centered AI, HCAI)从理念走向实践,为实现与人类决策更好校准、更可信赖的AI集成提供了实证基础和评估路径。