衡量人工智能影响力以适应决策中的用户画像：一个基于医学案例的全面评估框架

《International Journal of Human-Computer Studies》：Under what influence: Measuring AI influence to fit user profiles in decision-making

【字体：大中小】 时间：2026年02月22日 来源：International Journal of Human-Computer Studies 5.1

编辑推荐：

　　本研究提出一个新颖的综合性指标框架，以超越传统的人机决策“一致性”度量，旨在量化AI系统对决策质量的真正“影响”，并将其与用户画像（包括专业角色、专长和信赖倾向等）相关联。通过对MRI、ECG、X射线和ENDO四个医学领域的用户研究分析，该研究发现AI的影响力存在显著领域差异，揭示了特定领域的偏见（如MRI中显著的自我锚定偏见）并指明了优化人机协作的途径，从而推动高风险领域中以人为本的AI系统设计。

在当今知识密集型任务领域，如医学影像诊断，人工智能（AI）系统正日益成为辅助人类决策的关键工具。然而，当前AI系统的开发往往过度聚焦于算法层面的技术性能指标，如准确性和效率，而对其如何真正影响用户决策的质量、以及这种影响是否“合适”（appropriate）则缺乏系统性的评估。如果AI的建议没有被用户适当地采纳或拒绝，或者其建议本身对最终决策结果没有带来可衡量的改善，那么该系统不仅可能无效，甚至可能造成资源浪费或更糟糕的后果。一个核心挑战在于，如何超越简单的“人机决策一致性”评估，去度量AI对人类决策者的实际“影响力”（influence），并将其与用户的个人特征（如专业技能、角色、自信心和依赖倾向）相匹配，从而设计出更能增强人类能力、促进校准后信任（calibrated trust）的AI系统。

为了解决上述问题，来自意大利米兰-比可卡大学信息学、系统和通信系的研究团队，在《International Journal of Human-Computer Studies》上发表了一项题为“Under what influence: Measuring AI influence to fit user profiles in decision-making”的研究。他们提出了一个新颖且全面的度量框架，旨在评估AI对人类决策的影响，并强调行为模式和决策结果的可测量改进。研究团队将此框架应用于四个医学领域的案例研究（MRI、ECG、X射线和内窥镜诊断），涉及了从专家、亚专科医生到实习生的不同用户群体。

研究采用的关键技术方法包括：开发一个全面的度量框架，包含从一致性度量（如协议百分比）、依赖性度量（如主导强度、顺从强度）到影响力度量（如影响力指数、适当影响力）和偏见度量（如自动化偏见、自我锚定偏见）等一系列指标；设计并实施了四项基于模拟AI系统的在线用户研究，分别涉及MRI膝关节病变分类、ECG心跳模式分类、X射线胸腰椎骨折检测以及内窥镜视频病灶评估，共收集了330名从业者超过15,000个决策数据；使用Bias-corrected and Accelerated (BCa) Bootstrap算法进行统计推断，计算各指标的95%置信区间，并通过区间比较评估显著性差异；最后，基于用户特征（如专业角色、初始表现水平、自信度）对数据进行分析，以探究AI影响如何随用户画像变化，并为AI系统的个性化配置提供证据支持。

研究结果通过系列指标揭示了AI影响的复杂性：

1. 协议度量揭示了表面一致性：

整体上，人机决策一致性（Percent of Agreement）在所有研究中均较高，从MRI的0.71到内窥镜的0.81不等。然而，协议错误率（Error rate in agreement）在ECG研究中最高（0.27），表明即使在一致的情况下，也有相当比例的决策是双方都错误的。这凸显了仅靠一致性指标无法评估决策质量。

2. 依赖性度量揭示了决策改变的意愿与方向：

主导强度（Dominance Strength，即用户改变主意的频率）在X射线研究中最高（0.24），表明AI建议在该领域最能促使用户改变决策。主导方向（Dominance Orientation）在ECG研究中最为正向（0.71），意味着改变决策更可能带来正确结果。顺从方向（Deference Orientation）在MRI研究中最高（0.82），显示当用户改变主意时，他们更倾向于遵循正确的AI建议，而非错误的。

3. AI决策影响与团队效应：

AI决策影响（AI Decision Impact）以比值比形式衡量，表明X射线（2.00）和ECG（1.61）研究中的AI支持显著降低了错误率（值>1）。团队AI决策效应（Team AI Effect on Decision）也证实了这一点，X射线的效应值高达1.23。相反，MRI研究的影响指数接近1.06，团队效应仅为0.18，表明AI带来的改善有限。所需决策数（Number Needed of Decisions, NND）指标显示，在MRI中需要19次AI辅助诊断才能避免一次未经AI辅助会犯的错误，而在ECG中仅需5次，这量化了AI在不同任务中的“性价比”。

4. 偏见度量揭示了人机互动的潜在障碍：

自动化偏见（Automation Bias，即对错误AI建议的过度依赖）在ECG研究中相对最高（0.30）。而自我锚定偏见（Self-anchoring Bias，即对正确AI建议的过度拒绝）在MRI研究中异常高（6.94），远高于其他研究（如X射线为0.20），这表明MRI专家过于坚持自己的初始判断，即使AI是正确的。这直接导致了MRI研究的适当依赖水平（Appropriate Reliance）最低（0.28），远低于内窥镜和ECG（约0.51）。

5. 影响力指标揭示了AI的真实效应：

影响力指数（Influence Index）衡量了AI暴露后，人机之间经机会修正后的一致性的净增长。X射线研究的值最高（0.27），ECG次之（0.18），而MRI接近零（-0.00）。更重要的是，适当影响力（Appropriate Influence）指标将观察到的适当依赖与随机预期进行比较。结果显示，除了ECG研究（0.04）外，其他研究的适当影响力均为负值，尤其是MRI（-0.59），这表明在这些案例中，观察到的依赖行为可能并不比随机猜测更好，AI未能发挥超越机会的正面影响力。

结论与讨论

本研究的核心结论是，传统的人机“一致性”或“依赖”指标不足以全面评估AI在决策支持中的价值。新提出的“影响力”指标框架，通过结合用户初始决策、最终决策和AI建议的正确性，并考虑自信度变化，能够更细致地刻画AI如何真正改变决策质量。研究发现，AI的影响力高度依赖于领域和用户画像。例如，在X射线诊断中，AI表现出较强的正面影响；而在MRI诊断中，尽管AI本身准确，但由于专家中存在强烈的自我锚定偏见，其正面潜力被严重削弱。

这项研究的意义重大。它强调了在设计AI决策支持系统时，必须将用户特征（如专业水平、自信度）和任务背景纳入考量。度量框架为评估和比较不同AI系统、交互模式对不同用户群体的影响提供了实用工具。研究结果指出，为了最大化AI的益处，可能需要采取针对性的干预措施，例如对MRI专家进行关于AI潜力的认知培训以降低自我锚定偏见，或为ECG用户设计防止过度依赖的保障机制。最终，该工作推动“以人为本的人工智能”（Human-Centered AI, HCAI）从理念走向实践，为实现与人类决策更好校准、更可信赖的AI集成提供了实证基础和评估路径。

热点排行

新闻专题