《The Lancet Digital Health》:Critical appraisal of fairness metrics for artificial intelligence-based clinical prediction models: a scoping review
编辑推荐:
预测性人工智能(AI)为改进临床实践和患者结局提供了机会,但如果公平性未能得到充分解决,存在延续偏见的风险。然而,公平性的定义仍不明确。研究人员开展了一项范围综述,以识别并批判性评价临床预测性AI模型中的公平性指标。研究人员将公平性指标定义为量化模型是否基于敏
预测性人工智能(AI)为改进临床实践和患者结局提供了机会,但如果公平性未能得到充分解决,存在延续偏见的风险。然而,公平性的定义仍不明确。研究人员开展了一项范围综述,以识别并批判性评价临床预测性AI模型中的公平性指标。研究人员将公平性指标定义为量化模型是否基于敏感属性对个体或群体存在(社会性)歧视的度量。研究人员检索了五个数据库中2014年至2024年发表的文献,筛选了820篇记录,纳入了42项研究,并提取了63个公平性指标。检索仅限于以英语发表的研究。这些指标根据性能依赖性、模型输出层级和基础性能指标进行了分类,揭示了临床预测性AI领域的碎片化格局,存在临床验证不足和过度依赖阈值依赖指标的问题。其中19个指标,包括仅有一个用于临床的指标,是明确为医疗保健领域开发的。研究人员的研究结果凸显了在定义和量化公平性方面的概念性挑战,并识别了不确定性量化、交叉性以及现实世界适用性方面的差距。因此,未来关于临床预测性AI模型的研究应优先考虑具有临床意义的指标。
**引言**
临床预测模型(CPMs)通常使用回归或机器学习方法构建,这些方法统称为预测性人工智能(AI)方法。CPMs可以是诊断性的或预后性的;诊断模型估计个体当前患有某种情况(通常是疾病)的概率,而预后模型估计个体在特定时间段内发生某种临床结局的可能性。预测性AI有望通过为临床决策和风险沟通提供信息来改善患者结局并降低医疗成本。然而,尽管CPMs在生物医学文献中大量存在,但其在现实世界中的效果仍然次优,仅有少数例外情况,如FRAX和QRISK3。
有几个挑战阻碍了预测性AI模型的成功实施,包括长期存在的报告质量和透明度问题。这些问题损害了模型的可重复性和模型性能的独立评估。因此,TRIPOD指南于2015年发布,为CPMs提供了最低限度的报告建议;2024年,TRIPOD指南更新为TRIPOD+AI指南,涵盖了AI方法。此外,设计和方法学限制,如小样本量和过拟合风险增加,影响了模型的稳健开发,常常导致次优或不可靠的模型性能,以及在新环境中泛化能力差。
算法偏差源于数据或分析偏差在模型开发过程中直接或间接地被编码到模型中,这为评估预测性AI性能增加了另一层复杂性。这些偏差可能源于非代表性数据、不同的潜在疾病分布、现有的健康差异、医疗设备的偏差以及其他来源。这些偏差本质上依赖于敏感(或受保护)属性的概念,例如特征、变量和维度,公平性可以沿着这些维度进行评估。此类受保护的特征在不同地理区域有所不同,在医学背景下,其中一些特征可能反映了合理影响健康结局的生物学差异。
Obermeyer及其同事在2019年发表的开创性工作揭示了临床预测性AI中的公平性问题。在这项研究中,一个用于预测美国患者未来健康需求的模型低估了黑人患者的需求,相较于白人患者。这种偏差源于该模型使用医疗费用作为健康需求的代理指标,而未考虑获取医疗服务方面的系统性差异。部署此类模型可能加剧现有的健康差异,导致不公平。
**定义公平性**
评估CPM的性能(例如,在统计区分度、校准度或临床实用性方面)通常侧重于人群层面的估计值(即跨个体的平均值),这可能掩盖了该人群中潜在的差异化模型行为。这种亚组层面变异性的掩盖也被称为隐匿分层。然而,模型性能预期在不同亚组间会有所不同。因此,在模型评估期间理解任何差异化模型行为的性质和程度,并识别表明不公平性的信号非常重要。
**动机与目标**
对公平性指标理解的不完全阻碍了报告指南(如TRIPOD+AI、用于医疗保健中可信且可部署AI的FUTURE-AI共识指南以及STANDING Together共识建议)中具体定义和建议的制定。这些指南谨慎且极少具体地处理公平性考量。尽管先前的一些重要工作回顾了机器学习中的公平性,但它们很少专注于CPMs,或者没有对CPMs中的公平性指标提供全面或批判性的视角。
因此,研究人员试图通过解决以下问题来识别和批判性评价CPM文献中报告的公平性指标:首先,哪些公平性指标已被提出、应用和分析;其次,根据现有的伦理和法律框架,应如何解释每个指标;第三,何时可以合理使用每个指标。
**方法**
研究人员开展了一项范围综述,以识别临床预测性AI文献中使用的公平性指标。纳入标准和文章选择过程有意保持宽泛,以最大化覆盖范围。研究人员遵循了Arksey和O’Malley的方法学框架,并遵守了范围综述PRISMA扩展指南(PRISMA-ScR)。
**检索策略与选择标准**
JM检索了2014年1月1日至2024年10月22日期间发表在PubMed、ACM数字图书馆、IEEE Xplore、arXiv和medRxiv数据库中的文献,以包括期刊出版物、会议出版物和预印本。检索仅限于以英语发表的研究。四个主要关键词——即“fairness”(公平性)、“metric”(指标)、“clinical”(临床)和“model”(模型)及其等效术语(“fair?”、“metric?”、“health?”、“clinic?”、“medic?”、“model?”、“algorithm?”、“machine learning”)——被用于检索文章标题或摘要。研究人员特意从检索策略中排除了“bias”(偏差)、“parity”(均等)和“disparity”(差异)这些术语,因为它们具有模糊性且在不同学科中广泛使用。
**数据提取:指标信息**
对于每个指标,JM提取了公式及其计算所需的所有信息。在提出一系列指标的研究中,研究人员根据适用情况报告了具体的代表性示例(例如,公平性缩放的受试者工作特征曲线下面积(AUROC)对应公平性缩放指标系列)。名称模糊的指标经过标准化,以确保一致性和与文献信息对齐。
**数据提取:公平性指标分类法**
文献中存在多种且相互冲突的公平性分类法。本范围综述采用的分类法建立在先前分类法的基础上,可以根据可用信息和公平性目标作为选择指标的指南。公平性评估始于对性能依赖性的考虑——即公平性是否应相对于模型性能来评估(性能依赖性或有监督的公平性评估),或者不考虑(性能独立性或无监督的公平性评估,不考虑结果标签或真实标签)。第二个考虑是公平性应在估计概率(P?)还是预测类别(?)层面进行评估。第三个考虑是性能指标的类型。
**数据提取:定性批判性评价**
研究人员开发了一个数据提取表,通过评估每个指标在临床场景中的适用性、局限性和潜在陷阱来对其进行批判性评价。评估过程包括概述其合理使用场景。
**结果**
在927篇文献中识别出相关研究。经过筛选和提取,最终纳入42篇文章(3篇综述和39篇研究文章)描述了与CPMs相关的公平性指标。共识别出63个公平性指标。大多数指标(42篇中的20篇)源自AI而非生物医学(42篇中的14篇)或应用伦理学(42篇中的8篇)研究。仅有19个指标是明确为医疗保健应用定义的。
**已识别的指标**
在性能独立性指标中,大多数是群体公平性指标。这些指标进一步分为基于概率的和阈值依赖性的。然而,这些指标中只有三个是为医疗保健应用提出的。
性能依赖性指标显著多于性能独立性指标,且所有与性能依赖性指标相关的研究都关注群体公平性。其中仅16个指标是明确为医疗保健背景提出的。性能依赖性指标也分为基于概率的和阈值依赖性的指标。大多数基于概率的性能依赖性指标关注区分度(包括AUROC平等性);其次是基于校准的指标和关注整体性能的指标。阈值依赖性性能依赖性指标主要使用混淆矩阵衍生的指标评估公平性,其中大多数关注部分指标(包括机会平等差异),其次是关注汇总指标的指标。仅有一个关注临床效用(亚组净效益)的阈值依赖性性能依赖性指标被识别。大多数指标是群体公平性指标。个体公平性指标非常少。
基于指标目录,研究人员从适用性、可解释性、定义质量、验证以及与临床和伦理考量的对齐程度方面对这些指标进行了批判性评价。对于概率性的性能独立性指标,如均值得分平等性,应在谨慎情况下使用。对于阈值依赖性性能独立性指标,如统计平等性,仅当阳性率相关且阈值选择恰当时才可谨慎使用。对于基于概率的性能依赖性区分度指标,AUROC平等性在配对使用校准相关平等性指标时是推荐的。对于阈值依赖性性能依赖性指标中的临床效用类别,亚组净效益是唯一被识别出的指标,在具有明确临床效用原理时推荐使用。
**讨论**
本范围综述识别并审查了63个用于CPMs的公平性指标。研究人员评估了每个指标应如何根据相关伦理和法律框架进行解释,并评估了每个指标合理使用的情况。研究人员进行了定性批判性评价,并提供了考虑每个指标的含义、局限性和适当背景的实用指南。公平性评估不仅限于公平性指标的选择,透明度报告是CPMs公平性评估的基础。
本范围综述揭示了公平性评估中更广泛的问题。公平性指标的定义通常模糊或定义不清。这种概念上的模糊性损害了系统评估CPM公平性的能力。公平性指标主要源于计算机科学,经常在非医疗保健相关的案例研究中进行评估。一旦公平性评估超出二元分类任务、二元敏感属性或简单的条件方法,计算和解释这些指标就变得复杂。研究人员发现,公平性指标通常缺乏清晰的定义、合理使用说明或充分的经验评估,这限制了它们在现实世界基于AI的CPMs中的可靠性。性能依赖性指标的主导地位和阈值依赖性指标的主导地位进一步凸显了方法学上的便利性偏差。个体公平性指标明显稀缺。交叉性在公平性评估中是一个重要的考虑因素,但现有指标通常评估单一属性上的差异。临床效用指标在文献中的存在受到限制,尽管这些指标对于指导决策至关重要。大多数公平性指标基于均等性,并主要捕获群体间的数值差异。公平性违规对CPM部署的下游影响本质上依赖于具体情境。
在公平性指标开发和评估中识别出了几个关键差距。样本量要求在公平性评估中基本未得到解决。公平性指标很少报告置信区间来量化统计不确定性。交叉性仍然处理不足。尽管其重要性,临床效用很少被研究。许多公平性指标的统计行为未在医学环境中进行经验评估。公平性指标之间的权衡对CPMs而言仍然研究不足。未来的研究应优先考虑提供不确定性估计、支持交叉性分析、与临床结局和效益对齐、并在现实世界医疗保健环境中系统评估的公平性指标。
**结论**
当前临床预测性AI中公平性指标的格局是碎片化的,其特征是不明确的定义、标准化和临床相关性。若干指标的经验评估不足,损害了其现实世界的相关性。未来的研究应优先考虑与临床决策一致、包含不确定性估计并考虑交叉性的公平性评估。公平性评估应在具体情境下与关键参与者协作进行。