《JMIR Research Protocols》:Mapping Algorithmic Bias in AI-Powered Electrocardiogram Interpretation Across the AI Life Cycle: Protocol for a Scoping Review
编辑推荐:
本研究针对AI-ECG(人工智能心电图)诊断工具中存在的算法偏倚问题,系统绘制了偏倚在AI生命周期各阶段(数据、模型、评估、部署及部署后)的表现图谱。通过对38项研究的分析,揭示了偏倚对诊断公平性的影响,并汇总了缓解策略,为促进AI在心脏病学中的公平应用提供了关键证据。
人工智能(AI)技术,特别是深度学习模型,在心电图(ECG)分析领域的应用正以前所未有的速度改变着心血管疾病的诊断格局。这些AI-ECG工具在检测心房颤动、心力衰竭等心脏疾病方面展现出高精度,为医疗资源匮乏地区带来了提升诊断可及性的新希望。然而,伴随着AI技术的快速普及,一个潜在的阴影——算法偏倚(Algorithmic Bias)也逐渐浮出水面。这种系统性性能差异可能在不同患者亚组(如性别、种族、地域人群)中导致诊断准确性的不平等,甚至引发误诊风险。例如,已有研究指出,主要基于白人男性数据训练的AI模型,在女性和非洲裔人群的心肌梗死识别中表现不佳。这种不公平现象若得不到重视和解决,非但无法弥合健康差距,反而可能加剧现有医疗不平等,尤其在弱势群体和资源有限环境中。
为了系统揭示并应对这一挑战,由Luqman Lawal、Christopher Paton、Mike English、Bruno Holthof和Tabitha Preston组成的研究团队在《JMIR Research Protocols》上发表了一项范围综述的研究方案。该研究旨在全面绘制AI赋能心电图解读领域中算法偏倚的证据图谱。研究团队遵循人群-概念-背景(PCC)框架和PRISMA-ScR(系统综述和元分析扩展范围综述的首选报告项目)指南,计划系统性地识别和分类已报告的偏倚来源与类型,审视其对不同人口学和地理学亚组诊断性能的影响,并记录在整个AI生命周期中应用的偏倚缓解策略。
研究人员为开展此项综述,主要运用了以下几个关键技术方法:首先,制定了系统全面的文献检索策略,在多个专业数据库(如PubMed、Embase等)和灰色文献源中进行检索,时间跨度为2015年至2025年。其次,采用标准化的研究筛选流程(包括标题摘要筛选和全文筛选)和数据提取表单,由两名评审员独立操作以确保准确性。最后,依据既定的AI伦理分类法(如Mehrabi等人的偏倚类型学),对纳入研究中报告的偏倚进行系统分类和定性合成,重点关注其在AI生命周期(数据、模型、评估、部署、部署后)各阶段的表现。
研究结果
研究筛选与纳入
数据库检索及补充来源共获得448条记录,去重后得到398条独立记录。经过标题摘要筛选排除250条记录后,对148篇文献进行了全文审查。最终,38项研究符合纳入标准,被纳入定性综合。研究筛选过程通过PRISMA(系统综述和元分析的首选报告项目)流程图清晰呈现。
算法偏倚的显现与生命周期分布
分析表明,算法偏倚在AI-ECG模型中确实存在,并贯穿于AI生命周期的多个阶段。在数据阶段,偏倚主要表现为训练数据缺乏代表性,例如数据集过度依赖北美和欧洲人群,导致对低收入和中等收入国家(LMICs)人群的泛化能力不足,即所谓的“健康数据贫困”或“数字殖民化”风险。在模型和评估阶段,偏倚体现为模型在不同亚组(如不同性别、种族、年龄组)间的性能差异,例如敏感性(Sensitivity)、特异性(Specificity)或曲线下面积(AUC)等指标存在统计学显著差异。部署和部署后阶段的偏倚则与临床整合环境和实际使用条件相关。
偏倚对诊断性能与健康公平的影响
识别出的偏倚直接影响了AI-ECG工具的诊断公平性。性能差异可能导致对特定人群(如女性、少数族裔、LMICs患者)的心脏疾病漏诊或误诊风险增加,从而加剧现有的健康 disparities(健康差异)。这凸显了在模型开发、验证及实际应用过程中进行严格亚组分析和公平性评估的紧迫性。
已探索的偏倚缓解策略
纳入的研究中也报告或测试了多种偏倚缓解策略。这些策略涵盖技术层面(如数据重采样、算法公平性约束、模型事后校准等)和过程层面(如外部验证、特别是跨不同人群和医疗环境的外部验证)。然而,这些缓解措施的应用尚不普遍,其有效性和适用性仍需更多实证研究验证。
地理与人口学代表性分析
综述发现,现有关于AI-ECG偏倚的研究在地理和人口学代表性上存在显著不平衡。绝大多数证据来源于高收入国家(HICs),针对LMICs设置的研究非常有限。这意味着当前对AI-ECG偏倚的理解可能无法充分反映全球多样性,工具在LMICs中部署时可能面临更高的性能和适用性风险。
结论与意义
本范围综述方案勾勒出了一个系统评估AI-ECG算法偏倚的严谨框架。通过对现有证据的梳理,它首次尝试全面描绘该领域偏倚的全景图。研究结果表明,算法偏倚是AI-ECG应用中一个真实存在且不容忽视的问题,它渗透于技术生命周期的各个环节,并对健康公平构成潜在威胁。
这项研究的重要意义在于:首先,它系统化地识别和分类了偏倚类型及其发生阶段,为开发者和监管机构提供了清晰的“问题地图”。其次,它汇总了初步的缓解策略,为后续的公平性干预措施设计和评估提供了参考。更重要的是,它特别关注了LMICs背景下的偏倚风险,强调了全球健康公平视角在医疗AI发展中的关键性,呼吁在技术发展的早期阶段即纳入公平性考量。
最终,该综述的成果有望为AI-ECG技术的开发者、临床医生、政策制定者以及其他利益相关者提供切实可行的见解,指导他们设计和实施更公平、更可靠的心血管诊断工具。通过促进对算法偏倚的早期识别和有效 mitigation(缓解),这项研究将为推动人工智能在心脏病学乃至更广泛医疗领域中的公平、可信赖应用奠定重要的证据基础,确保技术进步能够惠及所有患者群体,而非少数特权人群。