《Brain Disorders》:Augmented Intelligence in Aneurysm Care: A Systematic Review and Meta-Analysis of Diagnostic Performance in Intracranial Aneurysm Rupture Risk Assessment
编辑推荐:
这篇综述系统评估了人工智能(AI)在颅内动脉瘤(IAs)破裂风险评估中的诊断性能。AI模型(尤其是深度学习)在敏感性、准确性及AUC方面展现出优于或可比肩专家医师的诊断效能,而人机协作(Human–AI)模式则呈现潜力巨大但证据有限的特点。研究提示AI可作为临床决策的有效辅助工具,但其临床应用仍需标准化和前瞻性研究验证。
增强智能在动脉瘤诊疗中的应用:关于颅内动脉瘤破裂风险评估诊断性能的系统综述与荟萃分析
引言
颅内动脉瘤(IAs)影响着全球2–5%的人口,其破裂导致的动脉瘤性蛛网膜下腔出血具有高致残率与死亡率。准确预测破裂风险对于指导预防性治疗至关重要。传统的临床评分工具(如PHASES和UIATS评分)预测能力有限,且依赖于群体水平变量,导致临床决策仍存在相当大的不确定性。
神经影像学的进步虽然提升了动脉瘤的检出率,但即便是专家解读也易受主观差异和诊断错误的影响。在此背景下,人工智能(AI)作为一种前景广阔的辅助工具脱颖而出。AI模型能够提取超出人类视觉感知范围的复杂影像组学特征和形态学特征,提供客观、可重复的风险分层。早期研究表明,AI在破裂动脉瘤的风险分层中,其性能可能优于传统评分系统甚至神经放射学专家。此外,越来越多的证据支持人机协作模式,即AI作为第二阅片者或决策支持系统,从而提升诊断敏感性,同时临床医生利用情境判断来降低假阳性率。
尽管取得了这些进展,但AI独立诊断、人类专家诊断以及人机协同诊断这三种模式的相对性能尚未得到系统比较。为解决这一空白,我们进行了一项系统综述与荟萃分析,以评估这三种模式在诊断敏感性、特异性、准确性以及曲线下面积(AUC)方面的表现。
方法
本研究遵循系统综述与荟萃分析优先报告条目(PRISMA)指南进行。文献检索覆盖了PubMed、Scopus、Web of Science和Embase数据库,检索时限从建库至2025年4月26日。研究纳入标准为直接比较AI模型、人类专家或人机协同方法在颅内动脉瘤破裂状态或破裂相关风险评估中诊断性能的原始研究。结局指标包括敏感性、特异性、准确性和受试者工作特征曲线下面积(AUC)。
数据由两名评审员独立提取,使用标准化的数据收集表。使用非随机干预研究偏倚风险评估工具(ROBINS-I)评估方法学质量。统计分析采用随机效应模型,当异质性可忽略时也报告固定效应模型结果。AI模型根据方法学特征(经典机器学习、深度学习、计算流体动力学(CFD)为基础、机制分析)在预定义的亚组内进行分析,以避免因合并不同类别模型而产生误导性的汇总效应。
结果
纳入研究概况
初始检索获得382条记录,经筛选后,最终有17项发表于2019年至2025年的研究被纳入最终分析。大部分研究评估了AI独立诊断性能(n=14),五项研究报告了人类阅片者的性能指标,三项明确评估了人机协同工作流程。影像学模态包括计算机断层扫描血管成像(CTA)、磁共振血管成像(MRA)和数字减影血管造影(DSA)。
偏倚风险评估显示,相当一部分研究存在严重的偏倚风险,主要源于混杂因素以及对干预措施分类的偏倚。
AI独立诊断性能
在AI独立诊断性能方面,深度学习模型获得了最高的汇总敏感性(0.92;95% CI: 0.81–0.97),其次是经典机器学习方法(0.87;95% CI: 0.80–0.92)。经典机器学习模型的汇总特异性为0.86(95% CI: 0.74–0.93)。在诊断准确性方面,深度学习模型的汇总准确率为0.89(95% CI: 0.83–0.92),高于经典机器学习模型的0.86(95% CI: 0.80–0.90)。在区分性能(AUC)上,经典机器学习模型的汇总AUC为0.89(95% CI: 0.84–0.92),深度学习模型为0.88(95% CI: 0.85–0.91)。所有汇总分析均观察到显著的异质性。
人类独立诊断性能
人类阅片者的诊断性能因专业水平不同而异。专家阅片者表现出较高的敏感性(一项研究报告为0.93),而非专家或混合水平阅片者的汇总敏感性较低,为0.72(95% CI: 0.65–0.77)。人类阅片者的汇总特异性为0.68(95% CI: 0.48–0.83),异质性很高。在诊断准确性方面,无论是专家还是非专家阅片者,报告的一致准确率约为77-78%,表现出一种“平台效应”。
人机协同诊断性能
人机协同方法的证据有限且策略各异。在敏感性方面,采用并行审阅框架的研究报告了高达0.95的敏感性,而采用AI作为第二阅片者模式的研究则报告了0.81的敏感性。在特异性方面,仅有一项采用并行审阅策略的研究报告了高达0.95的特异性。在准确性方面,并行审阅框架的准确率达0.95,AI作为第二阅片者模式的准确率为0.86。在AUC方面,两项采用AI作为第二阅片者模式的研究汇总AUC高达0.96(95% CI: 0.95–0.97)。
讨论
敏感性
本分析表明,在颅内动脉瘤破裂相关评估中,敏感性在AI独立、人类独立及人机协同三种模式间差异显著,且强烈依赖于方法学设计、阅片者专业水平和整合策略,而非仅仅取决于人工智能的参与。深度学习模型凭借其从影像数据中直接学习复杂层次特征表示的能力,实现了最高的敏感性。人类阅片者的敏感性则高度依赖于其专业经验,专家敏感性高,非专家则显著较低。人机协同模式展现了提升敏感性的潜力,但其增益程度高度依赖于整合策略的设计,例如并行审阅框架可能通过独立的检测路径最大化敏感性。
特异性
特异性在所有诊断策略中表现出比敏感性更大的变异性,这反映了自信排除破裂倾向动脉瘤的内在挑战。AI独立模型(尤其是经典机器学习)能达到可接受的汇总特异性,但异质性很高。人类阅片者在没有AI辅助时,表现出较低且变异较大的特异性,这反映了人类主观评估中固有的认知和感知局限性。有限的证据显示,采用并行审阅框架的人机协同可能大幅降低假阳性率,显著提升特异性。
准确性
在诊断准确性方面,AI独立模型(无论是经典机器学习还是深度学习)均表现出持续的高准确率,其中深度学习模型略有优势。相比之下,独立工作的人类阅片者,无论专业水平如何,其准确率似乎稳定在约77-78%的平台,提示存在固有的性能上限。人机协同模式的准确性高于人类独立模式,但同样因整合策略不同而异,并行审阅框架报告的准确性最高。
曲线下面积(AUC)
AUC分析进一步阐明了不同策略的诊断区分能力。AI独立模型和人类阅片者均表现出较高的AUC值。然而,人机协同模式,特别是AI作为第二阅片者的模式,达到了所有评估策略中最高的汇总AUC(接近0.96),表明当AI被用于增强而非替代人类判断时,可能提供最大的增量价值。高AUC值表明该模式在整体上区分破裂倾向与稳定动脉瘤的能力极强。
局限性
本研究存在若干局限性。首先,纳入研究在影像学模态、研究设计、AI模型架构和参考标准方面存在较大异质性。其次,报告不一致,许多研究缺乏外部验证,其结果的普适性存疑。第三,直接头对头比较的研究数量有限,特别是评估人机协同工作流程的研究很少,且整合策略各异,阻碍了统一汇总。第四,偏倚风险评估显示,在混杂因素和干预措施分类方面存在频繁的关注点,这可能影响了汇总估计值的幅度和稳定性。第五,大多数患者队列来源于东亚人群,可能影响全球普适性。最后,AI技术发展迅速,本综述的汇总结果应被视为不断演进的证据基础的快照。
结论
本系统综述与荟萃分析表明,人工智能(AI)模型在评估颅内动脉瘤破裂风险方面实现了强劲且可重复的诊断性能,通常超过了未受辅助的人类阅片者。然而,最有希望的增益出现在AI作为人类专业知识的辅助工具整合到临床决策中,而非作为独立的替代品时。跨越多个诊断指标,人机协同模式在个体研究中展现了最高的性能,但这些益处高度依赖于整合策略,并且目前的支持证据有限且异质性高。方法学的变异性、不一致的结局定义以及以单中心研究为主的特点,突显了需要谨慎解读的必要性。总体而言,这些发现表明,经过精心设计的人机整合为提升诊断可靠性和减少误分类提供了一条引人注目的途径,同时也强调了在广泛临床采用之前,进行标准化、多中心前瞻性验证的必要性。