《European Radiology》:Convolutional neural networks in paediatric fracture detection: pooled evidence from a systematic review and meta-analysis
编辑推荐:
这篇系统综述和荟萃分析严谨地评估了人工智能(AI)模型在儿童四肢骨折X线平片诊断中的准确性。基于对截至2025年5月文献的系统性检索,本文通过定量分析(荟萃分析)发现,AI模型表现出极高的诊断效能,其汇总敏感性和特异性分别达到0.92和0.90,诊断比值比(DOR)为104.6,接近专家水平,并可显著提升非专科医生的诊断能力。文章最后指出,尽管结果令人鼓舞,但现有研究多为回顾性、单中心且缺乏外部验证,未来的临床应用需前瞻性、多中心研究以证实其稳健性和实用性。
引言
骨折是儿童最常见的损伤之一,研究显示高达60%的男孩和40%的女孩在成年之前至少会经历一次骨折。其中,四肢骨骼最为受累,例如桡骨远端骨折就占了约四分之一的病例。这些损伤具有显著的临床意义,是导致长期并发症的重要原因,因此及时诊断至关重要。X线平片是可疑骨折的首选影像学检查工具,但解读儿童X光片充满挑战,尤其是在繁忙的急诊科。多种因素导致诊断困难,包括患者体位不佳、缺乏对比片(为减少辐射暴露)、报告延迟导致骨折漏诊,以及生长中骨骼的复杂、不断演变的解剖结构。一些细微骨折,如隆起骨折或生长板损伤,经常被漏诊,特别是非专科医生,有研究报告显示高达10%的骨折在急诊科初次阅片时被忽略。这一诊断差距突显了在儿科急诊环境中需要策略来增强骨折检测。
近年来,人工智能,特别是基于卷积神经网络(CNN)的深度学习,在提高医学影像诊断准确性方面展现出巨大潜力。已有研究表明AI模型在成人骨折检测中表现出与放射科医生相当的性能。而近期研究也显示,现代AI模型在X光片上检测四肢骨折的能力可与经验不足的临床医生相匹敌甚至超越。虽然大多数AI工具主要关注成人群体,但对其儿科应用的兴趣正在增长。早期结果是积极的,有深度学习模型在儿童骨折检测中实现了超过90%的敏感性和特异性。然而,迄今为止的大多数研究仍集中在成人领域,关于AI在儿童骨折中表现的证据仍然有限。为了更准确地描述这一空白,我们进行了一项系统综述和荟萃分析,旨在以方法学一致的“每张影像”分析框架,综合评估AI模型在儿童四肢骨折检测中的诊断准确性,同时阐明与外部验证和泛化性相关的局限性。
材料与方法
本综述遵循PRISMA-DTA指南,并使用PICOS框架进行研究选择。研究对象为年龄小于21岁的儿科患者。干预措施是使用AI模型评估X线平片是否存在骨折。对照标准是人工阅片者作为参考标准。主要结局指标是诊断准确性指标。研究设计包括随机对照试验、队列研究和观察性研究,无时间限制,语言为英文。排除标准包括:涉及成人或混合人群(无法单独提取儿科数据)的研究、使用非AI模型作为检测方法或非人工阅片者作为参考标准的研究、诊断准确性非主要或次要结局的研究、综述文章、病例报告和病例系列等。对诊断准确性(敏感性和特异性)的定量分析是主要目标,同时进行了亚组分析(如上肢与下肢)。统计分析使用了双变量分析和层次汇总受试者工作特征(HSROC)曲线,采用随机效应模型。研究的方法学质量通过QUADAS-2工具由两名独立评审员进行评估。
结果
文献检索于2025年5月5日进行,初步检索到2344篇文章。经过筛选,最终有17项研究符合纳入标准,被纳入系统综述。其中,有11项研究提供了足够的定量数据,被纳入荟萃分析,涉及超过10,000张儿科X光片。大多数数据集来自美国,其次是奥地利等地。患者年龄从0岁到21岁不等,以男性为主。大多数研究是在单一中心的儿科三级医院进行的。在定性分析中,几项研究对商业AI工具(如Rayvolve?和BoneView?)进行了大规模、回顾性验证,而其他研究则使用机构特定数据集开发了内部模型。大多数研究使用了卷积神经网络,但具体架构各异。研究的解剖学重点主要是四肢骨骼损伤,尤其集中在腕部、前臂、肘部、踝部和肩部。一些研究还处理了具有诊断挑战性的病例,如隆起骨折或典型干骺端损伤,强调了AI不仅在常规骨折分诊中,而且在识别细微且具有临床意义的病理方面具有潜在效用。
在定量分析方面,AI模型展现出很高的总体诊断准确性。汇总敏感性为0.92(95% CI:0.89–0.94),汇总特异性为0.90(95% CI:0.85–0.94),对应的假阳性率为0.10。HSROC曲线表现出高度的整体判别能力。汇总诊断比值比(DOR)为104.6,阳性似然比(LR+)为9.32,阴性似然比(LR-)为0.089。亚组分析显示,AI模型在上肢骨折(敏感性0.91,特异性0.89)和下肢骨折(敏感性0.89,特异性0.94)的诊断性能具有可比性。在方法学质量评估方面,使用QUADAS-2工具评估的整体质量较高。大多数研究在所有四个领域都具有较低的偏倚风险。患者选择偏倚风险较低的研究占83%。在适用性方面,各研究总体上关注度较低,仅有少数因报告有限而存在不确定性。研究选择的过程通过图1所示的PRISMA流程图进行了直观展示。AI诊断性能的森林图汇总了敏感性、特异性及其置信区间。HSROC曲线则展示了研究的汇总性能与置信区域。
讨论
本综述表明,AI模型能够以接近人类专家的高诊断准确性检测儿科X光片中的四肢骨折。本研究的主要贡献在于通过严格遵守PRISMA-DTA指南,减少了单位分析偏倚,同时透明地强调了外部验证的持续缺乏及其对泛化性的影响。我们汇总的敏感性(约92%)和特异性(约90%)表明,现代深度学习算法能够正确识别绝大多数骨折,同时保持较低的假阳性率。这种性能水平与已有报道的经验丰富的放射科医生和骨科医生在骨折检测中的表现相当。实际上,已有研究表明,几种AI系统在识别骨折方面的表现与或甚至超过了非专科医生。值得注意的是,在少数直接比较AI系统与儿科亚专业放射科医生的研究中,迄今为止尚未证明AI具有统计学上的显著优势。这强调,虽然一些AI模型可能达到专家级水平,但目前没有证据表明它们能持续超越亚专业阅片者。
AI的价值在支持经验不足的阅片者时尤为明显。我们综述中的多项研究表明,当临床医生将AI作为第二阅片者时,诊断敏感性得到了提高。例如,Kavak等人的研究报告称,AI辅助将急诊医生的敏感性从93.7%提高到97.0%,整体准确性从88.0%提高到94.9%。这些发现凸显了AI在儿科急诊环境中作为诊断“安全网”的潜力,有助于弥合全科医生与儿科放射专科医生之间的专业差距。数据表明,AI能够将初级或非专科医生的表现提升到接近专家的水平,而不是替代专家临床判断的独立工具。
尽管诊断性能令人鼓舞,但用于训练和验证这些AI模型的数据集仍存在显著局限性。大多数算法是在狭窄的单中心数据集上开发的,几乎没有外部验证,这引发了对其过拟合和泛化性有限的担忧。只有少数研究使用了开放获取或多中心数据,这限制了这些模型在不同人群、成像协议或设备中可靠执行的能力。这种多样性的缺乏可能导致模型在内部表现良好,但在面对不同人群、成像协议或设备时遇到困难。先前的工作表明,AI准确性在外部数据集上进行测试时通常会下降。正如Shelmerdine等人所强调的,研究的异质性和外部验证的缺乏使得评估其泛化性变得困难。我们的发现与此呼应——AI模型显示出潜力,但其在现实世界中的稳健性仍未得到证实。在临床部署之前,使用多中心队列进行严格的外部验证至关重要。
除了准确性,将AI整合到儿科骨折诊断中还引发了重要的伦理和实践问题。一个关键问题是信任——临床医生必须对AI有信心,但不过度依赖它。过度依赖可能导致骨折漏诊或不必要的治疗,研究表明不准确的AI输出可能会误导临床医生。明确的临床规程应规定AI发现的使用方式——例如,将其用作必须由医生证实的辅助工具,而非真理的仲裁者。与此密切相关的是责任问题:如果AI漏诊了骨折,而放射科医生因为信任AI也漏诊了,那么谁该为这个错误负责?目前,责任仍在临床医生身上,这提出了需要正式指导的医疗法律挑战。合乎道德的使用还要求透明度和减少偏倚。由于儿科人群具有多样性,在狭窄数据集上训练的模型可能在代表性不足的群体中表现不佳。确保数据具有代表性并定期进行偏倚检查对于公平性至关重要。最终,成功的AI实施不仅需要强大的性能,还需要临床医生培训、可解释的系统以及强有力的监督,以建立适当的信任。
我们的研究有几个关键优势。我们采用了广泛的检索策略,并纳入了截至2024年的研究,从而形成了比Shelmerdine等人、Ashworth等人和Ximenes等人更庞大、更准确的证据基础。通过遵循PRISMA-DTA指南并进行彻底的QUADAS-2方法学质量评估,我们确保了与近期综述文章相比,在研究选择、数据提取和偏倚评估方面采用了更严谨、透明的方法。此外,我们进行了详细的亚组分析和敏感性分析以探讨异质性。这些方法使我们能够按解剖区域识别性能差异,并探索研究间潜在的异质性来源,从而增强了我们研究结果的可靠性和适用性。
尽管如此,我们的综述也存在局限性。大多数纳入的研究是回顾性的,这带来了潜在的偏倚并限制了现实世界的适用性。有些研究采用了选择性抽样,这可能夸大了准确性估计。许多研究样本量较小,一些亚组分析涉及的事件很少,导致置信区间较宽。尽管分析是按影像进行的,但儿科检查通常每次检查包含多个投照,残存的受试者内聚集性可能导致不确定性被低估。我们还观察到研究间存在显著的异质性,这源于设计、人群和统计测量方法的差异,尽管使用了随机效应模型和亚组分析,但部分异质性仍无法解释。此外,我们的分析是按影像而非按受试者进行的,这在PRISMA-DTA指南下方法学上是恰当的,但限制了在受试者层面的临床推断。大多数AI模型缺乏外部验证,引发了对其泛化性的担忧。由于我们的纳入标准要求以人类专家作为参考标准,因此无法评估直接比较AI模型优于放射科医生的头对头研究。发表偏倚可能使结果偏向更有利的结局。我们承认,一些已商业部署的AI系统在监管或卫生技术评估文件中报告了儿科骨折性能;然而,这些来源很少提供经过同行评审、可用于提取诊断准确性数据以进行符合PRISMA-DTA的荟萃分析,因此不在本综述的预定义范围内。最后,我们专注于四肢骨折和仅英文研究,这可能限制研究结果对其他解剖区域和非英文文献的适用性。
未来研究方向:为了进一步发展和安全实施AI在儿科骨折诊断中的应用,未来研究有多个方向。首先,需要前瞻性验证研究,在急诊科等现实临床环境中测试AI模型,评估其对诊断准确性、工作流程效率和患者结局的影响。这类研究将提供关于AI工具在受控研究环境之外的临床效用的高质量证据。其次,未来研究应是多中心的,并包含多样化人群,以提高跨机构和患者亚组的泛化性。第三,应优化临床工作流程的整合——AI可作为分诊工具或交互式第二阅片者,以增强决策。此外,研究应评估成本效益、工作流程效率以及过度依赖或警报疲劳等非预期后果。最后,AI工具必须在新数据的基础上不断完善,但需在确保持续外部验证、监测和审计的框架内进行,以维持其安全性和实用性。
结论
AI模型,特别是深度学习架构,在检测儿科X光片中的四肢骨折方面表现出很高的诊断准确性,接近专家水平,并能提高初级临床医生的诊断能力。尽管结果令人鼓舞,但大多数证据来自回顾性和内部验证的研究,引发了对其泛化性的担忧。在广泛临床应用之前,未来的研究应优先进行前瞻性多中心验证、工作流程整合以及临床影响的评估。AI有潜力成为儿科骨折诊断中有价值的辅助工具,提高检测准确性并优化护理路径,但其实施必须有强有力的证据、伦理监督和明确的临床规程作为指导。