AI辅助骨科与创伤影像骨折检测：适用场景、局限及安全临床部署原则

《Diagnostics》：AI-Assisted Fracture Detection in Orthopedic and Trauma Imaging: Where It Works, Where It Fails, and Principles for Safe Clinical Deployment Wojciech Micha? Glinkowski, Pawe? Kaminski and Rafa? Obuchowicz

【字体：大中小】 时间：2026年05月11日 来源：Diagnostics 3.3

编辑推荐：

　　背景：初始影像学评估中漏诊骨折仍是骨科与创伤护理中具有重要临床意义的诊断错误来源。AI辅助成像工具正日益整合到骨折检测工作流程中。然而，其诊断获益与安全性在不同解剖区域、临床环境及阅片者经验水平间存在显著差异。目的：综合当前关于AI辅助骨折检测诊断影响的研

背景：初始影像学评估中漏诊骨折仍是骨科与创伤护理中具有重要临床意义的诊断错误来源。AI辅助成像工具正日益整合到骨折检测工作流程中。然而，其诊断获益与安全性在不同解剖区域、临床环境及阅片者经验水平间存在显著差异。目的：综合当前关于AI辅助骨折检测诊断影响的研究证据，并探讨安全、选择性临床部署的证据知情原则。方法：对荟萃分析、多阅片者多病例（MRMC）观察性研究及真实世界实施调查进行了结构化叙述性综合。按解剖区域和阅片者经验水平考察了诊断性能模式。未对原始数据进行定量合并或再分析。结果按解剖区域、阅片者经验组及实施相关临床背景进行综合。结果：跨研究显示，与无辅助人工阅片相比，AI辅助解读通常与灵敏度的中度提升及漏诊骨折率的降低相关，同时基本保持了特异性。诊断获益在急诊高负荷环境下的经验较少阅片者中最为显著。性能表现出强烈的解剖依赖性：髋部及附肢骨骼骨折观察到一致且具有临床意义的改善；腕部及肋骨骨折报告了中等获益但伴随假阳性负担增加；而对于颈椎及椎体脊柱损伤，其灵敏度相对于专家解读仍显不足。结论：当作为结构化第二阅片者工具实施时，AI辅助骨折检测可改善诊断安全性；然而，其有效性高度依赖于解剖部位。现有证据支持基于解剖特异性风险考量及受监督临床应用指导的选择性、风险分层部署，而非不加选择或自主使用，以在骨科与创伤影像中最大化获益并最小化患者安全风险。

1. 引言

初始影像学评估中漏诊骨折是骨科与创伤护理中一项重大且具有临床后果性的挑战。未发现的损伤可导致治疗延迟或不恰当、病程延长及医疗法律风险增加，这在高吞吐量急诊环境中尤为突出，因时间压力、阅片者专业知识多变及细微影像学表现增加了诊断疏忽的可能性。近年来，人工智能（AI）特别是基于深度学习的图像分析进展，加速了骨折检测工具的开发，其中最常见的是针对平片（Plain radiographs）。尽管已有数种商业系统获批用于临床，但早期研究表明，AI辅助在支持而非取代人类阅片者时（通常作为结构化第二阅片者或决策支持系统）能更有效地改善骨折检测。近期系统评价与荟萃分析提示，独立AI系统在X线摄影骨折检测中可达到高诊断准确度，在某些环境下接近专家级表现，并常超过非专科阅片者。然而，这一获益在临床情境中并不一致。当用作辅助第二阅片者时，AI辅助似乎能提供最一致且具有临床意义的增益，特别是对于髋部及附肢骨骼骨折，以及在急诊环境中的经验较少阅片者中。相比之下，在解剖结构复杂或损伤模式细微的区域，包括颈椎及椎体脊柱骨折、多发性骨折及特定撕脱伤中，其表现较弱且多变。因此，本综述旨在总结AI辅助骨折检测的报告诊断模式，考察这些模式如何随解剖区域和阅片者经验变化，并讨论与受监督临床实施相关的考量因素。

2. 材料与方法

本研究设计为关于骨科与创伤影像中AI辅助骨折检测的结构化叙述性综述，主要关注基于X线的诊断支持。鉴于现有文献在解剖目标、临床环境、阅片人群、AI工具、参考标准及报告结局指标方面存在高度异质性，故未进行正式的系统评价或荟萃分析。而是采用结构化叙述方法识别诊断性能、阅片者经验效应、解剖特异性变异及实施相关风险中的临床相关模式。检索了PubMed、Web of Science核心合集、Scopus、ScienceDirect和Google Scholar数据库，限定时间为2021年1月1日至2026年3月31日，语言为英语。纳入标准为评估AI系统在临床相关肌肉骨骼成像环境中进行骨折检测的研究，包括系统评价、荟萃分析、MRMC观察性研究、回顾性及前瞻性队列研究、真实世界实施研究。排除了仅关注技术模型开发而无临床可解释诊断结果的研究。数据提取采用预定框架，包括研究设计、临床环境、解剖区域、成像方式、AI系统特征、AI使用模式（独立vs辅助）、阅片者特征及经验水平、参考标准、诊断性能指标及选定的工作流程相关结果。由于研究设计的异质性，未应用正式的研究级别质量评分工具，而是依据QUADAS-2及新兴AI报告指南定性考虑了偏倚及方法学局限性。最终通过结构化叙述综合，沿三个主要轴对结果进行组织：（1）AI辅助的总体诊断影响；（2）阅片者经验依赖效应；（3）解剖特异性诊断获益、不确定性及潜在临床风险模式。

3. 结果

纳入的文献构成了一个异质性但具临床信息量的证据基础。跨研究显示，AI辅助人类解读呈现出更一致且具有临床相关性的获益模式。与无辅助人类解读相比，AI支持最常改善灵敏度（Sensitivity），而特异性（Specificity）通常得以保持或仅有微小变化。在代表性研究中，AI辅助常与灵敏度的中度提升及漏诊骨折率降低相关。阅片者经验对AI获益幅度有显著影响。经验较少的阅片者（包括受训者、初级医生、急诊医师及其他非专科临床医生）通常从AI辅助中获得最大的绝对诊断性能增益，主要表现为灵敏度提高和漏诊减少，从而缩小了经验不足者与专家阅片者之间的差距。相比之下，在经验丰富的放射科医生和肌肉骨骼影像专家中，AI的增量诊断获益较小，更多体现在改善细微损伤检测、减少解读变异性及缩短阅片时间，而非基线诊断准确度的显著提升。解剖区域的差异是本研究的重要发现。AI辅助检测的性能在不同解剖区域间差异巨大。最一致的获益见于附肢骨骼成像，包括腕、手、踝、肘、膝及长骨骨折，AI辅助阅片者在保持特异度的同时实现了灵敏度的提升。髋部及股骨近端骨折检测显示出持续强劲的诊断性能，报告灵敏度与特异度通常在88%-95%及90%-99%范围，AUC值常在0.91-0.99之间。腕部及手部骨折也表现良好，但在某些研究中，这一获益伴随着假阳性提示率的增加。肋骨骨折表现出更复杂的模式，虽然AI可能提高急诊及非工作时间段的灵敏度，但常伴随特异性降低及解读噪声增加。轴向骨骼（Axial skeleton）骨折检测可靠性较低，其中颈椎创伤及椎体骨折的X线摄影检测表现最弱，其灵敏度低于主治放射科医生。此外，针对细微及隐匿性骨折（Subtle and occult fractures），AI辅助被报告具有价值，特别是在检测轻微移位损伤、撕脱骨折及其他易在常规初读中被感知忽视的病变时，报告亚组灵敏度增益约为10-15个百分点，但这常以假阳性建议增加为代价。在工作流程效率方面，多项研究指出AI辅助与图像解读时间减少及阅片者间一致性（Inter-reader agreement）改善相关，但这些效应的幅度在不同解剖区域和研究设计中差异很大。

4. 讨论

本综述提示，AI辅助骨折检测最清晰可靠的临床价值在于支持人类阅片者，而非取代他们。最一致且具有临床相关性的获益是在初始影像学评估中减少漏诊骨折。AI辅助的效果具有情境依赖性，解剖区域和阅片者经验是塑造获益与风险的主要因素。因此，实际问题在于AI在何处表现足够好以支持实施，在何处获益有限，以及在何处其局限性可能引入不可接受的诊断风险。AI最佳的角色定位是作为诊断安全网（Diagnostic safety net）而非自主阅片者。跨研究反复表明，AI辅助主要通过提高灵敏度同时保持可接受特异度来改善骨折检测，这使其最适合作为第二阅片者或结构化决策支持工具，帮助减少感知疏忽。阅片者经验显著修饰AI的临床价值，经验较少的阅片者获益最大，而经验丰富的专家从中获得的增量获益则更为有限和选择性。解剖区域是决定AI骨折诊断效用的主要因素。现有证据表明，对于四肢骨骼及股骨近端骨折的骨骼成像，其获益-风险比是有利的，适合在创伤和急诊成像中进行受监督的常规使用。然而，解剖区域不仅在固有的诊断难度上不同，而且在错误的临床后果上也存在差异。肋骨骨折处于中间位置，灵敏度增加常被特异性降低和更大的解读噪声所抵消。颈椎和胸腰椎损伤仍然是高风险领域，当前基于X线的AI相对于专家放射科医生显示出有限且不一致的优势。脊柱骨折AI表现不佳的原因不仅限于治理和部署问题，更根本地反映了结构性成像限制、骨折异质性以及与参考标准的错配。与附肢X线摄影相比，颈椎X线摄影因解剖重叠、不完全可视化、投照依赖性模糊以及临床重要骨折可能在平片上隐匿或仅细微可见而更具挑战性。此外，许多脊柱骨折（尤其是颈椎）虽经CT确诊，但在X线片上可能仅细微可见或无法明确显示，当基于X线的AI系统以此类CT确认终点进行训练或验证时，模型实际上被要求推断可能无法从输入模态中完全解析的发现，这导致了性能的不稳定。对于细微骨折，AI辅助虽具优势，但灵敏度提升也引入了解读噪声和假阳性警报，在解剖结构复杂的区域尤为明显，因此最佳定位仍是结构化第二阅片者，需常规进行人工核查和临床关联。在临床治理与实施考量方面，证据支持选择性和受监督的临床实施，需要本地验证、解剖特异性部署标准、明确的临床医生对最终报告的问责制以及部署后监测。最后，本文指出了作为结构化叙述性综述的方法学局限性，包括研究选择的潜在主观性、证据的高度异质性、回顾性研究及富集数据集对真实世界推广性的限制，以及定量范围的描述性本质。

5. 未来研究

未来研究应超越单纯确认AI的高诊断准确度，转向关注其在实际临床实践中的应用、跨解剖区域的局限性及其对患者结局的影响。首先，需要前瞻性、现实世界的研究来确定AI使用是否真正改善了患者的诊断安全性、工作流程及随访护理。其次，脊柱骨折检测需要更精确的研究，明确区分创伤性颈椎骨折与椎体体部骨折（如骨质疏松性骨折）的检测。第三，应更深入地考察AI性能如何依赖于临床医生的经验、病例类型及工作环境。第四，应更多关注结合不同数据源的方法，特别是在脊柱损伤等诊断挑战性病例中。最后，AI实施的评估应综合考虑算法准确性之外的实施成本、监督要求及对临床实践的实际影响。

6. 结论

AI骨折检测系统在支持医生而非取代其判断时具有最大的临床价值。现有研究表明，最大获益在于减少X线片上漏诊的骨折，特别是在高工作负荷环境和经验较少的医生中。AI性能因解剖区域而异，在股骨近端和肢体骨折检测中结果最佳且最一致。对于脊柱骨折，当前系统效果较差，主要归因于成像挑战、骨折多样性及X线与CT图像间的差异。医生经验亦至关重要，AI更好地支持经验较少的用户，而对专家而言，其作用更多是辅助性的。综上所述，现有数据表明，AI应根据解剖区域选择性实施，并始终处于临床监督之下，最合理的模式是作为“第二阅片者”或决策支持工具，在医生负责任的解读框架内运行。

热点排行