通往临床人工智能的道路：评估胫骨平台骨折检测的泛化能力——对Mu-Ze Chen博士等人发表的文章的评论：“减少胫骨平台骨折的漏诊：人工智能在影像学评估中的作用”

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JBJS Case Connector》：The Path to Clinical AI: Evaluating the Generalizability of Tibial Plateau Fracture Detection: Commentary on an article by Mu-Ze Chen, MD, et al.: “Minimizing Missed Diagnoses of Tibial Plateau Fractures. The Role of AI in Radiographic Evaluation”

【字体：大中小】 时间：2026年02月20日 来源：JBJS Case Connector

编辑推荐：

　　临床AI模型泛化能力与胫骨平台骨折检测研究

将人工智能（AI）应用于临床实践的关键在于确保其泛化能力。具体来说，要被认为具有可靠性，模型必须展现出对患者特征、医疗机构差异以及影像学特定因素等多种变量具有鲁棒性的优异性能。Chen等人提出了一个用于检测胫骨平台骨折的候选模型。该模型经过前后位和侧位X光片的训练，显示出显著的验证效果，接收者操作特征曲线下面积（AUC）达到了0.97，总体准确率为88.2%。此外，该模型即使在Schatzker分类类型或骨折位置存在差异的情况下也能保持良好的性能。

总体而言，Chen等人的工作为X光片上胫骨平台骨折的检测树立了新的标准，似乎超越了其他近期研究^¹。然而，这一成果因缺乏统一的基准测试而受到限制。具体而言，这项研究与其他研究使用了不同的数据集，这些数据集在易诊断和难诊断病例的构成上可能存在差异。虽然这一问题并非胫骨平台骨折所特有，但缺乏开放访问的数据集阻碍了模型性能的直接比较。

尽管如此，Chen等人仍证明了其模型具备与人类医生相当的能力，从而增强了该模型在临床应用中的可信度。事实上，从临床角度来看，胫骨平台骨折极易被误诊，部分原因在于人为因素^²。在这方面，自动化系统可以作为初步筛查、第二意见甚至最终诊断的工具，其价值尤为突出，尤其是考虑到X光片检测速度快且易于获取。因此，这项工作有望为医疗保健领域带来显著贡献。

从机器学习的角度来看，这项工作的主要贡献在于其数据集的规模——这可能是迄今为止包含最多胫骨平台骨折X光片的数据集。值得注意的是，数据标签（即诊断结果）是通过计算机断层扫描（CT）进行确认的，这提升了数据的质量。不过在技术层面，Chen等人使用了一个现成的预训练机器视觉模型，并通过标准方法对其进行了微调。这一事实进一步说明了一个重要观点：当前的AI模型如果具备足够的计算能力，已经足够先进，能够实现具有临床意义的性能。实际上，虽然EfficientNet B3模型在2019年就已开发出来^³，但在计算能力方面已被更先进的大型模型所超越。

最终判断该模型是否适合临床应用还需要在独立数据集上进行进一步测试。模型难以在新数据上泛化是一个普遍问题。神经网络可能受到随机、非连续决策机制的影响^{⁴，这可能导致输入数据的微小变化导致截然不同的分类结果（甚至错误分类）。在这方面，X光片与其他影像学检查方式一样，存在可测量的医院间和医院内变异^⁵，这些因素在模型训练时必须予以考虑。}

另一个常见问题是“捷径学习”，即模型会依赖于输入数据中与其真实诊断高度相关的信息（例如，尺子的存在可能暗示黑色素瘤的存在）。这种“捷径”使得模型无需学习病理学的确定性特征。最新研究表明，“捷径学习”是被动数据收集过程中固有的问题，可能导致泛化能力被高估多达20%^⁶。

Chen等人通过整合来自多家医院的12年影像数据来降低这些风险。除了构建稳健的数据集外，未来的研究还可以尝试多种正则化技术以提升模型的泛化能力^⁷。此外，加入可解释性机制（如显著性图、注意力机制）有助于理解模型做出特定决策的原因^⁸。虽然这些方法不会直接提升模型的鲁棒性，但有助于防止错误分类的发生。

总体而言，Chen等人的工作证明了AI在诊断领域具有潜力。他们的模型或许是迄今为止最接近临床应用的机器视觉模型。不过，要证明其临床适用性，还需要大规模、多样化的数据集以及可重复的独立性能验证。在这方面，模型共享和打破数据孤岛将是推动AI进入临床应用的关键。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号