用于脊柱影像诊断的通用大型语言模型:对脊柱侧弯和腰椎管狭窄检测性能的初步分析

《World Neurosurgery》:Generalist Large-Language Models for Spine Imaging Diagnostics: An Early Analysis of Detection Performance for Scoliosis and Lumbar Stenosis

【字体: 时间:2026年05月04日 来源:World Neurosurgery 2.1

编辑推荐:

  扎卡里·T·霍格伦德(Zachary T. Hoglund)|阿尔伯特·Q·吴(Albert Q. Wu)|瓦伦·G·卡塔瓦特(Varun G. Kathawate)|克里斯托弗·索伦伯格(Christopher Sollenberger)|拉斐尔·英格兰德(Raphael En

  
扎卡里·T·霍格伦德(Zachary T. Hoglund)|阿尔伯特·Q·吴(Albert Q. Wu)|瓦伦·G·卡塔瓦特(Varun G. Kathawate)|克里斯托弗·索伦伯格(Christopher Sollenberger)|拉斐尔·英格兰德(Raphael Englander)|内哈·拉尼(Neha Rani)|雅各布·萨杜恩(Jacob Saadoun)|埃利·马萨德(Elie Massaad)|梅尔特·马塞尔·达格利(Mert Marcel Dagli)|尼尔·马尔霍特拉(Neil Malhotra)|姜伟勇(Jang W. Yoon)|威廉·C·韦尔奇(William C. Welch)|阿里·K·奥兹图尔克(Ali K. Ozturk)|约翰·H·申(John H. Shin)|布伦丹·F·朱迪(Brendan F. Judy)
美国宾夕法尼亚大学佩雷尔曼医学院神经外科系,费城,宾夕法尼亚州

背景

基于网络的大型语言模型(LLMs)越来越多地被患者用于自我医疗评估,但它们在脊柱影像诊断中的有效性仍需进一步研究。本研究系统评估了五种领先的多模态LLM——Grok 2、Grok 3、Grok 4、ChatGPT和Gemini——在X光片和MRI模式下检测脊柱侧弯和腰椎管狭窄的能力。

方法

我们使用了来自公共数据库的171张完整的前后位X光片(100张显示脊柱侧弯,71张正常)和200张轴向T2加权腰椎MRI图像(100张显示严重狭窄,100张正常)。在没有任何示例的情况下,这些模型被要求识别病变并量化其确定性(0-100%)。分析方法包括使用McNemar检验来评估准确性,以及使用ANOVA来评估置信水平。

结果

在脊柱侧弯检测方面,Grok 4的准确率最高(0.942),其次是Gemini(0.912)、Grok 2(0.890)、ChatGPT(0.643)和Grok 3(0.637)。在腰椎管狭窄检测方面,Gemini的表现最好(0.600),其次是Grok 4(0.575)、ChatGPT(0.545)、Grok 2(0.500)和Grok 3(0.450)。所有模型在各种病变情况下的平均确定性均超过70%(标准差<5.3%)。ChatGPT和Grok 3在错误识别脊柱侧弯时表现出较低的置信度(p<0.0001),而仅ChatGPT在错误识别腰椎管狭窄时也表现出较低的置信度。Gemini在错误识别腰椎管狭窄时则表现出较高的置信度(p<0.0001)。

结论

LLM在脊柱侧弯检测方面表现优异,但在识别腰椎管狭窄方面存在困难。ChatGPT较高的置信度校准表明其可靠性更强。不同模型版本之间的性能差异(例如Grok 3的表现低于Grok 2)凸显了进行专业医学影像培训的必要性。尽管这些模型在简单脊柱疾病的患者教育方面具有潜力,但在临床应用或广泛推广之前,仍需在准确性和置信度指标上取得显著进步。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号