用于脊柱影像诊断的通用大型语言模型：对脊柱侧弯和腰椎管狭窄检测性能的初步分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《World Neurosurgery》：Generalist Large-Language Models for Spine Imaging Diagnostics: An Early Analysis of Detection Performance for Scoliosis and Lumbar Stenosis

【字体：大中小】 时间：2026年05月04日 来源：World Neurosurgery 2.1

编辑推荐：

　　扎卡里·T·霍格伦德（Zachary T. Hoglund）|阿尔伯特·Q·吴（Albert Q. Wu）|瓦伦·G·卡塔瓦特（Varun G. Kathawate）|克里斯托弗·索伦伯格（Christopher Sollenberger）|拉斐尔·英格兰德（Raphael En

美国宾夕法尼亚大学佩雷尔曼医学院神经外科系，费城，宾夕法尼亚州

背景

基于网络的大型语言模型（LLMs）越来越多地被患者用于自我医疗评估，但它们在脊柱影像诊断中的有效性仍需进一步研究。本研究系统评估了五种领先的多模态LLM——Grok 2、Grok 3、Grok 4、ChatGPT和Gemini——在X光片和MRI模式下检测脊柱侧弯和腰椎管狭窄的能力。

方法

我们使用了来自公共数据库的171张完整的前后位X光片（100张显示脊柱侧弯，71张正常）和200张轴向T2加权腰椎MRI图像（100张显示严重狭窄，100张正常）。在没有任何示例的情况下，这些模型被要求识别病变并量化其确定性（0-100%）。分析方法包括使用McNemar检验来评估准确性，以及使用ANOVA来评估置信水平。

结果

在脊柱侧弯检测方面，Grok 4的准确率最高（0.942），其次是Gemini（0.912）、Grok 2（0.890）、ChatGPT（0.643）和Grok 3（0.637）。在腰椎管狭窄检测方面，Gemini的表现最好（0.600），其次是Grok 4（0.575）、ChatGPT（0.545）、Grok 2（0.500）和Grok 3（0.450）。所有模型在各种病变情况下的平均确定性均超过70%（标准差<5.3%）。ChatGPT和Grok 3在错误识别脊柱侧弯时表现出较低的置信度（p<0.0001），而仅ChatGPT在错误识别腰椎管狭窄时也表现出较低的置信度。Gemini在错误识别腰椎管狭窄时则表现出较高的置信度（p<0.0001）。

结论

LLM在脊柱侧弯检测方面表现优异，但在识别腰椎管狭窄方面存在困难。ChatGPT较高的置信度校准表明其可靠性更强。不同模型版本之间的性能差异（例如Grok 3的表现低于Grok 2）凸显了进行专业医学影像培训的必要性。尽管这些模型在简单脊柱疾病的患者教育方面具有潜力，但在临床应用或广泛推广之前，仍需在准确性和置信度指标上取得显著进步。

联系信箱：

粤ICP备09063491号

背景

方法

结果

结论

热点排行