DeepSeek-R1在青少年特发性脊柱侧弯融合手术规划中的性能:一项初步研究

《Orthopaedics & Traumatology: Surgery & Research》:DeepSeek-R1 performance in fusion planning of adolescent idiopathic scoliosis: A preliminary study

【字体: 时间:2026年03月21日 来源:Orthopaedics & Traumatology: Surgery & Research 2.3

编辑推荐:

  本研究评估了DeepSeek-R1模型在青少年特发性脊柱侧弯(AIS)融合水平规划中的准确性。纳入203例符合手术指征的AIS患者,通过结构化临床及影像数据输入模型,由3位专家采用5分制评估结果合理性(≥3分为合理)。结果显示模型总体合理率达70.9%,但对Lenke 1C、2A、2C亚型表现较差(合理率19.0%-25.0%),而1A、1B、5C、6C亚型合理率均超80%。研究证实该模型在特定亚型中具有临床可接受的决策支持价值,但复杂病例仍需优化。

  
贾俊|施本龙|史波|何中|张旭|朱泽章
安徽医科大学附属滁州医院骨科,中国安徽省滁州市第一人民医院

摘要

背景

青少年特发性脊柱侧弯(AIS)的手术规划非常复杂。像DeepSeek Reasoning Model R1(DeepSeek-R1)这样的大型语言模型(LLM)在决策支持方面具有潜力,但它们在确定融合程度的准确性尚未得到验证。

假设

DeepSeek-R1模型能够生成临床可接受的、在手术上合理的融合程度。

患者和方法

本研究纳入了203名符合手术指征的连续AIS患者。将包括Lenke分类在内的全面临床和放射学数据结构化为标准化提示。DeepSeek-R1的任务是确定每个病例的上下融合椎体(UIV, LIV)。三名经验丰富的脊柱外科医生使用5点李克特量表(≥3定义为合理)独立评估其输出结果。使用组内相关系数(ICC)评估评分者间的一致性。通过Fisher精确检验和蒙特卡洛模拟分析了不同Lenke亚型的表现。

结果

DeepSeek-R1在70.9%(144/203)的病例中生成了手术上合理的融合程度(李克特得分≥3),专家间的一致性非常好(ICC = 0.840,95% CI [0.798, 0.875])。不同Lenke亚型的表现存在显著差异,1A型(87.0%)、1B型(82.9%)、5C型(81.1%)和6C型(87.5%)的表现较高。然而,1C型(19.0%)、2A型(42.9%)和2C型(25.0%)的表现较差。

结论

DeepSeek-R1在规划AIS融合程度方面表现出临床可接受的准确性,特别是在特定的Lenke曲线类型(如1A、1B、5C、6C)中表现优异。然而,其在所有亚型中的表现并不一致,这突显了在复杂曲线情况下的局限性(尤其是1C、2A、2C)。尽管作为一种决策支持工具很有前景,但在临床应用之前仍需进一步改进和验证。

证据等级

III.

引言

青少年特发性脊柱侧弯(AIS)是一种发生在10-18岁青少年中的三维脊柱畸形,病因尚不清楚[1]。虽然对于严重的AIS曲线建议手术治疗,但融合段的确定对长期功能有重要影响。幸运的是,Lenke分类系统通过整合曲线类型(1-6)、腰椎修饰符(A/B/C)和矢状面修饰符(-/N/+)来帮助选择融合程度,该系统被广泛认为是脊柱外科医生的重要参考[2]。目前,这些决策主要依赖于外科医生的经验和判断。鉴于人工智能(AI)的不断发展,其在AIS中的应用带来了新的前景。
大型语言模型(LLM)是复杂的神经网络架构,旨在分析和生成接近人类语言的文本[3]。这些模型在广泛的文本语料库上进行训练,反映了AI领域的重大技术进步。近年来,LLM迅速渗透并重塑了医学研究和临床实践领域。这些模型有潜力提高诊断和治疗过程的效率和质量[4]。推理模型的出现标志着LLM发展的一个重要里程碑。DeepSeek Reasoning Model R1(DeepSeek-R1)是一种基于强化学习方法的开源模型,具有增强的逻辑推理能力,能够有效解决复杂问题[5]。因此,该模型在复杂的医疗环境中具有相当大的应用潜力。目前,尚无关于该模型在AIS手术决策中的临床应用的文献。
因此,本研究旨在:(1)评估DeepSeek-R1模型在制定AIS手术计划方面的准确性;(2)阐明使用该推理模型管理AIS的潜在优势。

部分摘录

患者群体

本研究回顾了2018年1月至2023年1月期间我们机构进行的脊柱矫正手术。纳入标准如下:(1)诊断为AIS的女性患者;(2)年龄在10-18岁之间;(3)接受了一期后路脊柱矫正手术;(4)具有全面的术前、术后和随访数据;(5)随访时间至少为2年;(6)内固定装置保持稳定,无植入物或机械相关并发症。

基线特征

在203名患者中,Lenke分类类型如下:46例归为1A型,35例为1B型,21例为1C型,21例为2A型,12例为2B型,4例为2C型,9例为3C型,1例为4A型,1例为4C型,37例为5C型,16例为6C型。主要的人口统计、放射学和手术特征见表1。

评分者间一致性

三位专家对DeepSeek-R1输出结果的评分见表2。评分者间一致性使用ICC进行评估,基于平均评分、绝对一致性和双向

讨论

在本研究中,我们评估了DeepSeek-R1模型在制定AIS手术计划方面的准确性。我们发现DeepSeek-R1推荐的手术计划合理率为70.9%,并且其表现因不同的Lenke分类而异。据我们所知,这是首次评估DeepSeek-R1在AIS领域的表现。研究结果强调了其在AIS应用中的巨大潜力。
DeepSeek-R1

局限性

本研究存在若干局限性。首先,将影像信息转换为文本信息可能会引入偏差,从而影响信息的完整性和准确性。其次,专家评估的固有主观性可能阻碍了对DeepSeek-R1临床表现的全面评估。第三,鉴于技术发展的加速,当前的研究结果可能无法全面反映未来模型的能力

结论

DeepSeek-R1在规划AIS融合程度方面表现出临床可接受的准确性,特别是在特定的Lenke曲线类型(如1A、1B、5C、6C)中表现优异。然而,其在所有亚型中的表现并不一致,这突显了在复杂曲线情况下的局限性(尤其是1C、2A、2C)。尽管作为一种决策支持工具很有前景,但在临床应用之前仍需进一步改进和验证。

CRediT作者贡献声明

贾俊:概念化、方法论、软件、形式分析、调查、数据管理、撰写初稿、可视化。施本龙:概念化、验证、调查、资源管理、审稿与编辑、监督。史波:概念化、方法论、验证、调查、资源管理。何中:概念化、调查。张旭:调查、数据管理。朱泽章:概念化、撰写审稿与编辑、监督、项目统筹

写作过程中生成式AI和AI辅助技术的声明

无。

资助

本工作得到了国家重点研发计划(2023YFC2507700/2023YFC2507704)、国家自然科学基金(U24A20671)和山东省医疗卫生科技项目(202304071175)的支持。

利益冲突声明

无。

致谢

感谢吴双和贾沐赫的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号