DeepSeek-R1在青少年特发性脊柱侧弯融合手术规划中的性能：一项初步研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Orthopaedics & Traumatology: Surgery & Research》：DeepSeek-R1 performance in fusion planning of adolescent idiopathic scoliosis: A preliminary study

【字体：大中小】 时间：2026年03月21日 来源：Orthopaedics & Traumatology: Surgery & Research 2.3

编辑推荐：

　　本研究评估了DeepSeek-R1模型在青少年特发性脊柱侧弯（AIS）融合水平规划中的准确性。纳入203例符合手术指征的AIS患者，通过结构化临床及影像数据输入模型，由3位专家采用5分制评估结果合理性（≥3分为合理）。结果显示模型总体合理率达70.9%，但对Lenke 1C、2A、2C亚型表现较差（合理率19.0%-25.0%），而1A、1B、5C、6C亚型合理率均超80%。研究证实该模型在特定亚型中具有临床可接受的决策支持价值，但复杂病例仍需优化。

贾俊|施本龙|史波|何中|张旭|朱泽章

安徽医科大学附属滁州医院骨科，中国安徽省滁州市第一人民医院

摘要

背景

青少年特发性脊柱侧弯（AIS）的手术规划非常复杂。像DeepSeek Reasoning Model R1（DeepSeek-R1）这样的大型语言模型（LLM）在决策支持方面具有潜力，但它们在确定融合程度的准确性尚未得到验证。

假设

DeepSeek-R1模型能够生成临床可接受的、在手术上合理的融合程度。

患者和方法

本研究纳入了203名符合手术指征的连续AIS患者。将包括Lenke分类在内的全面临床和放射学数据结构化为标准化提示。DeepSeek-R1的任务是确定每个病例的上下融合椎体（UIV, LIV）。三名经验丰富的脊柱外科医生使用5点李克特量表（≥3定义为合理）独立评估其输出结果。使用组内相关系数（ICC）评估评分者间的一致性。通过Fisher精确检验和蒙特卡洛模拟分析了不同Lenke亚型的表现。

结果

DeepSeek-R1在70.9%（144/203）的病例中生成了手术上合理的融合程度（李克特得分≥3），专家间的一致性非常好（ICC = 0.840，95% CI [0.798, 0.875]）。不同Lenke亚型的表现存在显著差异，1A型（87.0%）、1B型（82.9%）、5C型（81.1%）和6C型（87.5%）的表现较高。然而，1C型（19.0%）、2A型（42.9%）和2C型（25.0%）的表现较差。

结论

DeepSeek-R1在规划AIS融合程度方面表现出临床可接受的准确性，特别是在特定的Lenke曲线类型（如1A、1B、5C、6C）中表现优异。然而，其在所有亚型中的表现并不一致，这突显了在复杂曲线情况下的局限性（尤其是1C、2A、2C）。尽管作为一种决策支持工具很有前景，但在临床应用之前仍需进一步改进和验证。

证据等级

III.

引言

青少年特发性脊柱侧弯（AIS）是一种发生在10-18岁青少年中的三维脊柱畸形，病因尚不清楚[1]。虽然对于严重的AIS曲线建议手术治疗，但融合段的确定对长期功能有重要影响。幸运的是，Lenke分类系统通过整合曲线类型（1-6）、腰椎修饰符（A/B/C）和矢状面修饰符（-/N/+）来帮助选择融合程度，该系统被广泛认为是脊柱外科医生的重要参考[2]。目前，这些决策主要依赖于外科医生的经验和判断。鉴于人工智能（AI）的不断发展，其在AIS中的应用带来了新的前景。

大型语言模型（LLM）是复杂的神经网络架构，旨在分析和生成接近人类语言的文本[3]。这些模型在广泛的文本语料库上进行训练，反映了AI领域的重大技术进步。近年来，LLM迅速渗透并重塑了医学研究和临床实践领域。这些模型有潜力提高诊断和治疗过程的效率和质量[4]。推理模型的出现标志着LLM发展的一个重要里程碑。DeepSeek Reasoning Model R1（DeepSeek-R1）是一种基于强化学习方法的开源模型，具有增强的逻辑推理能力，能够有效解决复杂问题[5]。因此，该模型在复杂的医疗环境中具有相当大的应用潜力。目前，尚无关于该模型在AIS手术决策中的临床应用的文献。

因此，本研究旨在：（1）评估DeepSeek-R1模型在制定AIS手术计划方面的准确性；（2）阐明使用该推理模型管理AIS的潜在优势。

部分摘录

患者群体

本研究回顾了2018年1月至2023年1月期间我们机构进行的脊柱矫正手术。纳入标准如下：（1）诊断为AIS的女性患者；（2）年龄在10-18岁之间；（3）接受了一期后路脊柱矫正手术；（4）具有全面的术前、术后和随访数据；（5）随访时间至少为2年；（6）内固定装置保持稳定，无植入物或机械相关并发症。

基线特征

在203名患者中，Lenke分类类型如下：46例归为1A型，35例为1B型，21例为1C型，21例为2A型，12例为2B型，4例为2C型，9例为3C型，1例为4A型，1例为4C型，37例为5C型，16例为6C型。主要的人口统计、放射学和手术特征见表1。

评分者间一致性

三位专家对DeepSeek-R1输出结果的评分见表2。评分者间一致性使用ICC进行评估，基于平均评分、绝对一致性和双向

讨论

在本研究中，我们评估了DeepSeek-R1模型在制定AIS手术计划方面的准确性。我们发现DeepSeek-R1推荐的手术计划合理率为70.9%，并且其表现因不同的Lenke分类而异。据我们所知，这是首次评估DeepSeek-R1在AIS领域的表现。研究结果强调了其在AIS应用中的巨大潜力。

DeepSeek-R1

局限性

本研究存在若干局限性。首先，将影像信息转换为文本信息可能会引入偏差，从而影响信息的完整性和准确性。其次，专家评估的固有主观性可能阻碍了对DeepSeek-R1临床表现的全面评估。第三，鉴于技术发展的加速，当前的研究结果可能无法全面反映未来模型的能力

结论

DeepSeek-R1在规划AIS融合程度方面表现出临床可接受的准确性，特别是在特定的Lenke曲线类型（如1A、1B、5C、6C）中表现优异。然而，其在所有亚型中的表现并不一致，这突显了在复杂曲线情况下的局限性（尤其是1C、2A、2C）。尽管作为一种决策支持工具很有前景，但在临床应用之前仍需进一步改进和验证。

CRediT作者贡献声明

贾俊：概念化、方法论、软件、形式分析、调查、数据管理、撰写初稿、可视化。施本龙：概念化、验证、调查、资源管理、审稿与编辑、监督。史波：概念化、方法论、验证、调查、资源管理。何中：概念化、调查。张旭：调查、数据管理。朱泽章：概念化、撰写审稿与编辑、监督、项目统筹

写作过程中生成式AI和AI辅助技术的声明

无。

资助

本工作得到了国家重点研发计划（2023YFC2507700/2023YFC2507704）、国家自然科学基金（U24A20671）和山东省医疗卫生科技项目（202304071175）的支持。

利益冲突声明

无。

致谢

感谢吴双和贾沐赫的支持。

联系信箱：

粤ICP备09063491号

摘要

背景

假设