综述：神经外科中的人工智能：关于机器学习、深度学习与大语言模型应用的系统性范围综述

《Egyptian Journal of Neurosurgery》：Artificial intelligence in neurosurgery: a systematic scoping review of machine learning, deep learning, and large language model applications

【字体：大中小】 时间：2026年06月06日 来源：Egyptian Journal of Neurosurgery 0.7

编辑推荐：

　　背景：人工智能（Artificial Intelligence, AI）涵盖机器学习（Machine Learning, ML）、深度学习（Deep Learning, DL）及大语言模型（Large Language Models, LLMs），这些技术正日

背景：人工智能（Artificial Intelligence, AI）涵盖机器学习（Machine Learning, ML）、深度学习（Deep Learning, DL）及大语言模型（Large Language Models, LLMs），这些技术正日益融入神经外科临床实践。目的：本系统性范围综述评估2021年3月至2026年3月期间AI在神经外科中的应用，聚焦三项核心假设：（H1）ML/DL在神经肿瘤外科中的应用价值；（H2）AI在脊柱外科手术规划与结局预测中的作用；（H3）LLMs在神经外科知识评估与病例简报基准测试任务中的表现。方法：研究人员遵循《系统综述首选报告条目》（Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA）2020指南，在PubMed、EMBASE、Web of Science及Scopus数据库中开展检索。经筛选1847条记录后，最终纳入23篇符合标准的文献，并采用描述性统计、频次分析及亚组比较进行数据合成。结果：纳入研究显示，基于卷积神经网络（Convolutional Neural Network, CNN）的混合模型在神经肿瘤学领域的准确率最高可达87.2%，曲线下面积（Area Under the Receiver Operating Characteristic Curve, AUC）约为0.89；脊柱外科AI模型的准确率介于81.5%至84.0%之间，AUC介于0.79至0.85之间。在LLM基准研究中，GPT-4在神经外科知识评估任务中表现最优，准确率为74.0%至83.4%；但上述结果属于描述性研究层面比较，而非合并的荟萃分析估计值。结论：AI在所有三个神经外科领域均展现出较强的诊断与预测潜力，GPT-4在目前受评估的LLMs中表现领先。数据稀缺与前瞻性验证仍是临床转化应用的主要障碍。

引言

人工智能已成为当代医学最具变革性的力量之一，其应用覆盖影像诊断、预后建模、手术规划与自然语言处理等领域。神经外科对操作精度要求极高，且需整合神经影像、神经生理、基因组学与临床病历等多源数据流，因此AI在该领域具备广阔应用前景。自2020年以来，全球范围内神经外科相关的AI出版物数量呈指数级增长。AI包含多个相互关联的范式：机器学习指算法从标注数据中自主学习预测模式而无需显式编程，经典方法包括随机森林（Random Forest, RF）、支持向量机（Support Vector Machine, SVM）、逻辑回归与贝叶斯网络；深度学习是ML的分支，通过多层人工神经网络（包括CNN与循环神经网络，Recurrent Neural Network, RNN）从原始输入数据中提取抽象特征，尤其适用于医学图像分析；大语言模型（如OpenAI的GPT系列、Google Gemini及神经外科专用AtlasGPT）依托Transformer架构，在海量文本语料上训练，可实现自然语言信息的生成、分类与检索。目前在神经外科中，AI已被用于脑肿瘤分割与分级、胶质瘤分子标志物预测、脑动脉瘤破裂风险分层、脊柱手术结局预测、术中导航与手术阶段识别，以及基于LLM的知识检索与临床决策支持。然而，现有研究缺乏在PRISMA框架下整合ML、DL与LLMs三大范式，并跨神经外科亚专科比较性能指标的综合性系统综述。本研究旨在填补这一空白，通过对2021年3月至2026年3月发表文献的多数据库检索，围绕三个假设驱动的主题展开分析：H1——AI（ML与DL）在神经肿瘤外科中的应用；H2——AI在脊柱外科（术前规划、术中导航、术后结局预测）中的应用；H3——LLM在神经外科知识、临床决策与教育中的表现，并按照PRISMA 2020标准报告定量性能比较结果。

材料与方法

本研究严格遵循PRISMA 2020指南。纳入标准为2021年3月1日至2026年3月31日发表的英文文献，研究对象为神经外科场景下的任意AI应用（ML、DL、自然语言处理或LLM），且需报告量化结局指标（准确率、AUC、敏感度、特异度等）或针对LLM研究的结构化标准化测评指标。排除会议摘要、未经同行评审的预印本、非人类研究、无神经外科焦点及缺乏量化性能数据的文献。检索于2026年3月1日在四大数据库中执行，检索词组合涵盖MeSH主题词与自由词，包括“人工智能”“机器学习”“深度学习”“神经网络”“大语言模型”“ChatGPT”“GPT-4”“卷积神经网络”等与“神经外科”“脑肿瘤”“胶质瘤”“胶质母细胞瘤”“脊柱手术”“脑动脉瘤”“深部脑刺激”等的组合，时间限定为2021—2026年。数据提取内容包括研究设计、年份、期刊、数据库、AI类型、具体模型、神经外科领域、样本量、性能指标、评估方法与主要发现。偏倚风险评估方面，主要ML/DL研究采用预测模型偏倚风险评估工具（Prediction Model Risk of Bias Assessment Tool, PROBAST）；LLM评估研究采用改良PROBAST框架，重点关注提示词标准化、评估独立性及模型访问透明度；系统综述采用AMSTAR-2标准。由于纳入证据包含异质性较高的研究设计，本研究被设计为系统性范围综述，采用假设驱动的叙事综合，不进行传统定量荟萃分析，以避免不恰当的聚合或重复计数。统计分析仅采用描述性统计（均值、中位数、四分位距、频次与比例），并在亚组分析中按AI类型、神经外科领域与假设分组进行分层。LLM研究中的卡方检验与逻辑回归结果直接沿用原始研究的报告。所有准确率、AUC及LLM表现值均解释为描述性汇总，而非合并效应估计。本研究声明，大语言模型仅用于辅助语法修正与文稿结构优化，未参与解读、研究筛选、数据提取、分析或科学决策。

结果

初筛共获得1847条记录，去重后1535篇进入标题/摘要筛选，排除1218篇无关文献后对317篇进行全文评估，最终纳入23篇文献，其中17篇提供了充足的量化数据进行亚组统计分析。纳入文献发表于2021至2026年，发表数量逐年显著上升：2021年3篇、2022年3篇、2023年7篇、2024年8篇、2025年4篇、2026年初1篇，主要刊载于《Neurosurgery》《Neurosurgical Review》《World Neurosurgery》等期刊。按假设分组：H1神经肿瘤学7篇（30.4%）、H2脊柱外科8篇（34.8%）、H3大语言模型7篇（30.4%），另有1篇同时涉及多个领域。所用AI技术包括DL/CNN（8篇，34.8%）、经典ML（7篇，30.4%）、混合ML/DL（4篇，17.4%）及LLM（4篇，17.4%）。偏倚风险评估显示，主要ML/DL研究普遍存在回顾性设计、单中心数据集、外部验证不足、样本量小或不平衡、模型校准报告不完整等问题；LLM基准研究的主要局限在于提示词标准化程度不一、模型版本或访问日期透明度有限、依赖考试型或病例简报任务、缺乏前瞻性临床验证；系统综述与荟萃分析则主要受限于纳入研究的异质性与检索可重复性、偏倚风险分层及敏感性分析的汇报差异。

H1——神经外科肿瘤学中的AI

7项研究探讨了ML与DL在神经肿瘤学中的应用，涵盖脑肿瘤诊断、分级、分子标志物预测及生存预后。综述显示，CNN、SVM与梯度提升是胶质瘤分类的主流方法，报道准确率最高达88.5%、AUC最高达0.91；混合模型（CNN特征结合经典分类器）在胶质瘤检测中的表现优于单一算法，中位准确率达85.2%、AUC为0.88。神经肿瘤学占所有诊断性AI应用的52.69%，其中神经网络占30%、混合模型占48.2%，中位准确率超过85%。IDH基因型预测、MGMT启动子甲基化状态检测及1p/19q共缺失评估是最常研究的分子任务，ML对IDH分类的AUC最高可达0.89。多模态深度学习应用于MRI解码胶质母细胞瘤异质性时，AUC可达0.92，优于单模态方法。基于18670名患者的荟萃分析显示，ML预测脑动脉瘤破裂风险的合并AUC为0.84。总体而言，CNN与混合DL/ML集成模型在肿瘤分割与分级等图像任务中准确率最高，经典ML（RF、SVM）则在表格型临床与基因组数据中表现最佳。H1研究最常用的评估工具为PROBAST、留一法交叉验证与外部多中心验证数据集。

H2——脊柱外科中的AI

8项研究覆盖了脊柱外科的术前规划、术中导航与术后结局预测。贝叶斯网络在术前规划中的平均AUC最高（0.80±0.09），神经网络则在准确率（83.0%）、敏感度（81.5%）与特异度（71.8%）方面表现最优，术前规划与成本预测模型的平均AUC为0.89、准确率为82.2%。ML在脊柱外科的应用可分为术前（患者选择、风险分层）、术中（影像、导航、手术阶段识别）与术后（并发症预测、住院时长、出院规划）三个阶段。基于1080例腰椎融合患者的梯度提升模型对外预测术后功能结局的准确率达78%，优于逻辑回归。术中手术阶段识别的DL模型分类准确率最高达84%，但数据稀缺仍是主要障碍。领域内105项研究中有67项使用DL（主要用于影像），38项使用经典ML；仅25.7%的研究样本量超过1000例，普遍存在样本量不足导致的外推性受限问题。AI驱动的术中导航系统在椎弓根螺钉置入中可将辐射暴露降低高达90%；基于RF与梯度提升的患者报告结局（Patient-Reported Outcome Measures, PROMs，如Oswestry功能障碍指数与VAS疼痛评分）预测模型，在腰椎融合队列中的最佳AUC为0.82。

H3——神经外科实践与教育中的LLM

7项研究评估了LLM在神经外科知识考核、临床决策、诊断准确性与患者沟通中的表现，主要测评对象包括GPT-3.5、GPT-4、Google Bard/Gemini、Microsoft Copilot及AtlasGPT，评估方法为标准多选题库（SANS、SANSIE考试）、病例简报与新评分矩阵。GPT-4在500题模拟神经外科笔试（SANS）中的准确率为83.4%（95%CI：79.8%–86.5%），显著高于GPT-3.5的73.4%与用户平均值的72.8%（卡方检验，p<0.001）；在149题口试准备题库（SANSIE）中，GPT-4准确率为82.6%，GPT-3.5为62.4%，Bard为44.2%，且GPT-4在影像学相关问题中的幻觉率显著更低（p<0.05）。最新的五模型比较研究显示，GPT-4在148个教科书病例简报中的准确率为74%，高于AtlasGPT的63%、GPT-3.5的53%、Copilot的48%与Gemini的36%（卡方检验，p=0.005）；引入图像处理能力可显著提升所有LLM的诊断准确率。GPT-4在各项任务中表现持续最优，而专科微调模型AtlasGPT虽优于通用旧版模型，但仍未超越GPT-4，提示领域微调可带来中等收益，但尚未超越通用前沿模型的知识广度。需要注意的是，LLM研究多在考试或基准数据集上进行，尚无前瞻性证据表明其可改善患者结局、减少诊断错误或安全支持实时临床决策。幻觉、语境理解不全、影像依赖性任务表现波动及监管缺位仍是主要安全隐患，因此LLM目前应被视为教育或辅助信息支持工具，而非已验证的临床决策系统。

讨论

H1部分表明，深度学习（尤其是CNN架构）在神经肿瘤学的影像任务中表现突出，混合模型优于单一算法，非侵入性分子分型（如IDH突变预测AUC达0.89）具有重要临床意义。多模态数据整合可进一步提升性能，动脉瘤破裂风险预测的合并AUC为0.84是目前最有力的循证支持。但所有研究均为回顾性，缺乏前瞻性多中心验证，且数据来源集中于中美机构，外推性存疑。数据稀缺、黑箱不可解释性及验证不足是主要局限，联邦学习与可解释AI（Explainable AI, XAI）是未来重要方向。H2部分显示，贝叶斯网络擅长处理稀疏临床数据的不确定性，神经网络在充足影像数据中表现最优；术中导航已具备临床推广的技术成熟度，但结局定义异质性强、单中心数据为主、导航协议缺乏标准化限制了应用。H3部分强调，LLM在知识测评中的高分不代表临床胜任力，真实临床决策还需整合影像判读、个体化风险评估、多学科讨论与伦理考量。目前尚无前瞻性临床获益证据，幻觉与监管不确定性是核心障碍，检索时间窗与发表之间的滞后也可能低估最新进展。整体而言，AI在神经外科中展现出广阔潜力，但在广泛临床应用前仍需解决前瞻性验证、数据标准化与监管框架三大核心问题。

结论

本综述显示，AI（含ML、DL与LLMs）在选定的神经外科领域中具备诊断、预测与教育应用潜力，但证据异质性强且多为描述性。深度学习与混合模型在神经肿瘤影像任务中表现最优，贝叶斯网络与神经网络在脊柱外科结局预测中频繁被采用。GPT-4在知识评估与病例简报基准中表现领先，但这不构成其临床自主性或现实决策可靠性的证据。数据稀缺、前瞻性验证与监管清晰度仍是神经外科AI负责任、规模化临床应用的前提条件。

热点排行