《Annals of Clinical and Translational Neurology》:Screening Routine Clinical Notes for Epilepsy Surgery Candidates Using Large Language Models
编辑推荐:
目的: 尽管疗效确切,癫痫手术仍未得到充分利用,常规临床实践中符合条件的患者转诊严重不足。本研究旨在评估大语言模型(Large Language Models, LLMs)作为决策支持工具的潜力,通过筛选非结构化临床笔记以识别癫痫手术候选者,并根据预后指标对其
目的: 尽管疗效确切,癫痫手术仍未得到充分利用,常规临床实践中符合条件的患者转诊严重不足。本研究旨在评估大语言模型(Large Language Models, LLMs)作为决策支持工具的潜力,通过筛选非结构化临床笔记以识别癫痫手术候选者,并根据预后指标对其进行分层。
方法: 研究人员回顾性分析了某三级癫痫中心110例患者的非英语(希伯来语)自由文本病历。研究人员提示六种LLM(Gemini 2.5 Pro, 2.5 Flash, 2.0 Flash; GPT-5, GPT-5 mini; 以及o4-mini)提取手术资格标准、用于手术预后预测的“无癫痫发作量表”(Seizure Freedom Scale, SFS)参数、术前评估完成情况以及既往手术考虑情况。将模型输出结果与专家人工审查进行对比。
结果: 模型在识别核心资格参数方面的表现显示出高灵敏度(高达1.00)和特异度(高达0.96),并具有有利的预测值(阳性预测值Positive Predictive Value, PPV高达0.92,阴性预测值Negative Predictive Value, NPV高达1.00)。多数投票法在识别手术资格方面产生了近乎完美的灵敏度(本队列中为1.00)。值得注意的是,符合手术标准的45%(13/29)患者在既往未被考虑进行手术。模型在SFS评分评估中表现出高精度(灵敏度0.95,特异度0.93),并在识别已完成的术前评估方面表现出强劲性能。
结论: 这些发现表明,LLM有潜力作为决策支持工具,用于识别可能受益于手术评估但在常规护理中未被发现的患者。这一点得到了模型在正确识别合格患者及预后参数方面高性能的支持。由于这一性能是通过将现成的通用模型直接应用于原始的非英语临床笔记实现的,这表明其是一种可在多样化临床环境中应用的实用且可扩展的筛查方法。
本研究发表于《Annals of Clinical and Translational Neurology》,针对癫痫手术在临床实践中严重利用不足且合格患者转诊缺失的现状,探讨了大语言模型(Large Language Models, LLMs)在筛查非结构化临床笔记以识别癫痫手术候选者方面的应用价值。尽管耐药性癫痫(Drug-Resistant Epilepsy, DRE)患者应接受手术评估,但现实中转诊延迟显著,平均超过13年。虽然既往已有自然语言处理(Natural Language Processing, NLP)研究尝试提取癫痫相关信息,但传统方法依赖特征工程和特定语言模型,难以在不同医疗站点推广。因此,研究人员评估了现成LLM通过零样本提示(zero-shot prompting)直接处理原始临床叙述的可行性。
研究人员开展了一项回顾性研究,数据来源于以色列Sheba医学中心成人癫痫门诊的电子健康记录(Electronic Health Records, EHRs)。研究纳入了按时间倒序排列的116例患者随访记录,经排除后最终形成包含94例患者的验证队列(平均年龄42.3岁,54%为女性),所有临床数据均为希伯来语。研究聚焦于三大参数组:核心资格参数(局灶性癫痫、DRE、绝对禁忌症)、无癫痫发作量表(Seizure Freedom Scale, SFS)的四个术前因素(MRI病变缺失、高发作频率>20次/月、病程>5年、继发全身性强直阵挛发作Focal to Bilateral Tonic-Clonic Seizures, FBTCS史)以及已完成评估项目。研究人员使用了六种主流LLM(包括Gemini系列和GPT系列)进行分析,采用结构化系统提示,并通过多数投票法进行共识分析。性能评估以两名神经科医生的人工审查作为金标准。
患者特征
验证数据集中的94名患者里,经人工审查有29名(约31%)符合手术的一般资格标准。值得注意的是,其中13名(占符合条件者的45%)患者既往无任何手术考虑或讨论的记录。
模型在识别一般适合手术患者及核心资格参数方面的表现
个体模型在识别总体手术资格方面表现出高精度。其中GPT-5 mini表现最佳,灵敏度为0.95,特异度为0.96。通过多数投票法整合六个模型的输出,在判定总体手术资格时达到了1.00的灵敏度和0.96的特异度,证明了多模型协作的稳定性。
无癫痫发作量表(Seizure Freedom Scale, SFS)参数识别的表现
所有模型在提取SFS四个参数方面均表现优异。GPT-5在个体模型中得分最高(灵敏度0.91,特异度0.92)。多数投票法在确定最终SFS评分时,灵敏度达到0.95,特异度达到0.93,表明LLM能够准确进行预后分层。
识别已完成术前评估的表现
模型在识别已完成评估方面整体表现良好。多数投票结果显示,视频脑电图监测(Video-EEG monitoring)的灵敏度为0.88,特异性为0.92;近期脑MRI(<2年)的敏感性为0.80,特异性为0.95;而FDG-PET/SPECT、神经心理学评估和功能性磁共振成像(functional MRI, fMRI)的识别准确率达到完美水平(灵敏度与特异度均为1.00)。
识别既往手术考虑、患者立场及手术史的表现
共识分析显示,模型在检测既往是否已考虑手术(灵敏度1.00,特异度1.00)以及是否已进行过癫痫手术(灵敏度1.00,特异度1.00)方面具有极高准确性。在识别患者拒绝手术方面,灵敏度为0.91,特异度为0.90。
讨论与结论
本研究证实LLM能够从非结构化临床笔记中有效识别癫痫手术候选人并进行预后分层。研究结果表明,自动化分析有助于解决手术候选人识别不足的问题,特别是发现了近半数(45%)符合条件的患者此前未被临床医生识别。这并非源于患者临床特征的显著差异,而是反映了识别过程中的不一致性。与传统依赖特征工程的监督学习方法相比,本研究采用的现成通用LLM通过零样本提示直接处理原始非英语文本,代表了从预定义文本模式向通用语义理解的转变,具有极高的可移植性和实施便利性。尽管存在样本量较小、单中心回顾性等局限性,但这项工作证明了广泛可用的通用模型可以直接从原始临床文本中支持临床相关筛查任务,为跨不同医疗系统的规模化筛查提供了可行路径。