PECARN头部损伤算法在大型语言模型中的应用安全性与诊断准确性

《International Journal of Medical Informatics》:Safety and diagnostic accuracy of large-language model application of PECARN head injury algorithm

【字体: 时间:2026年05月10日 来源:International Journal of Medical Informatics 4.1

编辑推荐:

  Mackenzie A. Simper | Fahd A. Ahmad | Joanna Abraham | Thomas M. Maddox | James Flotken | James R. Rudloff 华盛顿大学医学院,密苏里州圣路易斯市,Euclid Avenue

  
Mackenzie A. Simper | Fahd A. Ahmad | Joanna Abraham | Thomas M. Maddox | James Flotken | James R. Rudloff
华盛顿大学医学院,密苏里州圣路易斯市,Euclid Avenue South 660号,邮编63110,美国

摘要

背景

临床决策算法指导基于证据的决策和行动。自动化工具可以帮助这些算法的采用和可持续发展,尤其是在紧急情况下,需要快速在混乱环境中做出决策。这项预实施研究评估了大型语言模型(LLM)是否可以安全准确地应用儿科急诊护理应用研究网络(PECARN)头部损伤算法于急诊科病历中,这是开发用于治疗儿科头部损伤的临床决策支持工具的初步步骤。

方法

我们研究了大型语言模型Generative Pretrained Transformer(GPT)应用PECARN头部损伤算法的安全性和能力,使用了3个月至18岁因“头部损伤”主诉就诊于儿科急诊科(ED)的患者的病历。我们整理了一个包含多种症状的24名患者的数据集来开发模型,并随机选择了122名患者进行测试。我们开发并比较了四种LLM模型从临床病历中提取临床特征的效果。主要结果是安全性,以负预测值(NPV)来衡量,以及LLM模型与儿科急诊医学(PEM)医生的准确性进行比较。次要结果是PECARN算法中使用的九个特征的准确性。

结果

所有模型都显示出了与PEM医生相当的高NPV。在NPV和准确性方面表现最佳的是经过提示工程设计的“优化特征模型”(NPV = 0.98,准确性 = 0.89),其表现与急诊科临床医生的NPV(0.99)和准确性(0.92)相似。

结论

我们基于LLM的临床决策算法工具显示出了高准确性和NPV。尽管很有前景,但仍需进一步研究其可扩展性和可行性,以确保基于LLM的数字健康工具能够促进儿科患者在急诊科的安全有效护理。

引言

儿科急诊护理应用研究网络(PECARN)头部损伤算法于2009年开发,根据临床特征和患者就诊时的病史指导临床医生是否需要进行头部计算机断层扫描(CT)。在后续的验证和实施研究中,该算法已被证明可以安全减少接受创伤性脑损伤(TBIs)评估的儿科患者中CT的过度使用[1],[2],[3],[4],[5]。尽管这一规则在16年前就已发布,但在各急诊科(ED)的整体应用仍滞后[6]。像这样的儿科临床算法存在以下问题:1)研究知识向实践的转化延迟[7];2)不同机构间的采纳程度存在差异(例如学术型急诊科与社区型急诊科);3)缺乏工具/技术来改进基于证据的指南的采纳和遵守[8]。开发和实施用于急诊科的儿科临床决策支持工具,包括PECARN头部损伤算法,是领先的儿科急诊医学组织的目标[5],[8]。
大型语言模型(LLM)是一种形式的人工智能(AI),它们在庞大的多样化文本语料库上进行预训练,并利用基于变换器的架构和注意力机制,能够解读非结构化的临床叙述,整合来自不同数据源的信息,模拟复杂的上下文依赖关系[9],从而促进生物医学知识的合成和临床推理[10],从而实现临床决策的自动化[11]。虽然之前的研究已经评估了AI在成人急诊科进行患者分诊和提供建议的潜力[12],[13],[14],但关于LLM和其他形式的人工智能如何应用于支持儿科急诊科的临床决策的研究仍然有限。此外,幻觉(即看似合理但实际上不正确的事实性反应)对AI在临床工作流程中的安全部署构成了重大挑战[15]。为了测试AI驱动的临床决策支持(CDS)在应用临床算法方面的能力,我们选择回顾性地评估LLM的优势和局限性。
我们提出了这项早期阶段的研究,以在实施之前评估基于LLM的CDS工具的安全性和准确性。
本研究的目标是开发并测试一种流行的LLM(Generative Pretrained Transformer,OpenAI,旧金山,加利福尼亚)应用PECARN头部损伤算法于急诊科临床医生病历的能力,并生成与手动审查相比的建议。对每位患者的建议包括:(i) 进行头部CT检查;(ii) 观察患者;或 (iii) 不建议进行头部CT检查。使用AI应用PECARN头部损伤算法是及时的且新颖的,原因有:1) AI在医疗保健领域的迅速发展;2) 临床病历作为临床决策支持的数据来源;3) 利用病历、记录或其他文本来源提供实时临床决策支持的可能性。

部分摘录

研究设计和设置

这是一项横断面研究,涵盖了2019年7月1日至2022年6月30日期间圣路易斯儿童医院的儿科急诊就诊情况。该医院是一家三级护理的独立学术儿童医院,每年约有50,000次急诊就诊。我们评估了四种基于GPT的方法,用于从急诊科临床医生的病历中提取PECARN头部损伤变量并应用PECARN头部损伤算法。研究变量包括PECARN的九个预测特征、患者年龄类别、就诊日期等

参与者和描述性数据

训练数据集(24名患者)和测试数据集(122名患者)是根据手动病历审查的结果描述的(表3)。测试数据集包括92名2岁以下患者和30名2岁及以上患者的就诊记录。

准确性和NPV

比较四种模型和专家审查的结果,所有模型和专家的负预测值都较高,但正预测值较低(图1,补充电子表格1)。GPT模型在……方面表现最佳

讨论

我们的研究证明了基于LLM的CDS工具在儿科头部损伤方面的安全性和准确性。仅通过提示工程设计,GPT模型就能达到与儿科急诊医学临床医生相似的准确性和负预测值。尽管模型的整体NPV和准确性令人鼓舞,但在急诊科作为常规护理的一部分实时应用之前,仍需进一步开发。
从临床角度来看,表现最好的模型是

局限性

从优化特征模型提取PECARN算法的各个特征的结果来看,我们发现GPT模型在解释诸如损伤机制的严重程度(例如严重、中度或轻度)等主观特征时面临与人类相似的挑战。一些研究发现,即使是在专家评审者之间,评分者间的可靠性也较低[29]。
我们的工作也受到临床病历内容的影响。因为某些特征在……中不存在

结论

我们训练并评估了一个由LLM/AI驱动的数字健康工具,该工具在应用PECARN头部损伤算法订购儿科TBI患者的头部CT时,显示出了与执业临床医生相似的安全性和准确性。尽管很有前景,但仍需进一步开发,以确保其在患者就诊时能够实时有效地发挥作用。

CRediT作者贡献声明

Mackenzie A. Simper:撰写——审阅与编辑、原始草稿撰写、验证、软件开发、方法论、数据分析、概念化。Fahd A. Ahmad:撰写——审阅与编辑。Joanna Abraham:撰写——审阅与编辑。Thomas M. Maddox:撰写——审阅与编辑。James Flotken:撰写——审阅与编辑、数据管理。James R. Rudloff:撰写——审阅与编辑、原始草稿撰写、验证、软件开发、资源管理、方法论、数据分析

资助

TMM感谢美国国立卫生研究院(NIH)(NHLBI UG3HL165065)的资助。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:作者MAS、FAA、JA、JF和JRR没有报告任何资助或利益冲突。TMM所在的机构在过去三年中从国家卫生研究院获得了研究资助。他在过去三年中接受了来自健康护理记者协会(2023年3月)和北……的酬金和/或费用报销
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号