《Scientific Reports》:GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine
编辑推荐:
本研究旨在解决放射科医生在提供影像随访建议时,尽管有既定指南但仍存在显著差异的临床问题。研究人员评估了大型语言模型GPT-4o基于常规影像报告自动生成标准化随访时机和检查方式的潜力。研究结果显示,GPT-4o生成的建议在总体质量上与资深放射科医师相当,在随访时机准确性(96%)和完整性(92%)方面表现优异,支持其作为决策支持工具,以促进符合指南的标准化随访。
在日常医疗实践中,放射科医生看完CT或磁共振(MRI)片子后,除了描述所见,还需给出关键建议:患者是否需要复查、何时复查、用什么方法复查。这看似简单的决定,却充满“人”的变数。尽管美国放射学会(ACR)、Fleischner学会等权威机构发布了详尽指南,但研究显示,不同医生对相同影像给出的建议可能天差地别。一项大规模分析发现,即使考虑各种因素,不同放射科医生建议后续检查的可能性仍相差近七倍之多。这种不统一的状况可能带来双重麻烦:一方面,部分患者可能因此接受不必要的检查,徒增费用和辐射风险;另一方面,部分本应得到及时随访的患者可能被延误。这种现状,呼唤一种能够理解报告文本、掌握临床指南,并据此提供标准化建议的“智能助手”的出现。
近年来,以GPT-4o(Generative Pre-trained Transformer 4 Omni)为代表的大型语言模型(LLMs)展现出理解复杂文本、并基于知识生成合理建议的强大能力。这为弥合指南与实践间的鸿沟带来了新希望。那么,这个前沿的AI模型,能否胜任临床影像报告解读,并给出堪比甚至优于放射科医生的专业随访建议呢?
为了回答这个核心问题,研究人员开展了一项回顾性、双中心研究。他们从临床信息系统中,随机抽取了100份真实的CT或MRI影像报告,涵盖头颈、肝脏、肺部和胰腺这四个常见的肿瘤影像亚专科。这些报告被同时提交给GPT-4o(通过OpenAI的ChatGPT网络界面访问)和两位人类阅片者:一位是有5年经验的放射科住院医师(R1),另一位是有8年经验的认证放射科医师(R2)。三方均基于相同的报告文本,按照一个标准化指令生成随访建议,即“根据病史、影像学发现和诊断评估,具体说明建议用于后续评估的确切时间框架和成像方式”。为了确保评估的客观性,两位分别拥有25年和11年经验的高级放射科专家,在不了解建议来源的情况下,独立审阅了所有由GPT-4o和人类阅片者生成的随访建议,并达成共识评估。评估标准从四个维度展开:随访建议的完整性、检查方式的适当性、随访时机的准确性,以及一个评估整体随访质量的5分制李克特量表(5分为最高分)。
研究的主要方法包括:
- 1.
数据采集与处理:从两家医疗中心(中心1和中心2)的放射学信息系统中,随机抽取了100例成年患者的CT/MRI报告(71例MRI,29例CT),涵盖头颈、肝脏、肺、胰腺四个亚专科,确保样本覆盖多种指南框架。
- 2.
模型与人类对比评估:使用GPT-4o模型(gpt-4o-2024-05-13版本)以零样本(Zero-shot)提示方式处理报告。两位不同年资的人类放射科医生(住院医师R1和认证医师R2)独立审阅相同报告并生成建议。
- 3.
专家共识与评估标准:两位资深放射科专家在盲法下,依据国际主流指南(如NCCN、ACR、Fleischner学会等)对三方建议进行四维度评估:建议完整性(是否涵盖所有需随访病变)、检查方式适当性、随访时机准确性(分为完全正确、部分正确但无害、完全错误且有害三类)、整体质量评分(1-5分)。
研究结果
整体随访建议评估
在总体质量评分上,GPT-4o的中位数得分为4分(范围2-5),与住院医师R1(4分,范围1-5)和认证医师R2(4分,范围1-5)相当。成对比较显示,GPT-4o的评分分布显著优于R1(p < 0.01),但与R2无显著差异(p = 0.06)。非参数分析中的相对处理效应(Relative Treatment Effect, RTE)也显示出显著的“阅片者”效应(GPT-4o: 0.56;R1: 0.43;R2: 0.51;p < 0.01),表明GPT-4o的表现具有优势。在随访时机准确性(完全正确与部分正确合并计算)方面,GPT-4o达到了96%(96/100)的正确率,显著高于R1的75%(75/100,p < 0.001),与R2的90%(90/100)相比无显著差异(p = 0.096)。在建议完整性方面,GPT-4o覆盖了所有需随访病变的比例为92%(92/100),与R1的91%相似,但显著高于R2的80%(p = 0.014)。在检查方式适当性方面,GPT-4o、R1、R2的表现分别为90%、94%、95%,组间无显著差异。
不同亚专科的随访建议评估
研究观察到检查部位对建议质量有显著影响(胰腺:RTE 0.59;肺:0.54;肝:0.49;头颈:0.39;p < 0.01)。
- •
胰腺:GPT-4o、R1、R2的时机正确率分别为96%、68%、100%。GPT-4o显著优于R1(p = 0.010),与R2无显著差异。
- •
肝脏:时机正确率分别为96%、56%、80%。GPT-4o显著优于R1(p < 0.001)。
- •
肺部:GPT-4o达到100%的正确率,显著优于R1的80%(p = 0.018)。
- •
头颈:三者表现相近(GPT-4o: 92%, R1: 96%, R2: 92%),无显著差异。头颈部影像在所有阅片者中表现相对较低,可能源于该领域临床异质性更大,且不同学会的指南存在部分分歧。
不同中心的随访建议评估
比较两家中心的数据,整体随访建议质量无差异(两个中心的RTE均为0.50,p = 0.91),表明本地报告风格和机构背景对GPT-4o辅助建议的质量影响极小,支持了其在不同实践环境中应用的潜在普适性。
研究结论与讨论
本研究系统评估了通用大型语言模型GPT-4o在基于临床常规影像报告自动确定随访检查方式和时机方面的潜力。结果表明,GPT-4o生成的随访建议,在整体质量上可与经验丰富的认证放射科医师相媲美,并优于放射科住院医师。该模型在建议完整性和随访时机准确性方面表现突出,其相对处理效应显示出显著的正向“读者”效应。这意味着,GPT-4o有潜力作为决策支持工具,帮助临床实现更标准化、更符合指南的随访。
当前,已有初步研究探索了LLMs在胸部CT报告肺结节随访、偶然发现的胰腺囊性病变随访建议生成等任务中的应用,并显示出良好前景。本研究在此基础上,纳入了双中心数据以增强结果稳健性,并首次系统比较了模型在不同影像亚专科间的表现。GPT-4o在肺、胰腺、肝脏等亚专科表现更优,很可能因为这些领域(如肺结节的Fleischner标准、肝细胞癌的LI-RADS、胰腺导管内乳头状黏液性肿瘤(IPMN)的福冈共识指南)的决策路径高度标准化且被广泛采用。而头颈部影像因临床异质性高、指南共识相对复杂,所有评估者的表现均相对较低。
这些发现为未来在临床工作流中进一步评估和潜在应用GPT-4o作为决策支持工具提供了证据。将其作为半自动化工具集成到系统中,可为接诊放射科医师提供待确认的随访建议,甚至通过与检查排程系统接口,实现检查的自动预约,从而优化工作流程,提高效率。更重要的是,这样一个促进标准化随访建议的工具,有助于对抗当前放射科实践中因建议不一致而导致的潜在效率低下问题,减少不必要的检查,并确保患者获得及时随访。
当然,本研究也存在一些局限性。GPT-4o等模型缺乏真正的语义理解,可能产生看似合理但不正确的陈述。模型的“黑箱”特性限制了其决策的可解释性和可审计性。研究采用回顾性设计,样本量相对较小(n=100)且有意覆盖了多个亚专科,这可能限制了统计效力,并影响结果向非肿瘤适应症、急诊或其他语言报告风格的推广。此外,研究仅基于放射学报告进行评估,未纳入其他类型的医疗记录或其他医疗专业人员的视角。
总之,GPT-4o能够生成整体质量与认证放射科医师相当、且高于放射科住院医师的随访建议,其特点在于高完整性和通常恰当的检查方式与时间间隔选择。研究结果支持将GPT-4o用作决策支持,以促进标准化、符合指南的随访。未来的工作应评估LLM能否自动标记出信息不足、无法确定随访的报告以简化工作流,并评估整合了国家和机构指南的本地化部署。前瞻性、国际多中心研究对于验证这些发现并在多样化的实践环境中确立其普适性至关重要。