《European Journal of Nuclear Medicine and Molecular Imaging》:LLM-powered prostate cancer staging from PSMA-PET/CT reports using PROMISE v2
编辑推荐:
【编者推荐】为解决临床医生从PSMA-PET/CT叙事性报告中手动提取结构化分期信息耗时且易出错的问题,研究人员利用大语言模型,系统比较了四种提示策略。结果显示,采用思维链提示时,模型在淋巴结分期(N)和远处转移分期(M)中表现最佳,为自动化、标准化前列腺癌分子影像分期提供了可行方案。
前列腺癌是全球男性中发病率第二高的恶性肿瘤,也是癌症相关死亡的主要原因之一。准确的疾病分期对于指导治疗方案和预测预后至关重要。近年来,靶向前列腺特异性膜抗原(Prostate-specific membrane antigen, PSMA)的正电子发射断层扫描/计算机断层扫描(PET/CT)已成为评估前列腺癌的重要影像学手段。为了规范PSMA-PET的解读,业内提出了前列腺癌分子影像标准化评估框架PROMISE,并于2023年更新至第二版,该框架定义了基于分子影像的TNM分期标准(miTNM)。然而,在日常临床实践中,影像报告多为描述性文本,从这些非结构化的叙事性报告中手动提取并归类至PROMISE v2分期系统,是一项耗时且可能受主观因素影响的工作,限制了其在大型数据分析和标准化报告中的广泛应用。随着人工智能技术的发展,大语言模型(Large Language Models, LLMs)在处理复杂医学文本方面展现出巨大潜力。那么,能否利用大语言模型自动解析PSMA-PET/CT报告,准确完成基于PROMISE v2框架的前列腺癌分期呢?研究人员对此展开了探索。该研究结果已于近期发表在《European Journal of Nuclear Medicine and Molecular Imaging》杂志上。
为回答这个问题,研究团队采用了一项回顾性设计。他们从慕尼黑工业大学机构数据库中筛选出2016例首次确诊前列腺癌患者的PSMA-PET/CT检查报告,并建立了基于PROMISE v2分期(T/N/M)的专家标注数据集作为参考标准。研究使用开源模型Meta-Llama-3.1-8B-Instruct,并在确保数据隐私和本地处理安全的环境中进行。核心方法是对比了四种不同的提示策略,包括零样本提示、高级零样本提示、少样本提示以及思维链提示结合自洽性框架,评估模型从报告文本中自动提取T、N、M分期信息的能力。研究采用准确率、精确率、召回率以及微平均和宏平均F1分数等指标系统评估性能。
研究结果显示,不同提示策略在T、N、M三个分期维度上的表现存在明显差异。具体发现如下:
T category:对于原发肿瘤(T)分期,四种策略中表现最佳的是高级零样本提示,其微平均F1分数为0.65,显著优于普通的零样本、少样本和思维链提示。这表明,对于需要解读解剖细微差别和模棱两可语言描述的T分期,提供详尽的领域知识和分类标准约束,比让模型自己推理或依赖少量示例更为有效。
N category:在淋巴结(N)分期任务上,思维链提示展现出明显优势,其微平均F1分数达到0.79。这显著优于零样本提示,也比高级零样本提示有小幅提升。这表明,对于N分期这类判断相对更明确的分类任务,模型通过分步推理和自洽性校验能获得更可靠的结果。
M category:对于远处转移(M)分期,思维链提示同样表现最优,微平均F1分数高达0.84。所有策略在M分期上均获得较高性能,这可能源于报告中描述转移的陈述通常较为直接和肯定,更容易被模型识别。
Error analysis:错误分析进一步揭示了不同策略的倾向性。零样本提示倾向于将预测结果“坍缩”到最常见的或居中的类别,例如在T分期中过度预测T3,在N分期中无法预测N2。高级零样本提示产生的错误大多集中在相邻类别之间,类间区分度有所改善。少样本提示表现不稳定,出现大量相邻类别混淆甚至部分长程错误。而思维链提示在N和M分期上产生了最清晰的诊断矩阵,错误率最低,但在T分期上仍然存在将分期过度“升级”的偏向。
在讨论部分,作者指出,LLM在识别淋巴结和远处转移方面表现出色,但对局部T分期依然存在挑战,这主要源于报告语言的高度复杂性。相比于N/M分期的二元性质,T分期涉及到大量细微的解剖描述和模棱两可的表述,对模型的理解能力要求更高。该研究证实,不同提示策略在特定分期任务上各有优劣,没有一种策略适用于所有情况。例如,T分期受益于明确的结构化规则,而N和M分期则更适合采用分步推理的思维链方法。
该研究的临床意义在于两方面:首先,作为实时决策支持工具,可在报告撰写过程中提供“二次检查”,确保miTNM分期被明确、正确地分配。其次,对于大规模回顾性研究,自动化分期能极大地减轻人工负担,提高临床注册数据的可重复性,并支持后续的结局分析。通过将PROMISE v2框架整合进LLM工作流,模型能够将非结构化的叙述性报告映射到标准化的分期类别,为实现前列腺癌分期的一致性和可扩展性处理提供了技术路径。
然而,该研究也存在一定局限性,包括单中心回顾性设计,模型的性能可能受到不同机构报告书写风格差异的影响;以及其参考标准来源于报告文本本身,并非组织病理学金标准,未来需要结合病理结果进行临床验证。尽管如此,这项工作证明了利用大语言模型基于PROMISE v2框架对PSMA-PET/CT报告进行自动化前列腺癌分期的可行性,为推进分子影像分期的标准化和自动化数据处理迈出了重要一步。