基于大语言模型的PSMA-PET/CT报告自动分期：评估PROMISE v2框架下前列腺癌分子影像TNM分期新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《European Journal of Nuclear Medicine and Molecular Imaging》：LLM-powered prostate cancer staging from PSMA-PET/CT reports using PROMISE v2

【字体：大中小】 时间：2026年03月22日 来源：European Journal of Nuclear Medicine and Molecular Imaging 7.6

编辑推荐：

　　【编者推荐】为解决临床医生从PSMA-PET/CT叙事性报告中手动提取结构化分期信息耗时且易出错的问题，研究人员利用大语言模型，系统比较了四种提示策略。结果显示，采用思维链提示时，模型在淋巴结分期（N）和远处转移分期（M）中表现最佳，为自动化、标准化前列腺癌分子影像分期提供了可行方案。

前列腺癌是全球男性中发病率第二高的恶性肿瘤，也是癌症相关死亡的主要原因之一。准确的疾病分期对于指导治疗方案和预测预后至关重要。近年来，靶向前列腺特异性膜抗原（Prostate-specific membrane antigen， PSMA）的正电子发射断层扫描/计算机断层扫描（PET/CT）已成为评估前列腺癌的重要影像学手段。为了规范PSMA-PET的解读，业内提出了前列腺癌分子影像标准化评估框架PROMISE，并于2023年更新至第二版，该框架定义了基于分子影像的TNM分期标准（miTNM）。然而，在日常临床实践中，影像报告多为描述性文本，从这些非结构化的叙事性报告中手动提取并归类至PROMISE v2分期系统，是一项耗时且可能受主观因素影响的工作，限制了其在大型数据分析和标准化报告中的广泛应用。随着人工智能技术的发展，大语言模型（Large Language Models， LLMs）在处理复杂医学文本方面展现出巨大潜力。那么，能否利用大语言模型自动解析PSMA-PET/CT报告，准确完成基于PROMISE v2框架的前列腺癌分期呢？研究人员对此展开了探索。该研究结果已于近期发表在《European Journal of Nuclear Medicine and Molecular Imaging》杂志上。

为回答这个问题，研究团队采用了一项回顾性设计。他们从慕尼黑工业大学机构数据库中筛选出2016例首次确诊前列腺癌患者的PSMA-PET/CT检查报告，并建立了基于PROMISE v2分期（T/N/M）的专家标注数据集作为参考标准。研究使用开源模型Meta-Llama-3.1-8B-Instruct，并在确保数据隐私和本地处理安全的环境中进行。核心方法是对比了四种不同的提示策略，包括零样本提示、高级零样本提示、少样本提示以及思维链提示结合自洽性框架，评估模型从报告文本中自动提取T、N、M分期信息的能力。研究采用准确率、精确率、召回率以及微平均和宏平均F1分数等指标系统评估性能。

研究结果显示，不同提示策略在T、N、M三个分期维度上的表现存在明显差异。具体发现如下：

T category：对于原发肿瘤（T）分期，四种策略中表现最佳的是高级零样本提示，其微平均F1分数为0.65，显著优于普通的零样本、少样本和思维链提示。这表明，对于需要解读解剖细微差别和模棱两可语言描述的T分期，提供详尽的领域知识和分类标准约束，比让模型自己推理或依赖少量示例更为有效。

N category：在淋巴结（N）分期任务上，思维链提示展现出明显优势，其微平均F1分数达到0.79。这显著优于零样本提示，也比高级零样本提示有小幅提升。这表明，对于N分期这类判断相对更明确的分类任务，模型通过分步推理和自洽性校验能获得更可靠的结果。

M category：对于远处转移（M）分期，思维链提示同样表现最优，微平均F1分数高达0.84。所有策略在M分期上均获得较高性能，这可能源于报告中描述转移的陈述通常较为直接和肯定，更容易被模型识别。

Error analysis：错误分析进一步揭示了不同策略的倾向性。零样本提示倾向于将预测结果“坍缩”到最常见的或居中的类别，例如在T分期中过度预测T3，在N分期中无法预测N2。高级零样本提示产生的错误大多集中在相邻类别之间，类间区分度有所改善。少样本提示表现不稳定，出现大量相邻类别混淆甚至部分长程错误。而思维链提示在N和M分期上产生了最清晰的诊断矩阵，错误率最低，但在T分期上仍然存在将分期过度“升级”的偏向。

在讨论部分，作者指出，LLM在识别淋巴结和远处转移方面表现出色，但对局部T分期依然存在挑战，这主要源于报告语言的高度复杂性。相比于N/M分期的二元性质，T分期涉及到大量细微的解剖描述和模棱两可的表述，对模型的理解能力要求更高。该研究证实，不同提示策略在特定分期任务上各有优劣，没有一种策略适用于所有情况。例如，T分期受益于明确的结构化规则，而N和M分期则更适合采用分步推理的思维链方法。

该研究的临床意义在于两方面：首先，作为实时决策支持工具，可在报告撰写过程中提供“二次检查”，确保miTNM分期被明确、正确地分配。其次，对于大规模回顾性研究，自动化分期能极大地减轻人工负担，提高临床注册数据的可重复性，并支持后续的结局分析。通过将PROMISE v2框架整合进LLM工作流，模型能够将非结构化的叙述性报告映射到标准化的分期类别，为实现前列腺癌分期的一致性和可扩展性处理提供了技术路径。

然而，该研究也存在一定局限性，包括单中心回顾性设计，模型的性能可能受到不同机构报告书写风格差异的影响；以及其参考标准来源于报告文本本身，并非组织病理学金标准，未来需要结合病理结果进行临床验证。尽管如此，这项工作证明了利用大语言模型基于PROMISE v2框架对PSMA-PET/CT报告进行自动化前列腺癌分期的可行性，为推进分子影像分期的标准化和自动化数据处理迈出了重要一步。

联系信箱：

粤ICP备09063491号

热点排行