基于“反向提问”提示策略的大语言模型评估：在真实世界放射学报告中判定癌症进展的标注者间与标注者内一致性研究

【字体：大中小】 时间：2026年03月12日 来源：ESMO Real World Data and Digital Oncology

编辑推荐：

　　本篇研究探讨了利用大型语言模型（LLM）自动化标注从自由文本放射学报告中识别癌症进展的可行性与效能。研究提出了创新的“反向提问”提示框架，结果表明，在评估转移性乳腺癌的放射学报告时，LLMs的表现不劣于人类标注者（平均Cohen's κ 0.82 vs. 0.79），且在保持100%敏感性的前提下，可将人工工作量减少72%。该框架为真实世界证据（RWE）研究中高效、一致地提取关键临床参数提供了有前景的自动化解决方案。

引言

在肿瘤学临床实践与研究中，对肿瘤治疗反应的评估是一个核心参数，但这些信息通常以非结构化的自由文本形式记录在放射学报告中。手动从这些报告中提取和标注临床参数耗时、昂贵，严重阻碍了真实世界证据（RWE）研究的进展。大型语言模型（LLMs）的兴起为解决这一问题提供了可能。然而，医学文本，尤其是涉及癌症进展评估的放射学报告，具有高度的复杂性和主观解释性，这使得在比较人类与模型性能时，建立单一确定的“金标准”变得困难。因此，本研究旨在评估LLMs在从丹麦语转移性乳腺癌自由文本放射学报告中标注癌症进展事件的表现，并检验人-LLM间的一致性是否不劣于人-人之间的一致性。研究还量化了人类标注者的标注者内一致性，并开发了一个安全、可持续的LLM框架，以减少医学标注任务中解读自由文本放射学报告的人工工作量。

材料与方法

数据来源

研究数据来源于丹麦的电子健康记录（EHR）系统。研究人群限定为184名在2020年至2022年间开始使用细胞周期蛋白依赖性激酶4/6抑制剂治疗的转移性乳腺癌患者，共涉及376份放射学报告。这些报告由多家医院的放射科医生在常规临床实践中生成，其图像评估未标准化，也无需符合RECIST标准。

数据集标注

由一名专家（参考标注者）对所有报告进行初步标注，将每份报告分类为疾病进展（PD）或非进展（非PD）。随后，数据集被划分为训练集、验证集和测试集。测试集由第二位专家和四名医学生独立标注。为评估标注者内一致性，所有标注者在至少90天的洗脱期后对测试集进行了重新标注。两位专家在测试集上的分歧通过讨论达成共识，该共识结果用于评估LLM的最终性能。

LLM方法

研究采用了创新的“反向提问”提示策略。该策略系统性地提示模型分别为PD和非PD两类生成论据，然后再提示模型判断哪个论据更可能是正确的，以此纠正模型对临床阴性关键词过度敏感以及偏向于将报告分类为PD的倾向。研究使用了五种先进的开放权重模型系列（Mistral, Gemma, Gemma 2, Llama 3, Llama 3.1），并采用“群体智慧”集成方法，通过改变量化和温度参数，为每个模型系列生成25个不同输出。通过计算被分类为PD的比例，并使用10%到100%的阈值将其转换为二元预测，从而在不同操作点评估性能。

评估指标与统计

使用F₁分数、准确率、敏感性、特异性及Cohen's κ系数比较LLM模型。通过自助法（Bootstrapping）以0.1的非劣效性界值，评估了表现最佳的LLM集成模型与人-人一致性相比是否非劣效。标注者间和标注者内一致性分别使用Fleiss κ和Cohen's κ进行评估。此外，还计算了手动工作量的减少比例，定义为被分类为非PD的报告百分比。

结果

LLM选择

在验证集上，Llama 3.1:70B集成模型在70%的模型一致性阈值下取得了最佳性能，F₁分数为0.83，Cohen's κ为0.77。在30%到70%的一致性阈值范围内，模型在保持100%敏感性的同时，识别的PD病例数保持稳定。随后的分析均使用阈值为70%的Llama 3.1:70B集成模型。

LLM在测试集上的表现

在测试集上，与专家共识相比，集成模型达到了0.84的F₁分数、0.92的准确率和0.90的特异性，同时保持了100%的敏感性。在141个测试案例中，模型正确识别了全部28个专家共识PD病例，并预测了11个假阳性。这意味着在保证不漏检的前提下，潜在减少了72%的人工审阅工作量。个体模型分析表明，在验证集上表现最佳的单体模型在测试集上性能下降至第13位，凸显了集成方法的稳健性。

LLM与人类一致性比较

标注者间与标注者内一致性

在第一次标注轮次中，所有标注者间的Fleiss κ为0.73，成对Cohen's κ范围在0.56至0.84之间。两位专家标注者的一致率为126/141例，Cohen's κ为0.65。在第二次轮次中，Fleiss κ上升至0.79，Cohen's κ范围在0.70至0.93之间。所有标注者均表现出几乎完美的标注者内一致性，平均Cohen's κ为0.87，平均自我一致率为95%。

非劣效性评估

对于第一轮标注，人-LLM的平均Cohen's κ为0.78，人-人平均一致性为0.73。以0.1为界值的自助法非劣效性检验显示，集成模型的一致性不劣于人类一致性。在第二轮标注中，人-LLM和人-人的平均一致性分别为0.82和0.79，人-LLM一致性再次被证明是非劣效的。即使仅针对两位专家标注者进行敏感性分析，结论也未改变。这表明LLM达到了不劣于训练有素的人类标注者之间变异水平的一致性。

讨论

标注者间与标注者内一致性

手动审阅自由文本放射学报告因癌症进展的复杂性而面临重大挑战。在我们的数据中，专家标注者之间的平均成对一致性低于学生，这可能是因为专家应用了指南中未明示的隐含规则，或对指南的依从性较低。本研究量化的人类平均标注者内Cohen's κ为0.87，自我不一致率为5%，与其它医学文本解释研究的结果一致，凸显了医学文本解释任务固有的复杂性，从而增加了对LLM辅助标注等一致性方法的需求。

LLM性能

我们的LLM框架的可靠性因其在未见过的真实世界数据（RWD）上的评估而得到加强。“群体智慧”集成方法显著增强了预测的稳健性和可靠性。该框架允许通过调整集成一致性阈值，在保持100%敏感性的同时，在手动评估工作量与特异性之间进行权衡。这种可调节阈值的能力引入了一个关键的安全机制，增强了该框架对未来临床实施的稳健性和适应性。事后相关性分析证实，报告特征的异质性并未对模型-专家一致性产生有意义的混淆，支持了该方法在真实世界临床报告中的适用性。

实施前景

该自动化流程为大规模RWE研究（如调查真实世界无进展生存期、生成数据以训练图像到类别的深度学习模型）生成稳健数据集提供了重要机会。从临床角度看，它为解读复杂的放射学报告提供了获得“第二意见”的机会。通过使用集成一致性阈值来标记模糊案例以供人工专家审阅的选择性“人在环路”方法，可以确保持续的输出完整性。使用本地LLM确保了方法可在安全的医院基础设施内实施，维护了数据隐私。

局限性

本研究存在若干局限性。数据集依赖LLM自身的翻译能力将丹麦语自动翻译为英语，此过程未经明确审计。在将解决方案应用于其他国家时需考虑此翻译过程的风险。本研究未涉及放射科医生的标注，这虽然可能引入放射科医生在解读和描述图像方式上个体差异带来的偏差，但准确反映了仅依赖自由文本报告的肿瘤学决策流程。非劣效性比较是针对医学生和专家的混合组进行的，而非仅针对专家，这旨在评估我们的框架对抗使用医学生标注RWD的研究实践。最后，提示优化主要侧重于Gemma 2和Llama 3，可能导致Gemma和Mistral模型表现未达最优。

未来工作

未来的研究应侧重于将方法从患者层面扩展到病灶特异性追踪，以提高“反向提问”框架的粒度，使其能够区分系统性进展和混合反应。此外，开发一个展示推理依据的临床界面，可使其成为一个可解释的“第二意见”工具。最后，应通过将该方法扩展到更广泛的癌症亚型和临床背景（如早期疾病或首次复发情景）来评估其外部有效性。

结论

本研究表明，所提出的基于提示的“反向提问”LLM框架能够以不劣于人类标注的一致性，对转移性乳腺癌放射学报告中的PD事件进行分类。我们量化了人类标注者内变异性，这凸显了LLM框架性能一致性与人类标注者固有变异性相比的一个关键优势。该方法可根据具体研究目标进行配置，包括在保持100%敏感性的同时最大化特异性，在本研究设定中展示了将放射学报告标注所需人工工作量潜在减少72%的能力。这些发现支持将LLM辅助标注作为一种可扩展的方法，用于生成大规模注释数据集，适用于研究。未来的工作可能证明该框架在常规临床环境中作为决策支持工具的价值。

热点排行