《Drug Safety》:The Evaluation of Transformer Models for the Detection of Adverse Drug Events: A Benchmark Study Using Dutch Free-Text Documents of Hospitalized Patients
编辑推荐:
针对荷兰语临床自由文本中药物不良事件(ADE)自动检测工具匮乏、现有模型缺乏外部验证及评估指标不适用于罕见结局的问题,本研究评估了四种Transformer模型和一种Bi-LSTM基线模型。结果表明,荷兰医学领域专用模型MedRoBERTa.nl整体性能最佳,其在外部验证中可识别67%-74%含ADE的出院小结,为临床实践中基于自然语言处理(NLP)的ADE监测提供了首个荷兰语基准与方法指导,并强调了使用适用于罕见结局(如ADE)的宏观平均F1和F2分数等性能指标的重要性。
药物不良事件是导致住院患者可预防性伤害的主要原因之一,它们的信息通常仅记录在临床自由文本(如病程记录、出院小结)中,检索和量化存在巨大困难。利用自然语言处理自动化检测ADE具有广阔前景。然而,现有研究大多集中于英语,对荷兰语等非英语临床文本的探索有限;同时,大多数研究使用的性能指标(如微平均F1分数)对ADE这类罕见结局不敏感,容易夸大模型性能;更重要的是,现有模型普遍缺乏在不同医疗机构、不同文档类型上的外部验证,其实际泛化能力存疑。
为了解决这些问题,来自阿姆斯特丹大学医学中心等机构的研究团队在《Drug Safety》期刊上发表了一项开创性研究。他们创建了一个包含实际临床场景、恰当性能指标和外部验证的稳健基准,旨在评估四种Transformer模型在荷兰语临床自由文本中检测ADE的性能。
为了开展这项研究,作者采用了多个关键技术方法。首先,他们使用了三个匿名的荷兰临床文本数据集:包含102份密集标注的重症监护室病程记录的荷兰ADE语料库、包含411份稀疏标注ICU笔记的ICU AKI语料库,以及包含100份内科患者出院小结(其中36份含有ADE)的WINGS语料库用于外部验证。其次,研究基于荷兰ADE语料库,训练了一个双向长短期记忆网络模型和四个基于Transformer的荷兰语或多语言编码器模型(包括BERTje、RobBERT-base、MedRoBERTa.nl和NuNER),执行命名实体识别和关系分类任务。实验采用五折交叉验证,并对关系分类任务进行了超参数调优。最后,他们不仅使用微平均F1分数,还重点报告了宏观平均F1分数来评估模型在ADE这类罕见类别上的表现,并使用精确率-召回率曲线来选择F1和F2阈值进行推理,以应对临床中对召回率(敏感性)的不同需求。
1. 荷兰ADE语料库结果
在内部验证中,MedRoBERTa.nl在命名实体识别任务的所有类别中都取得了最高的微平均F1分数。在关系分类任务中,当使用黄金标准实体时,所有模型的ADE检测微平均F1分数都很高(±0.99),但这掩盖了模型在识别少数类(ADE)上的真实表现。相比之下,宏观平均F1分数更能反映模型对罕见事件的识别能力,MedRoBERTa.nl在此项指标上表现最佳(0.63)。在更贴近临床场景的评估中(如识别文档以供人工因果评估或完整计数ADE组内的所有关系),MedRoBERTa.nl在大多数设置下也展现了最佳或极具竞争力的表现,特别是在优先召回率(使用F2阈值)时,其ADE组的检出率可达60%。
2. ICU AKI语料库结果
在ICU AKI语料库的文档级别ADE检测任务中,MedRoBERTa.nl在使用F1阈值时,在大部分性能指标上均以中等优势优于其他模型,其召回率在0.620–0.627之间,意味着能够检测出62%至63%含有ADE的ICU笔记。
3. WINGS语料库(外部验证)结果
在最具挑战性的外部验证中,MedRoBERTa.nl的优势更为明显。在使用F1阈值时,其F1分数(0.681)显著优于第二名模型BERTje(0.622);在使用更侧重召回率的F2阈值时,其召回率范围为0.674–0.736,意味着能够检测出67%至74%含有ADE的出院小结,且精确率(阳性预测值)保持在0.736–0.794之间。这证明了其在不同于训练数据来源(非学术医院的内科出院小结)上的良好泛化能力。
讨论与结论
本研究首次为荷兰语临床自由文本(特别是病程记录和出院小结)中的ADE检测设立了基准。主要发现是,荷兰医学领域专用模型MedRoBERTa.nl在大多数任务中表现出最强的整体性能,并在外部验证中展示了良好的泛化潜力。
研究结果突出了一个关键问题:性能指标的选择至关重要。对于ADE这种罕见事件,仅报告微平均F1分数会严重夸大模型性能,因为它被占主导地位的非ADE类别(多数类)所主导。宏观平均F1分数和精确率-召回率曲线能提供更真实的评估。因此,作者强烈建议在类似评估中并报告宏观平均F1和F2分数,以支持更合理的模型比较和选择。
此外,训练目标(如使用F2阈值)显著影响模型在召回导向任务(如外部验证)上的表现。这在临床应用中意味着,可以根据实际需求(是更看重不遗漏ADE,还是更看重减少误报)来调整模型阈值。
研究的优势在于其开创性(首个荷兰语ADE检测基准)、严谨性(包含外部验证)和方法的高效性(复用NER模型的嵌入进行关系分类)。局限性主要在于训练语料库规模较小,且正样本(含ADE的笔记)比例高于真实临床场景。不过,研究通过使用ICU AKI和WINGS语料库部分缓解了这一问题。
重要意义在于,尽管模型的绝对性能(F1分数和召回率)尚属中等,但MedRoBERTa.nl的表现在当前荷兰临床实践中缺乏自动化ADE检测工具的背景下,构成了向前迈出的相关一步。该研究为未来在ADE领域的NLP基准研究提供了指导,并强调了开发更大、更多样化的标注语料库,以及在实际临床环境中持续评估的重要性,这是此类模型最终可靠部署于患者护理之前的关键步骤。