荷兰临床自由文本中药物不良事件检测的Transformer模型评估：一项基于住院患者数据的基准研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Drug Safety》：The Evaluation of Transformer Models for the Detection of Adverse Drug Events: A Benchmark Study Using Dutch Free-Text Documents of Hospitalized Patients

【字体：大中小】 时间：2026年02月23日 来源：Drug Safety 3.8

编辑推荐：

　　针对荷兰语临床自由文本中药物不良事件(ADE)自动检测工具匮乏、现有模型缺乏外部验证及评估指标不适用于罕见结局的问题，本研究评估了四种Transformer模型和一种Bi-LSTM基线模型。结果表明，荷兰医学领域专用模型MedRoBERTa.nl整体性能最佳，其在外部验证中可识别67%-74%含ADE的出院小结，为临床实践中基于自然语言处理(NLP)的ADE监测提供了首个荷兰语基准与方法指导，并强调了使用适用于罕见结局（如ADE）的宏观平均F1和F2分数等性能指标的重要性。

药物不良事件是导致住院患者可预防性伤害的主要原因之一，它们的信息通常仅记录在临床自由文本（如病程记录、出院小结）中，检索和量化存在巨大困难。利用自然语言处理自动化检测ADE具有广阔前景。然而，现有研究大多集中于英语，对荷兰语等非英语临床文本的探索有限；同时，大多数研究使用的性能指标（如微平均F1分数）对ADE这类罕见结局不敏感，容易夸大模型性能；更重要的是，现有模型普遍缺乏在不同医疗机构、不同文档类型上的外部验证，其实际泛化能力存疑。

为了解决这些问题，来自阿姆斯特丹大学医学中心等机构的研究团队在《Drug Safety》期刊上发表了一项开创性研究。他们创建了一个包含实际临床场景、恰当性能指标和外部验证的稳健基准，旨在评估四种Transformer模型在荷兰语临床自由文本中检测ADE的性能。

为了开展这项研究，作者采用了多个关键技术方法。首先，他们使用了三个匿名的荷兰临床文本数据集：包含102份密集标注的重症监护室病程记录的荷兰ADE语料库、包含411份稀疏标注ICU笔记的ICU AKI语料库，以及包含100份内科患者出院小结（其中36份含有ADE）的WINGS语料库用于外部验证。其次，研究基于荷兰ADE语料库，训练了一个双向长短期记忆网络模型和四个基于Transformer的荷兰语或多语言编码器模型（包括BERTje、RobBERT-base、MedRoBERTa.nl和NuNER），执行命名实体识别和关系分类任务。实验采用五折交叉验证，并对关系分类任务进行了超参数调优。最后，他们不仅使用微平均F1分数，还重点报告了宏观平均F1分数来评估模型在ADE这类罕见类别上的表现，并使用精确率-召回率曲线来选择F₁和F₂阈值进行推理，以应对临床中对召回率（敏感性）的不同需求。

1. 荷兰ADE语料库结果

在内部验证中，MedRoBERTa.nl在命名实体识别任务的所有类别中都取得了最高的微平均F1分数。在关系分类任务中，当使用黄金标准实体时，所有模型的ADE检测微平均F1分数都很高（±0.99），但这掩盖了模型在识别少数类（ADE）上的真实表现。相比之下，宏观平均F1分数更能反映模型对罕见事件的识别能力，MedRoBERTa.nl在此项指标上表现最佳（0.63）。在更贴近临床场景的评估中（如识别文档以供人工因果评估或完整计数ADE组内的所有关系），MedRoBERTa.nl在大多数设置下也展现了最佳或极具竞争力的表现，特别是在优先召回率（使用F₂阈值）时，其ADE组的检出率可达60%。

2. ICU AKI语料库结果

在ICU AKI语料库的文档级别ADE检测任务中，MedRoBERTa.nl在使用F₁阈值时，在大部分性能指标上均以中等优势优于其他模型，其召回率在0.620–0.627之间，意味着能够检测出62%至63%含有ADE的ICU笔记。

3. WINGS语料库（外部验证）结果

在最具挑战性的外部验证中，MedRoBERTa.nl的优势更为明显。在使用F₁阈值时，其F₁分数（0.681）显著优于第二名模型BERTje（0.622）；在使用更侧重召回率的F₂阈值时，其召回率范围为0.674–0.736，意味着能够检测出67%至74%含有ADE的出院小结，且精确率（阳性预测值）保持在0.736–0.794之间。这证明了其在不同于训练数据来源（非学术医院的内科出院小结）上的良好泛化能力。

讨论与结论

本研究首次为荷兰语临床自由文本（特别是病程记录和出院小结）中的ADE检测设立了基准。主要发现是，荷兰医学领域专用模型MedRoBERTa.nl在大多数任务中表现出最强的整体性能，并在外部验证中展示了良好的泛化潜力。

研究结果突出了一个关键问题：性能指标的选择至关重要。对于ADE这种罕见事件，仅报告微平均F1分数会严重夸大模型性能，因为它被占主导地位的非ADE类别（多数类）所主导。宏观平均F1分数和精确率-召回率曲线能提供更真实的评估。因此，作者强烈建议在类似评估中并报告宏观平均F₁和F₂分数，以支持更合理的模型比较和选择。

此外，训练目标（如使用F₂阈值）显著影响模型在召回导向任务（如外部验证）上的表现。这在临床应用中意味着，可以根据实际需求（是更看重不遗漏ADE，还是更看重减少误报）来调整模型阈值。

研究的优势在于其开创性（首个荷兰语ADE检测基准）、严谨性（包含外部验证）和方法的高效性（复用NER模型的嵌入进行关系分类）。局限性主要在于训练语料库规模较小，且正样本（含ADE的笔记）比例高于真实临床场景。不过，研究通过使用ICU AKI和WINGS语料库部分缓解了这一问题。

重要意义在于，尽管模型的绝对性能（F1分数和召回率）尚属中等，但MedRoBERTa.nl的表现在当前荷兰临床实践中缺乏自动化ADE检测工具的背景下，构成了向前迈出的相关一步。该研究为未来在ADE领域的NLP基准研究提供了指导，并强调了开发更大、更多样化的标注语料库，以及在实际临床环境中持续评估的重要性，这是此类模型最终可靠部署于患者护理之前的关键步骤。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号