《Informatics》:Data Foundations for Medical AI: Provenance, Reliability and Limitations of Russian Clinical NLP Resources
Arsenii Litvinov,
Lev Malishevskii,
Evgeny Karpulevich,
Iaroslav Bespalov,
Yaroslav Nedumov,
Sergey Zhdanov,
Ivan Oseledets,
Evgeniy Shlyakhto and
Arutyun Avetisyan
编辑推荐:
这篇综述首次系统梳理了俄语医学自然语言处理(NLP)数据集,并依据MedHELM临床任务分类评估了其适用性。作者通过对代表性公开数据集(RuMedPrimeData、MedSyn、RuMedNLI)进行专家验证,发现其普遍存在可靠性问题,如不准确的ICD-10编码、临床上下文缺失及生成/翻译伪影,严重制约了临床相关AI系统的发展。文章最后为构建高质量、可复现的俄语医学AI生态系统,提出了涵盖数据协调、专家验证、标准化去标识化与透明来源的实践要求,旨在弥合与英语资源的差距。
近年来,大型语言模型(LLMs)在医学领域引发了广泛兴趣,但绝大多数相关资源(如Med-PaLM、USMLE基准MedQA、MedNLI等)仅限英语。这造成了显著差距:仅基于英语数据训练的模型无法适应俄罗斯联邦的医疗体系和语言特征。本文旨在系统审视并填补俄语医学NLP数据集领域的空白。
俄语医疗数据源的功能分类
为全面理解医疗文本数据,本文提出了一个聚焦于其在医疗活动中角色和来源的功能分类法,区分了五个互补类别(对应医疗信息的关键层次):
- 1.
临床实践文档:涵盖门诊和住院病历,是诊断和治疗的日常记录,在功能上对应于国际分类中的电子健康记录(EHRs)。
- 2.
交流与互动数据:包括反映专业和医患沟通的材料,如多学科团队会议、医患咨询对话、医疗论坛帖子和博客等。
- 3.
科学、教育与监管资源:包括临床实践指南、专业标准、同行评审研究和教育出版物等经过正式验证的材料。在俄罗斯语境下,临床实践指南具有最高权威。
- 4.
行政与法律文件:包括用于正式医疗和法律目的的高度标准化记录,如官方医学证明、知情同意书、转诊文件等。
- 5.
辅助参考资料:包括医学分类系统(如ICD-10[14]、ATC[15]、SNOMED[16])、药品与器械注册库以及术语库等结构化知识库。
俄罗斯临床实践的特殊性
开发适用于俄罗斯的模型必须考虑其独特的临床实践环境,仅翻译英语语料库是远远不够的。
- 1.
强制性临床指南:根据俄罗斯联邦法律,医疗护理必须依照具有约束力的临床指南提供。这对NLP意味着,创建训练数据集时需要包含这些指南文本,并验证模型输出是否符合官方规定。
- 2.
强制性健康保险系统(CHIS)的作用:CHIS是一种社会健康保险模式,整个患者管理流程受到严格监管,并与清晰的ICD-10编码相关联,这为模型训练带来了大量标准化数据,但也可能导致模板化的描述,人为降低了数据多样性。
- 3.
俄语语言特征与计量单位:俄语病历包含大量缩写和首字母缩略词,许多实验室值和药品使用的计量单位与欧美不同(如用mmol/L而非mg/dL),且药物常以不同的商品名注册。这些都需要在数据本地化时手动替换。
- 4.
医疗文档结构:俄语病历具有明确的结构化章节,而其他国家的病历则更多是自由文本。目前,缺乏能够追踪患者在俄医疗系统中全阶段交互的开放数据集。
俄语医学数据集概览
本文回顾了所有可用的俄语医学相关数据集,并汇总成表。这些资源在创建时间、数据来源和可访问性上呈现出多样化的发展轨迹。
根据数据起源和可靠性,可将这些数据集分为真实数据、翻译数据和生成数据,每种都可能伴随或不伴随专家后编辑。当前生态系统的特点是资源有限但多样,混合了多种数据成分。
现有俄语数据集对MedHELM临床任务的覆盖情况
MedHELM是一个为评估LLMs设计的详细医学NLP任务分类法,包含5个主要类别共121个独立任务。将其与现有俄语数据集映射后发现,尽管资源看似广泛,但对许多重要临床AI应用的支持有限。大多数数据集是为特定机器学习目标创建的,而非直接对应临床实践任务。
许多基本临床任务,如生成鉴别诊断、应用临床指南、预测治疗反应等,仍然缺乏公开可用的资源支持。指令微调数据集如MedSyn-IFT可以用于训练通用医疗聊天机器人,但其能力依赖于模型在数据之外的泛化。
公共数据集的专家验证
为评估现有数据的可靠性,研究选取了三个具有代表性的公开数据集(涵盖真实、生成和翻译文本)进行了专家验证:
- 1.
RuMedPrimeData:真实门诊病历。专家审查发现,仅约20%的记录满足基本质量标准。最主要的问题是不准确的ICD-10编码(占51%),原因包括缺乏必要的临床验证、将急性病症编码为慢性、使用过于笼统的代码等。
- 2.
MedSyn-Synthetic:完全由LLMs生成的合成临床病历。数据显示,只有不到15%的记录符合正确标注标准。除了真实数据中也出现的错误外,该数据集普遍存在生成伪影,如扭曲的非医学措辞、对话式格式、不连贯的片段、事实矛盾等,导致每个病例的错误密度远高于真实文本。
- 3.
RuMedNLI:从MedNLI翻译并后编辑的自然语言推理语料库。大约55%的样本在专家审查后保持逻辑一致,可靠性相对较高。主要局限在于逻辑关系标注错误(占26%),以及术语翻译和临床逻辑误解问题。
验证结果表明,所有数据集在临床可靠性和信息一致性方面均存在显著问题,缺乏完整的临床上下文和诊断证据是主要限制。
临床任务覆盖与空白
与MedHELM分类法对比可知,尽管俄语资源在症状识别、诊断预测等基础任务上取得了进展,但大量具有临床意义的活动仍未被覆盖。许多资源处理的是表层标注任务,未能提供训练决策支持系统所需的结构化医学推理、程序文档或管理上下文。
讨论与结论
俄语医学NLP数据生态系统仍处于早期阶段。尽管存在挑战,但用于模型预训练和评估的基础已开始形成。然而,当前的进展主要支持分类和命名实体识别等表层任务,而临床推理、长文本记录、对话和工作流整合等更高层次的活动仍然不足。
为构建可靠、可复现且具有临床相关性的AI系统,本文提出了一系列实践要求:协调的、经专家验证的、与临床指南和保险逻辑对齐的、机器可读的语料库;标准化的去标识化;以及透明的数据来源。通过解决已发现的缺陷,并采取协调一致的国家议程,俄语临床NLP社区可以将一系列孤立的数据集转变为一个连贯、可复现且基于临床的基准测试套件,从而负责任地部署适用于俄罗斯临床实践的大型语言模型。