从文档记录到知识发现:临床医生对真实世界数据生成、可用性与标准化的观点

《International Journal of Medical Informatics》:From documentation to discovery: clinicians’ perspectives on the generation, usability and standardization of real-world data

【字体: 时间:2026年05月22日 来源:International Journal of Medical Informatics 4.1

编辑推荐:

  背景 真实世界数据(real-world data,RWD)日益被认为对于理解临床试验中代表性不足的患者人群以及支持医疗中的数据驱动学习至关重要。对于较小亚组而言,RWD的价值取决于标准化与互操作性,以实现跨机构的有意义再利用。本研究考察了临床医生如何看待联邦

  
背景 真实世界数据(real-world data,RWD)日益被认为对于理解临床试验中代表性不足的患者人群以及支持医疗中的数据驱动学习至关重要。对于较小亚组而言,RWD的价值取决于标准化与互操作性,以实现跨机构的有意义再利用。本研究考察了临床医生如何看待联邦式学习型卫生系统(Learning Health System,LHS)中RWD的再利用与标准化,重点关注数据质量、临床相关性及其对持续学习的影响。

方法 研究人员在奥斯陆大学医院开展了一项定性个案研究,并以学习型卫生系统理论为指导。10名代表7个癌症亚专科的肿瘤科医生参与了聚焦式半结构化访谈。研究数据采用逐步演绎—归纳法(stepwise deductive inductive,SDI)进行分析,以支持基于经验材料的概念发展。研究情境设定于该院针对肿瘤学数据实施OMOP通用数据模型(Observational Medical Outcomes Partnership Common Data Model,OMOP CDM)的过程中。

结果 临床医生强调,RWD对于捕捉常被排除在临床试验之外的患者群体具有重要价值。受访者指出文档记录实践存在显著差异,并提到具有临床相关性的信息往往以非结构化形式存在,或记录不一致。时间限制以及对文档记录要求的不确定性被认为是影响数据质量的障碍。在审阅转换至OMOP CDM的数据后,受访者总体认为映射较为准确,但对细微语义丢失和语义漂移(semantic drift)表示担忧。贯穿全部访谈,受访者均强烈支持在验证过程中纳入领域专家,并支持使用标准化数据来促进跨机构协作与学习。

结论 RWD能够通过支持对多样化患者群体的洞察以及促进持续学习来强化肿瘤学实践。通过诸如OMOP CDM之类模型实现的标准化有助于数据再利用和跨机构协作,但其成功依赖于结构化文档记录、语义保真性、临床医生参与以及稳健的技术基础设施。这些发现突显了在欧洲卫生数据空间(European Health Data Space)等新兴框架下实现RWD潜力所需的社会技术条件。
该文发表于《International Journal of Medical Informatics》,围绕真实世界数据(real-world data,RWD)在肿瘤学中的生成、标准化与再利用展开,重点讨论联邦式学习型卫生系统(Learning Health System,LHS)中临床医生如何理解和评价数据质量、临床意义及其支撑持续学习的能力。研究背景在于,罕见癌症及其他小样本人群长期面临证据生成困难:传统随机对照试验(randomized controlled trial,RCT)通常纳入标准严格,患者群体高度选择化,导致合并症复杂、病程异质、实际诊疗路径多样的真实临床患者常被排除在外。由此产生的直接问题是,试验证据虽具有较强内部效度,却未必足以指导日常临床场景中的治疗决策。尤其在精准肿瘤学中,临床医生常常需要面对证据不足但仍需作出治疗选择的现实,因此,如何利用常规诊疗过程中积累的RWD形成真实世界证据(real-world evidence,RWE),成为缩小“最佳实践”与“实际照护”差距的重要路径。

然而,RWD的潜力并不会自动实现。若要使其在跨机构、跨地区、尤其是面向小亚组患者的研究中真正发挥价值,就必须解决数据标准化、互操作性、隐私保护与数据质量等一系列问题。文章指出,联邦式数据网络可在各机构保留本地数据控制权的同时,实现基于标准化模型的协同研究,而OMOP通用数据模型(Observational Medical Outcomes Partnership Common Data Model,OMOP CDM)正是其中应用广泛的关键框架之一。尽管OMOP在肿瘤学RWD研究中的使用不断增加,但临床数据从本地模型转换为标准模型的过程中,是否保留了原有临床语义、是否满足临床研究需要、以及一线临床医生如何评价这些变化,仍缺乏充分认识。因此,研究人员以奥斯陆大学医院(Oslo University Hospital,OUS)实施DigiONE项目为案例,系统分析肿瘤科医生对RWD文档记录、结构化处理、标准化映射及其再利用的看法,从而揭示数据驱动学习真正落地所依赖的社会技术前提。

在研究设计上,研究人员采用现象学取向的定性个案研究,通过聚焦式半结构化访谈收集资料,并借助逐步演绎—归纳法(SDI)进行经验性编码、主题归类与概念发展。样本来自OUS肿瘤科,共纳入10名临床肿瘤科医生,覆盖7个癌症亚专科,具有不同资历与研究背景。研究过程中还向受访者展示本地编码向OMOP词汇体系转换的映射表示例,以促进其围绕数据质量、粒度与临床相关性展开具体反思。技术方法上,DigiONE依托医院临床数据仓库,将本地原生数据模型中的数据通过提取—转换—加载(extract-transform-load,ETL)流程装载至OMOP CDM,并将OUS使用的编码体系如ICD-10映射至OMOP要求的标准术语,主要为SNOMED CT;其中已有对应关系的代码采用规则驱动自动转换,缺失映射部分则由临床医生参与建立人工转换表并持续监测未映射比例。研究分析使用NVivo 14辅助,最终形成4个总主题,并在讨论中发展出4个解释性概念。样本队列来源为奥斯陆大学医院肿瘤科医生,而非患者队列。

研究结果部分具有清晰的小标题结构,揭示了RWD在肿瘤学实践中既充满潜力又面临深刻限制。

3.1. Representativeness and clinical relevance of real-world data
本节表明,多数临床医生虽然起初并不熟悉RWD这一术语,但在解释后迅速认可其意义。通过访谈研究得出,临床医生普遍认为常规诊疗数据能够覆盖比临床试验更广泛、更异质的患者群体,尤其能反映临床试验往往排除的患者类型,因此在评估治疗效果和认识真实预后方面更具代表性。研究还发现,受访者担忧试验因纳入标准过严而高估疗效,因此强调必须在日常临床照护中验证昂贵新疗法的实际效果。本节结论是:RWD被视为理解“真实世界患者”的必要基础,可为传统试验证据提供关键补充。

3.2. Variation and uncertainty in documentation practices
本节通过访谈发现,不同科室、不同专科乃至不同医生之间的文档记录方式差异明显。研究人员据此指出,诊断编码的完整性、一致性和精确性均存在不足,例如合并症、转移情况等即使具有临床意义也常被遗漏,时间压力和对ICD-10具体编码不熟悉则进一步促使医生使用不够具体的替代代码。研究还显示,临床医生对于“编码究竟应反映当前疾病状态还是完整病程”缺乏统一理解,而医院管理层也未提供足够清晰的指导。由此得出的结论是,文档记录的不确定性和工作流压力是制约RWD质量的核心障碍。

3.3. Challenges in capturing treatment response and adverse events
本节主要讨论治疗反应与不良事件记录中的结构性缺陷。研究表明,肿瘤治疗疗效评估高度依赖影像学信息,但相关判断通常记录于自由文本报告中,缺乏可随时间追踪肿瘤测量值的结构化格式。通过访谈可见,临床医生认为这使疗效终点与疾病进展的判断难以被系统提取和比较。同时,不良事件记录亦不一致,患者报告结局(patient-reported outcome measures,PROMs)虽有价值,却常以非结构化PDF形式存储,限制了自动化分析。本节结论指出,即使病历中包含丰富信息,其分析利用仍需高度谨慎,因为记录细节不均、误分类与漏报会显著削弱RWD解释的可靠性。

3.4. Clinician perspectives on the quality and limitations of OMOP-converted data
本节围绕OMOP CDM转换后数据的质量评价展开。研究人员让受访医生审阅映射实例后发现,临床医生总体认可多数映射能够保留原始含义,但仍识别出少量明确错误以及一批过于宽泛或可能误导的映射。此类问题集中体现为语义粒度丢失,例如原始ICD-10编码中包含的解剖部位信息在OMOP概念中被弱化;某些手术代码被映射为更宽泛或临床上不完全对应的术语;遗传咨询等概念在转换后也出现语义偏移。形态学代码同样存在不可分类属性丢失或术语过时的问题。该节结论是,OMOP转换在大多数情况下具备可接受准确性,但语义保真性仍需依靠临床领域专家参与验证才能得到保障。

3.5. Opportunities and concerns related to research using standardized data
本节显示,临床医生普遍支持将标准化数据用于大规模研究,特别是针对罕见癌症和小样本人群的跨机构研究。通过访谈得出,标准化能够促进自动提取数据、减少人工整理负担,并提升不同机构间结果的可比性,这对于回顾性研究和新疗法前瞻性监测都具有现实价值。但同时,受访者强调必须重视数据粒度损失、临床语境削弱和误读风险,并根据研究问题辨别哪些变量适宜标准化、哪些问题仍需更细致的人工解读。该节结论是,标准化和人工审阅并非相互替代,而是适用于不同研究目的、应形成互补关系。

在讨论部分,研究人员进一步将上述结果综合为四个分析概念。其一,“real-world patients”强调RWD不仅是数据来源,更是对临床现实的映射,反映了试验外患者的复杂共病、异质路径与证据不足情境。其二,“documentation culture”指出数据质量问题不仅是技术问题,更深受组织惯例、工作负荷、工具支持与共享标准缺失影响。其三,“clinical data validation”强调标准化数据转换必须贯穿临床领域知识的介入,验证过程具有鲜明的社会技术特征,需要临床医生、数据工程师和分析人员共同协商语义。其四,“learning flywheel”则将结构化数据、可信分析结果、学习导向文档实践三者联系起来,说明持续学习并非单一技术产物,而是数据到知识(Data to Knowledge)、知识到实践(Knowledge to Practice)、实践到数据(Practice to Data)循环逐步增强的结果。

研究的重要意义在于,该文并未停留于“RWD有价值”这一抽象判断,而是从临床医生视角揭示了RWD实现可再利用、可比较、可学习所必需的具体条件。文章表明,像OMOP CDM这样的标准化模型确实能够为联邦式LHS中的跨机构协作提供基础,并为欧洲卫生数据空间(European Health Data Space,EHDS)等跨境数据再利用框架提供实践启示;但若缺乏结构化记录、清晰文档规范、临床参与和稳健技术基础设施,仅靠技术互操作性并不足以产生可信且有行动价值的RWE。这使研究同时对医学信息学、肿瘤学和卫生政策具有参考价值。

结论部分可译为:本研究表明,临床医生认为,常规采集的临床数据——无论是原生格式还是转换为OMOP等通用模型后的形式——在扩展证据基础和支持持续学习方面均具有明确潜力。但这一潜力具有条件性:有意义的再利用需要可靠的文档记录实践、在转换过程中保留临床意义,以及分析过程的透明性,从而使临床医生能够信任研究发现并据此采取行动。实现这些条件需要多层面的协同行动,包括通过领导支持和激励机制改变文档记录文化,提供降低结构化录入负担的实用工具与工作流程,并持续吸纳临床医生参与映射、质量检查和标准化数据集解读。人工智能(artificial intelligence,AI)支持的结构化工具和大语言模型有望在不增加临床工作负担的前提下帮助捕获结构化信息,但其有效性取决于是否能被谨慎整合进临床工作流。临床数据仓库和联邦式网络等技术基础设施能够提供规模化能力,但其价值依赖于对人员、治理以及闭合数据—知识—实践循环的反馈机制进行同步投入。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号