基于电子健康记录(EHR)的肾细胞癌复发率评估:一项现实世界研究

《ESMO Real World Data and Digital Oncology》:Estimate renal cell carcinoma recurrence rates using electronic health records

【字体: 时间:2026年04月15日 来源:ESMO Real World Data and Digital Oncology

编辑推荐:

  本研究针对临床关键信息在电子健康记录(EHR)中难以直接提取、缺乏高质量复发数据,从而限制了真实世界肾细胞癌(RCC)复发风险评估的现状。研究人员开发了NICE自然语言处理工具和LATTE深度学习算法,自动从EHR中提取RCC分期、分级、组织学信息和复发结局。研究基于大型队列数据,首次系统性地评估了T1-T3期RCC患者在肾切除术后5-10年的累积复发率,揭示了T3期和G4级患者的高复发风险。该研究为利用EHR进行大规模、精准的RCC风险分层与管理提供了可扩展的解决方案。

  
肾细胞癌(Renal Cell Carcinoma, RCC)是成人最常见的肾脏恶性肿瘤之一。尽管手术切除是局限性RCC的主要治疗手段,但仍有相当比例的患者在术后会出现复发或转移,这是影响患者长期生存的关键问题。在临床实践中,精准识别高风险复发患者对于制定个体化辅助治疗和随访策略至关重要。然而,一个巨大的挑战在于,癌症复发、肿瘤分期(TNM stage)、分级(Grade)等关键临床信息,通常以非结构化的文本形式记录在电子健康记录(EHR)的临床笔记中。这些数据的缺失或难以获取,严重阻碍了利用大规模真实世界数据进行RCC复发风险研究,也使得许多现有预测模型(如UISS、Leibovich评分)难以在常规临床环境中广泛应用。为了弥补这一空白,研究人员开展了一项创新的研究,旨在验证能否从EHR中可靠地提取高质量的复发数据,并利用这些数据系统评估早期RCC患者的复发风险。这项研究为解决现实世界数据利用的瓶颈问题,为癌症预后研究开辟了新途径,相关成果已发表在《ESMO Real World Data and Digital Oncology》期刊上。
为了开展这项研究,研究人员运用了几个关键技术方法。首先,他们从一个大型医疗保健系统(Mass General Brigham, MGB)的EHR数据仓库中,构建了一个RCC患者队列,并通过PheNorm算法对患者状态进行了高效识别。其次,为了解决非结构化文本信息提取的难题,他们开发并应用了一个名为NICE的规则化自然语言处理工具,用以自动提取患者的手术、TNM分期、分级和组织学亚型等关键病理特征。最后,也是最核心的部分,研究人员采用了一种名为LATTE的标签高效深度学习算法。该算法基于患者EHR中104个相关特征的纵向轨迹(例如实验室检查、诊断编码等),构建模型,能够以较高的准确度自动判定患者的复发时间与状态。整个研究方法的效能均在随机抽取的患者子集中,通过专家人工标注的金标准进行了严格验证。
研究结果
研究队列
经过一系列筛选标准,最终纳入了5603名符合条件的RCC患者进行分析。队列的人口学与临床基线特征如表1所示。其中,通过NICE工具提取的癌症特征(分期、分级、组织学)在验证集中显示出极高的准确性(分别达到98%、100%和96%)。
EHR复发性评估
研究人员利用LATTE算法从纵向EHR数据中推导复发结局。在长达7.29年的中位随访期间,观察到938例(17%)复发事件。该算法在识别5年复发状态时,展现出优异的性能,其受试者工作特征曲线下面积(Area Under the Curve, AUC)达到0.914。具体而言,在TNM分期为T1-3、淋巴结阴性(N0)、无远处转移(M0)的肾透明细胞癌(clear-cell RCC)患者中,该模型对5年复发状态的分类敏感度为0.745,特异度为0.990,阳性预测值为0.851。这表明,从EHR中自动化提取的复发数据具有很高的可靠性。
肾细胞癌复发率估计
研究重点关注了3279名具有完整TNM分期(T1-3N0)和病理特征的患者,估算了其累积复发率和无复发生存率。主要发现清晰地揭示了复发风险与肿瘤分期、分级之间的强关联。
  • 按T分期分析:5年累积复发率随着T分期的升高而显著增加。T1期患者为2.8%,T2期患者跃升至14.2%,而T3期患者则高达48.8%。
  • 按分级(Grade)分析:类似地,5年累积复发率也随病理分级的增高而急剧上升。G1级患者为3.7%,G2级为6.8%,G3级为18.9%,而G4级患者则达到45.3%。
  • T3期亚组内按分级分析:在复发风险最高的T3期患者内部,分级的影响进一步凸显。T3期且分级为G1-2的患者5年累积复发率为39.0%,G3级患者为51.4%,而G4级患者更是高达68.9%。
  • 肾透明细胞癌亚组:在单独分析肾透明细胞癌患者时,上述风险分层趋势完全一致,T3期和G4级同样显示出最高的复发风险(T3期52.3%,G4级51.7%)。这些具体数据详见表3,直观地展示了不同风险亚组间的显著差异。
结论与讨论
本研究的核心结论是,通过结合NICE和LATTE的计算方法,可以成功地从常规收集的电子健康记录中,可靠地提取出高质量的肾细胞癌复发数据。这不仅解决了真实世界研究中关键结局数据缺失的难题,而且首次在大规模人群中系统量化了早期RCC患者基于TNM分期和病理分层的复发风险谱,特别是明确了T3期和高级别(G3/G4)肿瘤患者极高的复发风险。
这项研究具有多方面的重要意义。在方法论上,它展示了一条可扩展的、高精度的自动化数据分析路径,仅需少量人工标注即可训练出高性能模型,为利用EHR开展其他癌症的预后研究提供了范例。在临床应用上,该工具能够无缝整合到医疗系统的信息流中,实现对RCC患者进行实时、动态的风险分层,从而辅助临床医生更精准地识别出那些最可能从术后辅助治疗和强化随访中获益的高危患者,推动个性化医疗决策。此外,该研究构建的高质量复发数据集,为未来开发更全面的预测模型、整合多组学数据(如影像基因组学)以及开展治疗比较效果研究奠定了坚实基础。
当然,研究也存在一些局限性,例如其数据来源于单一机构,算法的可移植性需要在其他医疗系统中进行验证;EHR文档质量的异质性和跨机构诊疗导致的数据缺失也可能影响结果的准确性。未来的研究方向包括利用大语言模型提升信息提取的鲁棒性,以及通过迁移学习或联邦学习整合多中心数据,以进一步提升模型的普适性和代表性。总体而言,这项工作是人工智能驱动肿瘤真实世界研究的一次重要实践,为将海量、复杂的临床数据转化为可操作的临床洞见开辟了新的道路。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号