一种用于临床一期睾丸癌复发预测的统一机器学习模型

《Andrology》:A Unified Machine Learning Model for Relapse Prediction in Clinical Stage I Testicular Cancer

【字体: 时间:2026年02月20日 来源:Andrology 3.4

编辑推荐:

  睾丸癌临床I期患者复发预测的机器学习模型研究:基于丹麦1377例患者的队列分析,采用CatBoost、LightGBM和随机生存森林模型,发现CatBoost的AUC最高(0.74),负预测值达0.86,非精原细胞瘤亚组预测性能更优。关键预测因素包括淋巴血管侵犯、胚胎癌、肿瘤坏死等,其中肿瘤坏死和淋巴侵犯解剖位置为新型预测指标。

  

摘要

背景

大约四分之一的临床I期睾丸癌患者会出现复发。几十年来,风险分层主要基于精原细胞瘤和非精原细胞瘤的不同肿瘤特征。以往的研究主要使用Cox比例风险模型,并且仅纳入了有限的变量。机器学习技术能够整合大量数据集,可能发现新的风险因素组合。

目标

利用全国范围内的组织病理学和临床数据,开发并验证一个统一的基于机器学习的临床I期睾丸癌复发预测模型,不考虑组织学亚型。

材料与方法

本研究纳入了2013至2018年间在丹麦被诊断为临床I期睾丸癌的1377名患者。组织病理学和临床数据通过集中式病理评估和系统性的医疗记录审查获得。训练了两种基于树的二元分类器(CatBoost和LightGBM)来预测复发,并使用随机生存森林模型来估计复发时间。数据被分为训练集(80%,5折交叉验证)和测试集(20%),其中训练集和测试集在精原细胞瘤/非精原细胞瘤亚型和结果方面进行了平衡。分别对精原细胞瘤和非精原细胞瘤进行了亚组分析。二元模型的评估指标包括接收者操作特征曲线下面积(ROC-AUC)、精确度-召回率曲线下面积(PR-AUC)和Matthew相关系数;随机生存森林模型的评估指标包括一致性指数(Concordance Index)和综合Brier分数(Integrated Brier Score)。

结果

CatBoost的表现优于LightGBM(ROC-AUC = 0.74),且具有较高的阴性预测值(0.86)。随机生存森林的一致性指数为0.71。在非精原细胞瘤亚组中的预测性能优于精原细胞瘤亚组。排名靠前的预测因素包括淋巴血管侵袭、胚胎性癌、肿瘤坏死、睾丸网膜侵袭、肿瘤大小以及乳酸脱氢酶和β-人绒毛膜促性腺激素水平升高。肿瘤坏死和淋巴血管侵袭的解剖位置被证实是新的预测因素。

讨论与结论

开发一个统一的基于机器学习的临床I期睾丸癌复发预测模型是可行的,且具有中等的预测准确性。该模型特别有助于排除复发情况,在非精原细胞瘤亚组中表现出更强的稳健性。这些发现为在独立队列中进行验证提供了框架,并指出了未来研究的关键预测因素。

利益冲突

Dan Berney由Orchid公司支持。其他作者均声明没有利益冲突。

数据可用性声明

根据数据保护法规,研究人员需要向丹麦卫生数据管理局申请才能获取个人层面的数据。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号