打开图表查看器
摘要
肝细胞癌(HCC)是一种致命性极高的肿瘤,对其进行风险分层至关重要,但仍然具有挑战性。在这项研究中,我们基于常规收集的临床数据开发了一个可解释的机器学习(ML)框架来对HCC进行风险分层。我们利用了来自两个大规模队列的90多万名个体和983例HCC病例的前瞻性多模态数据:英国生物银行研究(开发阶段)和“我们所有人”研究计划(外部测试阶段)。我们评估了包括人口统计学、生活方式、健康记录、血液、基因组学和代谢组学在内的各种数据类型的个体和累积贡献。最终基于随机森林的模型在内部和外部测试集上的表现均显著优于所有公开可用的最先进风险评分系统。我们的方法在不同种族亚组中表现出良好的稳定性,提供了全面的解释性,并公布了所有代码、模型权重以及用于外部验证和自主集成的网络计算器。我们的研究提出了PRE-Screen-HCC,这是一个用于HCC风险分层和早期检测的稳健且可解释的机器学习框架。
意义:
通过使用大规模队列的数据,我们开发并对外部验证了一个用于HCC风险分层的机器学习框架。基于常规临床数据训练的模型表现优于已发布的评分系统,与代谢组学和基因组学的研究结果相当,并且在不同亚组中具有良好的泛化能力,同时仍具有可解释性。


