
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的 prognostic 预测模型及儿童肝母细胞瘤网络工具的开发:一项关于 Surveillance, Epidemiology, and End Results (SEER) 数据库的研究
《Pediatric Surgery International》:Development of a machine learning-based prognostic prediction model and a web-based tool for pediatric hepatoblastoma: a Surveillance, Epidemiology, and End Results (SEER) database study
【字体: 大 中 小 】 时间:2026年05月10日 来源:Pediatric Surgery International 1.6
编辑推荐:
摘要 背景 由于传统风险分层模型的准确性较低,儿童肝母细胞瘤(HB)的预后评估仍然具有挑战性。本研究旨在利用美国监测、流行病学和最终结果(SEER)数据库来开发并比较几种基于机器学习的生存模型,并创建一个在线预测工具,以估计患有HB的儿童的个体化生存概率。 方法 在SEER数
由于传统风险分层模型的准确性较低,儿童肝母细胞瘤(HB)的预后评估仍然具有挑战性。本研究旨在利用美国监测、流行病学和最终结果(SEER)数据库来开发并比较几种基于机器学习的生存模型,并创建一个在线预测工具,以估计患有HB的儿童的个体化生存概率。
在SEER数据库中,识别出2000年至2021年间诊断出的614名儿童HB患者,并将其随机分为训练集(n=429)和内部保留验证队列(n=185)。这种划分旨在保留足够的数据用于模型开发,同时保留足够的验证队列以评估模型性能。使用最小绝对收缩和选择算子(LASSO)回归分析进行特征选择,并利用训练数据开发了三种预后预测模型(Cox回归、随机生存森林(RSF)和基于深度学习的生存(DeepSurv)神经网络)。通过Harrell一致性指数(C-index)、1年、3年和5年时接收者操作特征曲线(ROC)下的时间依赖区域(AUC)以及决策曲线分析(DCA)来评估模型性能。我们还使用SHapley加性解释(SHAP)分析来解释RSF模型。根据RSF得出的风险评分,将患者分为高风险组、中等风险组和低风险组进行生存分析。最终,开发了一个基于网络的工具,利用患者的个体特征实时预测1年、3年和5年的生存概率。
在验证队列中,RSF模型获得了最高的C-index(0.745),优于DeepSurv(0.720)和Cox回归模型(0.709)。RSF还获得了有利的1年、3年和5年AUC值,且DCA表明在临床相关阈值概率范围内具有更大的净效益。SHAP分析显示,远处转移疾病、手术治疗状态和肿瘤范围是影响生存预测的关键因素。按RSF风险组分层的Kaplan-Meier曲线显示,高风险组、中等风险组和低风险组的生存结果有显著差异(所有比较的对数秩P<0.001)。最终的在线工具允许用户输入患者特征并获取估计的1年、3年和5年生存概率,这可以作为个体化预后评估的辅助参考。
与Cox和DeepSurv模型相比,基于RSF的预后模型在这组回顾性SEER数据中的儿童HB患者中表现出了更好的预测性能。由于模型输出可解释且具有可访问的基于网络的界面,该模型可以作为个体化风险评估的辅助工具。然而,在常规临床应用之前,还需要进行外部验证和前瞻性评估。
由于传统风险分层模型的准确性较低,儿童肝母细胞瘤(HB)的预后评估仍然具有挑战性。本研究旨在利用美国监测、流行病学和最终结果(SEER)数据库来开发并比较几种基于机器学习的生存模型,并创建一个在线预测工具,以估计患有HB的儿童的个体化生存概率。
在SEER数据库中,识别出2000年至2021年间诊断出的614名儿童HB患者,并将其随机分为训练集(n=429)和内部保留验证队列(n=185)。这种划分旨在保留足够的数据用于模型开发,同时保留足够的验证队列以评估模型性能。使用最小绝对收缩和选择算子(LASSO)回归分析进行特征选择,并利用训练数据开发了三种预后预测模型(Cox回归、随机生存森林(RSF)和基于深度学习的生存(DeepSurv)神经网络。通过Harrell一致性指数(C-index)、1年、3年和5年时接收者操作特征曲线(ROC)下的时间依赖区域(AUC)以及决策曲线分析(DCA)来评估模型性能。我们还使用SHapley加性解释(SHAP)分析来解释RSF模型。根据RSF得出的风险评分,将患者分为高风险组、中等风险组和低风险组进行生存分析。最终,开发了一个基于网络的工具,利用患者的个体特征实时预测1年、3年和5年的生存概率。
在验证队列中,RSF模型获得了最高的C-index(0.745),优于DeepSurv(0.720)和Cox回归模型(0.709)。RSF还获得了有利的1年、3年和5年AUC值,且DCA表明在临床相关阈值概率范围内具有更大的净效益。SHAP分析显示,远处转移疾病、手术治疗状态和肿瘤范围是影响生存预测的关键因素。按RSF风险组分层的Kaplan-Meier曲线显示,高风险组、中等风险组和低风险组的生存结果有显著差异(所有比较的对数秩P<0.001)。最终的在线工具允许用户输入患者特征并获取估计的1年、3年和5年生存概率,这可以作为个体化预后评估的辅助参考。
与Cox和DeepSurv模型相比,基于RSF的预后模型在这组回顾性SEER数据中的儿童HB患者中表现出了更好的预测性能。由于模型输出可解释且具有可访问的基于网络的界面,该模型可以作为个体化风险评估的辅助工具。然而,在常规临床应用之前,还需要进行外部验证和前瞻性评估。