
-
生物通官微
陪你抓住生命科技
跳动的脉搏
开发并验证一种可解释的机器学习模型,该模型利用常规实验室生物标志物来识别常见的代谢性脂肪性肝病(MASLD):来自两项观察性研究的证据
《Clinical and Experimental Medicine》:Development and validation of an explainable machine learning model using routine laboratory biomarkers for identifying prevalent MASLD: Evidence from two observational studies
【字体: 大 中 小 】 时间:2026年05月17日 来源:Clinical and Experimental Medicine 3.5
编辑推荐:
摘要尽管已经开发了许多用于预测代谢功能障碍相关脂肪性肝病(MASLD)的模型,但它们的性能仍然不尽如人意。我们的目标是开发一个基于机器学习(ML)的可解释性血浆生物标志物模型,以识别常见的MASLD。来自国家健康与营养调查(NHANES 2017–2020)的数据被随机分为训练队
尽管已经开发了许多用于预测代谢功能障碍相关脂肪性肝病(MASLD)的模型,但它们的性能仍然不尽如人意。我们的目标是开发一个基于机器学习(ML)的可解释性血浆生物标志物模型,以识别常见的MASLD。来自国家健康与营养调查(NHANES 2017–2020)的数据被随机分为训练队列(N = 2760)和内部队列(N = 1184)。使用了11种ML算法来构建分类模型。通过SHapley Additive exPlanations(SHAP)方法对模型可解释性进行了可视化展示。进一步使用韩国NHANES(KNHANES)2019–2021的数据对这些模型进行了外部验证。通过受限立方样条回归分析评估了选定特征与常见MASLD之间的关联。特征选择采用了LASSO回归和Boruta算法。关键预测因子包括糖尿病(DM)、腰围(WC)、年龄、高血压和血浆致动脉粥样硬化指数(AIP)。所有评估的ML算法都表现出强大的预测能力,曲线下面积(AUC)超过0.70。其中,Extra Trees(ET)的表现最好,在内部测试组中的AUC为0.879(95% CI 0.856–0.897),并在外部KNHANES队列中保持了良好的性能,AUC为0.822(95% CI 0.815–0.829)。DeLong测试显示ET与其他算法之间的AUC存在显著差异。这些发现表明,年龄、WC、DM、高血压和AIP是与常见MASLD相关的有信息量的特征。ET模型表现出强大的区分能力,可能成为MASLD筛查的实用工具。

尽管已经开发了许多用于预测代谢功能障碍相关脂肪性肝病(MASLD)的模型,但它们的性能仍然不尽如人意。我们的目标是开发一个基于机器学习(ML)的可解释性血浆生物标志物模型,以识别常见的MASLD。来自国家健康与营养调查(NHANES 2017–2020)的数据被随机分为训练队列(N = 2760)和内部队列(N = 1184)。使用了11种ML算法来构建分类模型。通过SHapley Additive exPlanations(SHAP)方法对模型可解释性进行了可视化展示。进一步使用韩国NHANES(KNHANES)2019–2021的数据对这些模型进行了外部验证。通过受限立方样条回归分析评估了选定特征与常见MASLD之间的关联。特征选择采用了LASSO回归和Boruta算法。关键预测因子包括糖尿病(DM)、腰围(WC)、年龄、高血压和血浆致动脉粥样硬化指数(AIP)。所有评估的ML算法都表现出强大的预测能力,曲线下面积(AUC)超过0.70。其中,Extra Trees(ET)的表现最好,在内部测试组中的AUC为0.879(95% CI 0.856–0.897),并在外部KNHANES队列中保持了良好的性能,AUC为0.822(95% CI 0.815–0.829)。DeLong测试显示ET与其他算法之间的AUC存在显著差异。这些发现表明,年龄、WC、DM、高血压和AIP是与常见MASLD相关的有信息量的特征。ET模型表现出强大的区分能力,可能成为MASLD筛查的实用工具。
