开发并验证一种可解释的机器学习模型，该模型利用常规实验室生物标志物来识别常见的代谢性脂肪性肝病（MASLD）：来自两项观察性研究的证据

《Clinical and Experimental Medicine》：Development and validation of an explainable machine learning model using routine laboratory biomarkers for identifying prevalent MASLD: Evidence from two observational studies

【字体：大中小】 时间：2026年05月17日 来源：Clinical and Experimental Medicine 3.5

编辑推荐：

　　摘要尽管已经开发了许多用于预测代谢功能障碍相关脂肪性肝病（MASLD）的模型，但它们的性能仍然不尽如人意。我们的目标是开发一个基于机器学习（ML）的可解释性血浆生物标志物模型，以识别常见的MASLD。来自国家健康与营养调查（NHANES 2017–2020）的数据被随机分为训练队

摘要

尽管已经开发了许多用于预测代谢功能障碍相关脂肪性肝病（MASLD）的模型，但它们的性能仍然不尽如人意。我们的目标是开发一个基于机器学习（ML）的可解释性血浆生物标志物模型，以识别常见的MASLD。来自国家健康与营养调查（NHANES 2017–2020）的数据被随机分为训练队列（N = 2760）和内部队列（N = 1184）。使用了11种ML算法来构建分类模型。通过SHapley Additive exPlanations（SHAP）方法对模型可解释性进行了可视化展示。进一步使用韩国NHANES（KNHANES）2019–2021的数据对这些模型进行了外部验证。通过受限立方样条回归分析评估了选定特征与常见MASLD之间的关联。特征选择采用了LASSO回归和Boruta算法。关键预测因子包括糖尿病（DM）、腰围（WC）、年龄、高血压和血浆致动脉粥样硬化指数（AIP）。所有评估的ML算法都表现出强大的预测能力，曲线下面积（AUC）超过0.70。其中，Extra Trees（ET）的表现最好，在内部测试组中的AUC为0.879（95% CI 0.856–0.897），并在外部KNHANES队列中保持了良好的性能，AUC为0.822（95% CI 0.815–0.829）。DeLong测试显示ET与其他算法之间的AUC存在显著差异。这些发现表明，年龄、WC、DM、高血压和AIP是与常见MASLD相关的有信息量的特征。ET模型表现出强大的区分能力，可能成为MASLD筛查的实用工具。

图形摘要

尽管已经开发了许多用于预测代谢功能障碍相关脂肪性肝病（MASLD）的模型，但它们的性能仍然不尽如人意。我们的目标是开发一个基于机器学习（ML）的可解释性血浆生物标志物模型，以识别常见的MASLD。来自国家健康与营养调查（NHANES 2017–2020）的数据被随机分为训练队列（N = 2760）和内部队列（N = 1184）。使用了11种ML算法来构建分类模型。通过SHapley Additive exPlanations（SHAP）方法对模型可解释性进行了可视化展示。进一步使用韩国NHANES（KNHANES）2019–2021的数据对这些模型进行了外部验证。通过受限立方样条回归分析评估了选定特征与常见MASLD之间的关联。特征选择采用了LASSO回归和Boruta算法。关键预测因子包括糖尿病（DM）、腰围（WC）、年龄、高血压和血浆致动脉粥样硬化指数（AIP）。所有评估的ML算法都表现出强大的预测能力，曲线下面积（AUC）超过0.70。其中，Extra Trees（ET）的表现最好，在内部测试组中的AUC为0.879（95% CI 0.856–0.897），并在外部KNHANES队列中保持了良好的性能，AUC为0.822（95% CI 0.815–0.829）。DeLong测试显示ET与其他算法之间的AUC存在显著差异。这些发现表明，年龄、WC、DM、高血压和AIP是与常见MASLD相关的有信息量的特征。ET模型表现出强大的区分能力，可能成为MASLD筛查的实用工具。