
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用机器学习和SHAP分析对新生儿死亡率及其关键预测因素进行可解释的预测
《BMC Medical Informatics and Decision Making》:Interpretable prediction of neonatal mortality and its key predictors using machine learning and SHAP analysis
【字体: 大 中 小 】 时间:2026年05月22日 来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
摘要引言新生儿死亡率仍然是一个全球性的公共卫生问题,尤其是在埃塞俄比亚等低收入和中等收入国家。由于机器学习(ML)能够高效处理混合类型表格数据中的交互关系,因此在医疗健康预测任务中表现出色。因此,本研究旨在开发一个可解释的模型,该模型能够基于埃塞俄比亚人口健康调查(EDHS)数据
新生儿死亡率仍然是一个全球性的公共卫生问题,尤其是在埃塞俄比亚等低收入和中等收入国家。由于机器学习(ML)能够高效处理混合类型表格数据中的交互关系,因此在医疗健康预测任务中表现出色。因此,本研究旨在开发一个可解释的模型,该模型能够基于埃塞俄比亚人口健康调查(EDHS)数据集预测新生儿死亡。
本研究使用了2000年、2005年、2011年、2016年和2019年进行的所有调查中收集的不平衡EDHS数据集。我们评估了一些基本的和基于树的集成ML算法,并通过五折交叉验证和80/20数据分割进行了验证。在两种评估策略中都使用了不平衡处理、加权处理和SMOTENC类平衡技术。模型比较基于敏感度和SHAP可解释性,并考虑了F1分数和AUC-PR之间的权衡。
加权LightGBM模型取得了最高的召回率(召回率=87.2%),尽管F1分数(85.3%)和PR-AUC(92.6%)略有下降,但保持了SHAP可解释性。SHAP分析表明,开始母乳喂养、存活儿童的数量和产前护理访问次数是三个关键预测因素。依赖图显示,延迟开始母乳喂养、没有存活儿童、没有产前护理、家庭成员数量较少、多次生育、男性性别、出生体重较小、双胞胎出生以及两次分娩间隔较短等因素具有正的SHAP值。
加权LightGBM模型不仅具有更好的敏感度以及具有竞争力的AUC-PR结果,还通过SHAP分析显示出了可靠的可解释性。该模型预测了与延迟开始母乳喂养、没有存活儿童和缺乏产前护理访问相关的较高新生儿死亡风险。此外,模型还预测家庭成员数量较少、多次生育、男性性别、出生体重较小、双胞胎出生以及两次分娩间隔较短等情况会增加新生儿死亡的风险。最后,充分的产前护理访问和早期开始母乳喂养对新生儿的生存结果具有保护作用,这强调了母婴健康计划的重要性。
新生儿死亡率仍然是一个全球性的公共卫生问题,尤其是在埃塞俄比亚等低收入和中等收入国家。由于机器学习(ML)能够高效处理混合类型表格数据中的交互关系,因此在医疗健康预测任务中表现出色。因此,本研究旨在开发一个可解释的模型,该模型能够基于埃塞俄比亚人口健康调查(EDHS)数据集预测新生儿死亡。
本研究使用了2000年、2005年、2011年、2016年和2019年进行的所有调查中收集的不平衡EDHS数据集。我们评估了一些基本的和基于树的集成ML算法,并通过五折交叉验证和80/20数据分割进行了验证。在两种评估策略中都使用了不平衡处理、加权处理和SMOTENC类平衡技术。模型比较基于敏感度和SHAP可解释性,并考虑了F1分数和AUC-PR之间的权衡。
加权LightGBM模型取得了最高的召回率(召回率=87.2%),尽管F1分数(85.3%)和PR-AUC(92.6%)略有下降,但保持了SHAP可解释性。SHAP分析表明,开始母乳喂养、存活儿童的数量和产前护理访问次数是三个关键预测因素。依赖图显示,延迟开始母乳喂养、没有存活儿童、没有产前护理、家庭成员数量较少、多次生育、男性性别、出生体重较小、双胞胎出生以及两次分娩间隔较短等因素具有正的SHAP值。
加权LightGBM模型不仅具有更好的敏感度以及具有竞争力的AUC-PR结果,还通过SHAP分析显示出了可靠的可解释性。该模型预测了与延迟开始母乳喂养、没有存活儿童和缺乏产前护理访问相关的较高新生儿死亡风险。此外,模型还预测家庭成员数量较少、多次生育、男性性别、出生体重较小、双胞胎出生以及两次分娩间隔较短等情况会增加新生儿死亡的风险。最后,充分的产前护理访问和早期开始母乳喂养对新生儿的生存结果具有保护作用,这强调了母婴健康计划的重要性。
生物通微信公众号