《Frontiers in Neurology》:Explainable machine learning for stroke risk prediction: a comparative study with SHAP-based interpretation
编辑推荐:
本研究系统比较逻辑回归(LR)、随机森林(RF)、XGBoost、CatBoost、多层感知机(MLP)等机器学习模型在卒中风险预测中的性能,结合SHAP(SHapley Additive exPlanations)可解释性框架解析关键风险因子(如高血压、血糖、年龄)。通过混淆矩阵、PR曲线(Precision-Recall Curve)和训练资源消耗评估,发现集成模型与神经网络在识别阳性样本(卒中患者)方面表现优异,为临床卒中风险分层管理提供了兼具准确性与透明度的决策支持工具。
背景
卒中作为全球范围内致残和致死的主要病因之一,早期筛查与风险预测至关重要。传统预测方法在处理变量间非线性关系、类别不平衡及模型可解释性方面存在局限。
材料与方法
研究基于Kaggle平台公开的卒中诊断数据集(包含10,000条个体记录),通过SMOTE(Synthetic Minority Over-sampling Technique)算法处理类别不平衡问题(卒中阳性样本占比29.78%)。构建逻辑回归(LR)、随机森林(RF)、XGBoost、CatBoost、多层感知机(MLP)及集成模型(如投票法和堆叠法),并采用5折分层交叉验证与独立测试集评估性能。模型可解释性通过SHAP框架实现,包括全局特征重要性分析和个体预测力解释。
结果
- 1.
模型判别性能:集成模型(如LightGBM、XGBoost)和正则化模型(如逻辑回归)在ROC曲线下面积(AUC)和平均精度(AP)上表现稳健,其中LightGBM的F1分数最高(0.74)。MLP在召回率(Recall)方面表现突出,更适用于高危人群筛查。
- 2.
特征重要性:SHAP分析显示“年龄”“高血压”“平均血糖水平”(avg glucose level)、“心脏病”和BMI为关键风险因子,与临床认知高度一致。MLP模型额外关注吸烟状态、社会经济地位(SES)等社会行为变量。
- 3.
交互作用:SHAP交互值识别出高血压-心脏病、年龄-血糖等协同作用组合,揭示多因素叠加对卒中风险的放大效应。
- 4.
资源消耗:MLP和AutoML训练时间最长,而逻辑回归、朴素贝叶斯(NB)和K近邻(KNN)更适合资源受限场景。树模型(如RF、XGBoost)在性能与资源间取得较好平衡。
讨论
研究通过ROC与PR曲线互补评估,凸显了在类别不平衡场景中精准识别少数类(卒中患者)的重要性。SHAP解释框架不仅验证了经典风险因子(如年龄、血压)的临床意义,还揭示了社会环境因素(如职业类型、居住地)的潜在影响。模型部署需结合临床需求调整决策阈值,例如在高漏诊风险场景中优先选择高召回率阈值。
结论
机器学习模型(尤其是集成算法和神经网络)在卒中风险预测中展现出显著优势。结合SMOTE采样与SHAP可解释性分析,可提升模型在临床实践中的可信度与适用性,为卒中早期预警和个性化干预提供数据驱动的方法学支持。