《Frontiers in Aging》:Development and validation of a machine learning-based risk prediction model for sarcopenia in community hospital patients: a retrospective cohort study
编辑推荐:
本文通过机器学习算法(如CatBoost、LightGBM、GBDT等)结合SHAP可解释性技术,筛选出影响肌肉减少症(Sarcopenia)的关键风险因素,并构建了高精度的风险预测模型。研究揭示了年龄、SARC-CalF评分、体重指数(BMI)、营养状态(MNA-SF)和握力是重要的预测指标,为社区老年人群的肌肉减少症早期识别和精准干预提供了有力工具。
肌肉减少症是一种与年龄相关的、以进行性骨骼肌量减少、肌力下降和功能减退为特征的综合征,是导致老年人衰弱、失能和死亡率增加的关键风险因素。鉴于其在老年人群中的高患病率(尤其是在亚洲国家)及巨大的公共卫生负担,早期识别和干预至关重要。本研究旨在利用先进的机器学习技术,从多维社区健康数据中,构建并评估针对肌肉减少症的高精度风险预测模型,以期为社区筛查和个体化健康管理提供决策支持。
研究方法与数据
本研究的数据来源于上海某社区卫生服务中心,共纳入了1656名≥60岁的社区常住老年人。在排除信息不全者后,最终1650名参与者被纳入分析。肌肉减少症的诊断严格遵循亚洲肌肉减少症工作组2019年的标准,包括低肌肉力量(男性握力<28千克,女性<18千克)和低肌肉质量(生物电阻抗法测得)。研究收集了包括人口社会学特征、生活方式、共患病、用药情况、营养状况、功能状态在内的37个潜在预测变量。为了处理数据不平衡问题,研究采用了合成少数类过采样技术。随后,数据集被随机分为训练集和测试集,用于后续的模型开发和验证。
机器学习模型的开发与评估
研究构建并比较了12种主流的机器学习模型,包括随机森林、支持向量机、梯度提升树家族的CatBoost、LightGBM和XGBoost等。所有模型的性能通过5折交叉验证进行评估,采用了一系列评价指标,如准确率、精确率、召回率、F1分数、特异性以及受试者工作特征曲线下面积。结果显示,在众多模型中,CatBoost、LightGBM和梯度提升决策树模型表现出卓越且稳定的性能。其中,CatBoost模型在测试集上展现出最优的综合预测能力,其AUC达到了0.986,准确率为0.944,F1分数为0.940,显示出在社区老年人群中识别肌肉减少症的强大潜力。
关键风险因素的识别与解释
为了深入理解模型决策背后的逻辑并识别关键风险因素,研究引入了SHAP可解释性技术。SHAP值量化了每个特征对模型预测结果的贡献度。分析发现,五个变量在CatBoost、LightGBM和GBDT这三个表现最佳模型中均被一致地识别为最重要的预测因子,按其重要性排序依次为:年龄、SARC-CalF评分、身体质量指数、微型营养评估简表得分和握力。具体而言:
- •
年龄是肌肉减少症最强的正相关预测因子。SHAP依赖图清晰显示,随着年龄增长,特别是超过75岁后,患肌肉减少症的风险显著增加。
- •
SARC-CalF评分,作为一个结合了力量、辅助行走、起立、爬楼和跌倒史的综合筛查工具,是另一个强有力的正相关预测因子。评分越高,风险越大。
- •
身体质量指数则显示出强烈的负相关关系。较低的BMI值(尤其低于20千克/平方米)与极高的肌肉减少症风险相关。
- •
微型营养评估简表得分,作为营养状况的评估工具,其得分降低同样预示着更高的肌肉减少症风险,强调了营养不良在肌肉减少症发生发展中的关键作用。
- •
握力,作为肌肉功能的直接度量,是肌肉减少症核心的诊断标准之一,其数值下降是风险的明确信号。
临床预测模型的构建与验证
基于上述五个关键变量,研究进一步构建了易于临床应用的逻辑回归模型,并可视化为诺莫图。校准曲线显示,该模型的预测概率与实际观测到的风险具有良好的一致性。决策曲线分析证实,该模型在广泛的阈值概率范围内具有较高的临床净收益,优于“全干预”或“不干预”的策略。此外,通过与仅包含年龄、性别、BMI的传统基线模型进行比较,整合了五个关键因子的新模型在区分能力上具有显著优势,净重分类改善和综合判别改善指标均具有统计学意义。
结论与展望
本研究成功利用机器学习方法,从社区老年人健康数据中挖掘出年龄、SARC-CalF评分、BMI、MNA-SF得分和握力这五个核心预测因子,并构建了高性能的肌肉减少症风险预测模型。其中,CatBoost模型在预测准确性方面表现最佳。基于这些因子构建的诺莫图为社区医务人员提供了一个直观、便捷的工具,可用于快速评估个体老年人的肌肉减少症风险,从而实现对高风险人群的早期筛查和针对性干预。未来,研究团队计划在前瞻性队列中进一步验证此模型的效能,并探索将其整合到社区卫生信息系统或移动健康应用中,以推动肌肉减少症的社区防治向精准化、智能化方向发展。