《International Journal of Chronic Obstructive Pulmonary Disease》:A Machine Learning–Derived Risk Score Based on Dietary Nutrient Intake for Early Detection and Prognostic Prediction of Preserved Ratio Impaired Spirometry
编辑推荐:
编者推荐
本文开发并验证了一种集成了膳食摄入与人口学特征的堆叠机器学习模型,用于生成肺功能正常比例受损(Preserved Ratio Impaired Spirometry, PRISm)的连续风险评分。该模型在独立测试集中展现出优异的预测能力(AUC=0.818),并能有效区分高、低风险人群。研究表明,健康生活方式在低风险人群中可显著降低不良健康结局风险,为PRISm及相关慢性病的早期筛查与个性化干预提供了新策略。
研究背景与目的
肺功能正常比例受损(Preserved Ratio Impaired Spirometry, PRISm)是一种以一秒用力呼气容积占用力肺活量比值(FEV1/FVC)≥ 0.70且FEV1< 80%预测值为特征的亚临床肺表型。它与慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease, COPD)、心血管疾病发病风险及全因死亡率增加显著相关。早期识别PRISm并进行分层预防是一项临床挑战。研究表明,PRISm与多种心脏代谢性疾病(如高血压、糖尿病、心血管疾病)共患率高,其机制可能涉及系统性炎症及氧化应激。此外,膳食模式在肺功能和慢性病风险中扮演关键角色。然而,基于膳食和人口学特征预测PRISm风险的模型研究尚不充分。本研究旨在利用美国国家健康与营养调查(National Health and Nutrition Examination Survey, NHANES)的数据,开发和验证一个整合膳食营养摄入与人口学特征的堆叠机器学习(Stacked Machine Learning)模型,以生成连续的PRISm风险评分,用于早期检测和预后预测,并探讨生活方式干预在不同风险人群中的潜在获益。
研究方法
本研究数据来源于NHANES 2007-2012周期的调查,最终纳入了11,141名20岁以上的参与者。数据集被随机分为训练集(60%)、验证集(20%)和测试集(20%)。研究评估了38种营养素变量,涵盖宏量营养素、维生素、矿物质等,并计算了两天24小时饮食回顾的平均摄入量。PRISm的定义为FEV1/FVC ≥ 0.70 且 FEV1< 80%预测值。研究还评估了四个可改变的生活方式因素:饮食质量(通过2015健康饮食指数HEI-2015评估)、吸烟状态、饮酒量和体力活动水平,并计算了一个综合生活方式评分(0-4分)。模型构建前,通过皮尔逊相关系数剔除了高相关性(r > 0.9)的膳食变量,最终模型纳入了33个膳食特征和7个人口统计学基线特征。为处理缺失值,对体力活动和HEI评分数据进行了多重插补。研究采用堆叠集成机器学习方法,基础学习器包括逻辑回归、决策树、支持向量机、随机森林和XGBoost,元学习器采用逻辑回归。模型性能通过受试者工作特征曲线下面积、校准曲线和决策曲线分析进行评估。风险评分的预后价值通过逻辑回归和Kaplan-Meier生存分析进行评估,并根据约登指数确定的最佳截断值(0.463)将参与者分为高风险组和低风险组。此外,还进行了慢性病(高血压、糖尿病、心血管疾病、COPD)亚组分析,以评估模型在不同共病状态下的预测能力。
研究结果
- 1.
模型开发与验证:堆叠机器学习模型在独立测试集上表现出强大的预测能力,AUC达到0.818(95% CI: 0.800-0.836),优于所有单一基础模型。决策曲线分析表明该模型在广泛的阈值概率范围内具有最大的临床净获益。亚组分析显示,在无慢性病的参与者中模型性能最佳(AUC=0.864),而在合并一种或两种及以上慢性病的参与者中AUC分别为0.783和0.736,表明模型的判别能力并非由多病共存驱动,且在亚组中保持稳健。
- 2.
风险评分的预后评估:模型生成的连续风险评分与多种不良健康结局显著相关。在测试集中,即使在调整生活方式因素后,风险评分仍与高血压、糖尿病、心血管疾病和COPD的患病风险增加呈强相关。使用0.463的风险阈值进行分层后,与低风险组相比,高风险组参与者发生高血压、糖尿病、心血管疾病和COPD的风险显著升高。Kaplan-Meier生存分析显示,无论是在训练集还是测试集中,高风险组的心血管死亡率和全因死亡率均显著高于低风险组。
- 3.
生活方式与不同风险组的关联:在测试集的低风险组中,遵循健康生活方式与多种不良结局的风险降低显著相关。与生活方式不健康者相比,生活方式健康者的高血压、糖尿病、心血管疾病和COPD风险显著降低,并且随生活方式质量提高,风险呈现显著的线性下降趋势。然而,在高风险组中,这种保护性关联未达到统计学显著性,尽管对于心血管疾病和COPD观察到了保护趋势。交互作用分析显示,生活方式对糖尿病和COPD的保护效应在高低风险组间存在显著差异。这表明健康生活方式对不良结局的保护作用在低风险个体中可能更为明显。
讨论
本研究首次成功开发了一个结合膳食与人口学特征的堆叠机器学习模型,用于预测PRISm风险。模型性能优异,为早期筛查和风险分层提供了有力工具。研究发现,高风险个体不仅PRISm风险增加,其罹患多种慢性病和死亡的风险也显著升高。机制上,饮食可能通过影响氧化应激、炎症、肠道微生物群(肠-肺轴)及关键营养素水平等通路,参与PRISm的发生发展。该研究提示,在低风险人群中,推广健康生活方式是有效的预防策略;而对于高风险个体,可能需要更强化的干预措施。本研究的主要局限性包括部分结局依赖于自我报告数据、模型基于美国人群开发需外部验证、以及需要前瞻性研究评估其长期临床效用。
结论
本研究成功构建并验证了一个基于膳食和人口学特征的堆叠机器学习模型,可生成PRISm的连续风险评分。该模型具有良好的预测和预后判断能力,可有效区分高风险和低风险人群。健康生活方式在低风险个体中对降低不良结局风险有积极作用。这种非侵入性的数据驱动方法,为识别高危人群和指导个体化的营养与生活方式干预提供了有前景的工具。