《Food Science & Nutrition》:Utilizing Life's Crucial 9 for Rheumatoid Arthritis Risk Prediction: A Machine Learning Approach Based on NHANES Data
编辑推荐:
为探究心血管健康指标Life's Crucial 9(LC9)与类风湿关节炎(Rheumatoid Arthritis, RA)风险的关联并建立RA风险预测模型,研究人员基于2011–2018年美国国家健康与营养检查调查(National Health and
为探究心血管健康指标Life's Crucial 9(LC9)与类风湿关节炎(Rheumatoid Arthritis, RA)风险的关联并建立RA风险预测模型,研究人员基于2011–2018年美国国家健康与营养检查调查(National Health and Nutrition Examination Survey, NHANES)数据开展分析,共纳入16?154名年龄≥20岁的成年人,其中RA组836例(自我报告确诊)、非RA组15?318例。研究人员采用加权多变量logistic回归分析LC9评分(连续变量及四分位分组)与RA的关联,并通过限制性立方样条(Restricted Cubic Spline, RCS)检验非线性关系。随后将LC9评分与10个协变量(年龄、性别、种族、教育程度、婚姻状况、贫困收入比(Poverty Income Ratio, PIR)分组、天门冬氨酸氨基转移酶(Aspartate Aminotransferase, AST)、丙氨酸氨基转移酶(Alanine Aminotransferase, ALT)、高密度脂蛋白胆固醇(High-Density Lipoprotein Cholesterol, HDL)及饮酒状态)纳入随机森林、支持向量机、K近邻、极端梯度提升(eXtreme Gradient Boosting, XGBoost)、轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)及朴素贝叶斯共6种机器学习算法构建预测模型。数据集按7:3比例随机划分为训练集与测试集,采用五折交叉验证优化参数。结果显示,LC9评分每增加1单位,RA风险降低27%(比值比(Odds Ratio, OR)=0.73,95%置信区间(Confidence Interval, CI):0.68–0.80,p<0.0001);与最低四分位组(Q1)相比,最高四分位组(Q4)RA风险降低57%(OR=0.43,95% CI:0.33–0.55,p<0.0001)。剂量-反应关系呈线性(趋势p<0.0001;非线性p=0.159)。机器学习模型中XGBoost性能最优(测试集曲线下面积(Area Under the Curve, AUC)=0.987,准确率=96.20%,灵敏度=95.06%),其次为LightGBM(AUC=0.982);随机森林(AUC=0.817)与朴素贝叶斯(AUC=0.735)性能相对较弱。SHapley加性解释(SHapley Additive exPlanations, SHAP)分析显示AST、年龄、ALT与HDL是前四位预测因子,LC9、饮酒状态及PIR分组的重要性相当,均显著高于其余变量。研究表明LC9是RA风险的独立保护因素,整合LC9的XGBoost预测模型具备优异诊断效能,可作为RA高风险人群风险分层的实用工具。
该研究发表于《Food Science & Nutrition》,针对类风湿关节炎(RA)作为慢性系统性自身免疫病,全球患病率达0.27%、女性发病率约为男性2倍,除致关节畸形与功能丧失外,还会使心血管事件风险升高2–3倍,已成为患者长期死亡的首要诱因,而现有诊疗框架缺乏系统性健康干预的理论支撑这一现状,首次基于美国国家健康与营养检查调查(NHANES)大数据,探究美国心脏协会2022年提出的涵盖心血管与心理健康的综合指标Life's Crucial 9(LC9)与RA风险的关联,并构建机器学习预测模型,旨在填补该领域空白,为RA早期预防及心血管并发症防控提供新策略。
研究人员采用的关键技术方法如下:基于NHANES 2011–2018周期数据,经排除年龄<20岁、RA结局缺失、LC9组分信息不全及极端值后,最终纳入16?154名成年人;RA状态通过医学状况问卷自我报告判定;LC9由饮食、体力活动、尼古丁暴露、睡眠、体重指数(BMI)、非高密度脂蛋白胆固醇、血糖、血压及心理健康(采用患者健康问卷-9评估)共9个维度构成,每个维度计0–100分,取至少8个维度的算术均值为总评分;选取年龄、性别、种族、教育程度、婚姻状况、贫困收入比(PIR)、AST、ALT、HDL及饮酒状态作为协变量;采用Python构建随机森林、支持向量机、K近邻、XGBoost、LightGBM及朴素贝叶斯共6种机器学习模型,数据集按7:3划分为训练集与测试集,以五折交叉验证优化参数,通过准确率、F1值、Matthews相关系数(MCC)、受试者工作特征曲线下面积(AUC)等指标评估性能,并以SHAP分析量化特征贡献。
研究结果如下:
3.1 参与者特征:最终纳入的16?154名参与者中,RA组836例、非RA组15?318例,加权代表全美182?198?287名成年人。RA组年龄更高(57.98岁vs 48.09岁)、女性占比更高(57.88% vs 51.86%),LC9评分显著更低(63.38 vs 70.31,p<0.001),同时高血压、血脂异常、糖尿病患病率及吸烟比例均高于非RA组,体力活动参与率更低。
3.2 LC9评分与RA风险的关联:多变量logistic回归显示,LC9每升高1单位,RA风险降低27%(OR=0.73,95% CI:0.68–0.80,p<0.0001);与Q1组相比,Q2、Q3、Q4组RA风险分别降低26%、35%、57%(趋势p<0.0001),校正混杂因素后结果一致。
3.3 非线性关联:限制性立方样条分析证实LC9与RA风险呈线性负相关(p<0.001),无显著非线性特征(p=0.159)。
3.4 亚组分析:LC9与RA的负关联在性别、饮酒状态、PIR分组及婚姻状况的所有亚组中均一致,无显著交互作用(交互p>0.05),提示该保护效应适用于多样人群。
3.5 疾病预测模型的开发与验证:训练集中XGBoost性能最优(准确率98.04%、AUC=0.9981),LightGBM次之(准确率95.93%、AUC=0.9892);独立测试集中XGBoost仍保持最优表现(准确率96.20%、AUC=0.9872),五折交叉验证平均AUC达0.9875,稳定性良好;随机森林与朴素贝叶斯性能较弱。
3.6 基于SHAP分析的LC9特征重要性:SHAP分析显示AST、年龄、ALT、HDL为前四位预测因子,LC9重要性介于中等水平,与饮酒、PIR分组相当,具备独立预测价值。
讨论与结论部分总结:该研究首次在大样本代表性人群中证实LC9与RA风险呈显著线性负相关,明确心血管-代谢-免疫稳态在RA发病中的关键作用,确立LC9作为可量化、可干预的多维健康指标,可用于RA高风险人群筛查。XGBoost模型整合LC9与多维协变量,具备优异的预测效能与可解释性,为RA早期预警提供了新方法。研究同时指出局限性:横断面设计无法推断因果,RA自我报告可能存在错分偏倚,未单独分析体力活动的独立效应,且模型尚未经外部队列验证。未来需开展前瞻性队列研究与干预试验,进一步明确LC9改善对RA的预防作用。最终结论为:LC9是RA风险的独立保护因素,基于XGBoost整合LC9的预测模型具备卓越的诊断性能,可为RA高风险人群的风险分层提供可靠工具。