《Frontiers in Nutrition》:Interpretable machine learning models for predicting cognitive impairment using NHANES neuropsychological tests: nutritional and sociodemographic associations
编辑推荐:
本文利用2011-2014年NHANES数据,开发了集成机器学习模型(LightGBM/XGBoost/Random Forest)预测三种神经心理学测试(CERAD-WL/DSST/AFT)的认知障碍,通过SHAP方法量化人口学、临床和营养预测因素的贡献。研究发现维生素B2与铜/维生素E的交互作用具有神经保护效应,并通过体外实验验证其通过调节氧化应激和神经保护通路(SIRT1/BDNF)发挥协同作用,为认知障碍的早期筛查和营养干预提供了新见解。
研究背景与方法学创新
随着全球老龄化进程加速,痴呆症已成为重大公共卫生挑战。早期识别认知障碍风险个体对干预措施和公共卫生规划至关重要。虽然社会人口学和临床预测因素已得到广泛认可,但营养因素及其相互作用在认知健康中的作用仍待深入探索。本研究采用2011-2014年美国国家健康与营养调查(NHANES)数据,纳入2,208名完成三项神经心理学测试(CERAD单词列表测试CERAD-WL、数字符号替换测试DSST、动物流畅性测试AFT)的参与者,开发了多种集成机器学习模型(包括LightGBM、XGBoost和随机森林),并应用SHapley加性解释(SHAP)方法量化人口统计学、临床和营养预测因素的贡献及其相互作用。为验证模型发现的营养素相互作用,研究还开展了探索性体外实验,评估SH-SY5Y神经元细胞中的氧化应激和神经保护通路。
模型性能与核心预测因子
研究结果显示,集成模型在预测认知障碍方面表现出卓越性能, consistently优于传统分类器。在所有三个评估量表中,集成学习方法(特别是LightGBM、XGBoost和随机森林)均表现出最佳性能。对于CERAD-WL测试,LightGBM达到最高综合性能(准确度0.987,AUC-ROC 0.996);对于DSST测试,随机森林表现略优(准确度0.877,AUC-ROC 0.94);而对于AFT测试,随机森林显示出最强性能(准确度93.5%,AUC-ROC 0.981)。
SHAP分析揭示了预测因子的层次结构。社会人口学和临床因素显示出最强的预测能力:年龄增长在所有模型中与认知障碍风险增加稳定相关;较高教育程度与风险降低一致相关;较低家庭贫困收入比(PIR)与风险评分升高持续相关;高血压和糖尿病状态在所有模型中与风险评分增加稳定相关。
在控制这些强预测因子并应用多重共线性过滤(方差膨胀因子VIF≤3)后,维生素B2(核黄素)是唯一在所有三个认知领域都表现出保护性关联的营养标志物,较高摄入水平与较低的模型预测风险评分相关。除了核心预测因子,分析还揭示了变量间复杂的交互模式:维生素B2和维生素E之间存在正相关交互——在维生素B2水平较高的个体中,维生素E的保护性关联更为明显;类似地,维生素B2的保护性关联在较高铜水平条件下更强。在AFT模型中观察到锌和铁之间的交互作用,表现为铁水平低时低锌与较高风险相关,而铁水平高时高锌与较低风险相关。
营养关联的亚组差异性
营养因素关联的强度在不同人群亚组中存在差异。较高水分摄入与风险评分的关联在较低教育水平个体和高血压患者中更为明显;维生素B2的保护性关联在较低教育水平个体中更为突出;咖啡因摄入与风险评分的关联在低收入群体中更为明显;在不同体重指数(BMI)组中,维生素D的保护性关联在中等BMI个体中最突出;而钠摄入与风险评分的关联主要在糖尿病患者中观察到。
这些发现需要谨慎解释,特别是关于营养因素。首要考虑是膳食营养素之间存在多重共线性,因为它们通常共存于食物中。这使得从观察数据中确定任何单一营养素的独立作用变得困难。因此,虽然维生素B2显示出稳定的跨模型信号,但对于其他个体营养素,结果建议关注整体膳食模式的意义。
体外实验验证营养素相互作用
为功能验证SHAP分析发现的营养素关联,研究通过体外实验检验了维生素B2及其与维生素E和铜的预测交互作用是否能调节氧化应激和神经保护通路。实验结果显示,过氧化氢(H2O2)处理与细胞内活性氧(ROS)水平升高相关,表明成功建立了氧化应激模型。维生素B2预处理与较低ROS水平相关。更重要的是,维生素B2与维生素E联合处理或维生素B2与铜联合处理与ROS生成的进一步减少相关,符合潜在的协同抗氧化模式。
在分子响应方面,实时荧光定量PCR(qPCR)检测显示,H2O2处理与SIRT1和脑源性神经营养因子(BDNF)表达减少相关,而维生素B2与较单独H2O2处理更高的表达水平相关。与维生素E或铜的联合处理与SIRT1和BDNF表达的进一步增加相关,表明在共处理条件下增强了上调作用。这些发现为SHAP分析提示的营养素相互作用提供了实验证据支持,并加强了维生素B2作为与氧化应激调节和神经营养通路激活相关因素的生物学合理性。
研究局限与未来方向
研究存在若干重要局限。认知评估方面,NHANES使用的CERAD-WL、DSST和AFT是设计用于大规模流行病学调查的简短筛查工具,而非综合性神经心理学评估。虽然它们捕捉了与衰老相关的关键领域(情景记忆、处理速度/执行注意和语义流畅性),但未包含更深入的短期记忆、长期记忆巩固或音位流畅性测量。因此,模型可能未完全表征维生素B2、维生素E或铜与更特定认知子成分的关系。
研究方法学上,尽管集成模型在所有任务中实现了极高的区分度(AUC-ROC和AUC-PR值频繁超过0.95,在CERAD-WL任务中高达0.99),但这些值应谨慎解释并谨慎推广。所有报告的指标反映了在NHANES内部使用案例定义(认知障碍定义为每项认知测试得分≤25百分位数)下的分层5折交叉验证结果。这种设置产生了"受损"和"非受损"组之间相对清晰的分离,可能会夸大模型性能表现。尽管通过在所有预处理步骤(包括标准化和类别平衡)中拟合每个训练折叠来最小化信息泄漏,但目前结果可能仍会高估真实世界的泛化能力。需要在独立队列中进行外部验证,最好使用纵向认知结果,以确定临床实用性。
研究意义与结论
本研究展示了将可解释机器学习与人口规模数据相结合以推进认知障碍筛查的价值。通过系统整合三项神经心理学测试与广泛的NHANES数据,开发的预测模型不仅实现了强大性能,还为社会人口学、临床和营养因素在认知健康中复杂相互作用提供了有意义的见解。
方法论上,研究确认了所采用整合方法的几个重要优势:三种神经心理学测试的互补性实现了跨多个认知领域的全面评估;集成机器学习方法有效处理了这些复杂数据中固有的高维、非线性关系;最重要的是,SHAP分析将这些先进模型转化为可解释工具,不仅提供准确预测,还生成关于营养素相互作用的生物学合理假设——这些假设随后通过靶向实验得到验证。
研究发现对认知健康策略具有重要启示。基于易获得的访谈数据的模型的强大预测性能支持了它们在社区筛查环境中的潜在效用。更重要的是,维生素B2作为经受住多重共线性测试的强健营养因素的识别,及其协同伙伴的确定,为制定分层营养方法以保护认知提供了精确靶点。通过成功将计算预测转化为实验验证的生物学效应,本研究展示了如何整合数据驱动发现和机制研究,为公共卫生生成可操作的见解。