机器学习揭示膳食抗氧化剂是糖尿病与癌症共病的重要影响因素：来自全国健康与营养调查的见解

《Food Science & Nutrition》：Machine Learning Unveils Dietary Antioxidants as Influential Factors for Diabetes-Cancer Comorbidity: Insights From National Health and Nutrition Examination Survey

【字体：大中小】 时间：2026年05月02日 来源：Food Science & Nutrition 3.8

编辑推荐：

　　**摘要** 本研究旨在利用可解释的机器学习（ML）模型评估饮食抗氧化剂在糖尿病-癌症共病中的预测价值，并确定关键临床因素。数据来源于2007–2010年和2017–2018年的全国健康与营养调查（NHANES），包括44种饮食抗氧化剂以及人口统计、生活方式和健康相关特征。训练

　　**摘要**

本研究旨在利用可解释的机器学习（ML）模型评估饮食抗氧化剂在糖尿病-癌症共病中的预测价值，并确定关键临床因素。数据来源于2007–2010年和2017–2018年的全国健康与营养调查（NHANES），包括44种饮食抗氧化剂以及人口统计、生活方式和健康相关特征。训练了8种ML模型（随机森林、Light Gradient Boosting Machines [LightGBM]、逻辑回归、决策树、多层感知器、朴素贝叶斯、核k-最近邻和带径向基函数的支持向量机），并进行了多重共线性、类别不平衡（SMOTE）和数据标准化的预处理步骤。模型性能通过AUC、准确率和Brier分数以及校准图进行评估。应用SHapley Additive exPlanations（SHAP）值来解释特征的重要性。分析了8644名参与者的数据，其中包括272名确诊为糖尿病-癌症共病的个体。在去除共线性特征后，ML模型包含了30种饮食抗氧化剂特征和10种基线特征。随机森林模型表现最佳（AUC = 0.996，准确率 = 0.978，Brier分数 = 0.0241），其次是LightGBM（AUC = 0.993）。SHAP分析显示，虽然高龄、心血管疾病和高血压是共病概率的主要驱动因素，但饮食抗氧化剂也是重要影响因素。具体而言，多酚（大豆异黄酮、锦葵素、天竺葵素、花青素）和必需矿物质（镁）被确定为最具影响力的营养因素。随机森林和LightGBM模型的高准确性突显了它们在糖尿病-癌症共病风险分层中的临床应用价值。尽管高龄和心血管代谢功能障碍是糖尿病-癌症共病的主要驱动因素，但本研究表明饮食抗氧化剂，特别是大豆异黄酮和锦葵素，可作为其预测因子。

**1 引言**

癌症和糖尿病是两大全球性的公共卫生挑战，人们越来越认识到它们之间的相互关联和共病现象（Wang等人，2020年）。根据世界卫生组织的数据，2018年全球约有960万人死于癌症，占所有死亡人数的六分之一（de Martel等人，2020年）。到2021年，糖尿病患者人数激增至5.29亿，患病率持续上升（GBD 2021 Diabetes Collaborators，2023年）。2型糖尿病（T2DM）占糖尿病病例的绝大多数，与多种癌症（包括肝癌、胰腺癌和子宫内膜癌）有强烈关联（Buysschaert和Sadikot，2013年；Giovannucci等人，2010年）。一项针对3200万人的综合荟萃分析表明，T2DM显著增加了患这些癌症的风险（Ling等人，2020年）。重要的是，糖尿病不仅增加了癌症的发病率，还与较差的治疗结果、更高的并发症率和较低的生存率相关，形成了一个双向且有害的循环（Ling等人，2022年；Mrzljak等人，2022年）。病理生理学研究表明，氧化应激是连接这两种疾病的关键机制（Chen等人，2022年；Schwartz等人，2019年）。慢性高血糖通过线粒体电子传递链功能障碍导致活性氧（ROS）的过度产生，从而引起DNA氧化损伤（Giacco和Brownlee，2010年）。越来越多的证据表明，其他因素，如胰岛素/胰岛素样生长因子（IGF）轴的失调、持续的高血糖、炎症细胞因子和性激素，也可能在癌症发展中起关键作用（Vigneri等人，2009年）。相反，癌症治疗本身可能会加剧糖尿病的代谢紊乱。例如，癌症幸存者患糖尿病的风险更高，这可能是由于靶向疗法破坏了胰岛素受体信号通路（Onitilo等人，2013年；Stava等人，2007年）。虽然像二甲双胍这样的抗糖尿病药物显示出潜在的抗癌特性，但许多抗癌疗法可能会无意中加重糖尿病的进展，使得糖尿病和癌症共病患者的临床管理更加困难（Vigneri等人，2009年）。饮食干预作为一种可改变且易于实施的疾病预防策略，为缓解这些风险提供了有希望的途径（Brown等人，2015年）。多酚化合物因其独特的芳香环结构和羟基而具有双重抗氧化和抗炎特性（Salisbury和Bronas，2015年）。这些化合物不仅可以直接中和ROS，还能调节Nrf2/ARE通路以减轻氧化应激，并抑制NF-κB信号级联反应以减少炎症（Ali等人，2016年；Braidy等人，2019年；Nimse和Pal，2015年；Ribas等人，2008年；Tena等人，2020年）。与传统统计方法不同，机器学习（ML）技术提供了无与伦比的灵活性，不受先验假设的限制。ML擅长分析大型复杂数据集，揭示不同健康相关因素之间的隐藏关系，并提供创新工具来模拟饮食与疾病之间的复杂相互作用（Morgenstern等人，2021年；Rajula等人，2020年）。尽管先前的研究已成功应用ML来预测癌症或T2DM的独立风险，但将其应用于预测糖尿病和癌症的共病仍大多未被探索（Xue等人，2020年；Birk等人，2021年；Park等人，2024年；Abdul Rahman等人，2023年；Qarmiche等人，2023年）。本研究通过采用专门针对这种共病的可解释ML框架，确立了饮食抗氧化剂，特别是大豆异黄酮和锦葵素，作为糖尿病-癌症共病的预测因子。

**2 参与者和方法**

**2.1 参与者**

NHANES由美国国家卫生统计中心进行，采用复杂的、分层的、多阶段的概率抽样设计来收集代表平民非机构化人口的人口统计、社会经济、饮食和健康相关数据（https://wwwn.cdc.gov/nchs/nhanes/tutorials/sampledesign.aspx）。2007–2010年和2017–2018年调查周期中的参与者被视为本研究的初始候选池（N = 29,940）。为了确保数据完整性和方法的可重复性，应用了逐步排除协议来确定最终队列。首先，排除了缺乏24小时饮食回忆访谈完整数据的个体（N = 7,459）。其次，排除了缺乏足够糖尿病或癌症诊断调查数据或实验室值的个体以确保结果分类（N = 12,897）。最后，排除了在关键基线临床和人口统计协变量中存在缺失数据的参与者，以便为机器学习算法提供完整的案例分析框架（N = 940）。经过这一选择过程后，确定了最终参与者（N = 8,644）。

**2.2 饮食抗氧化剂摄入**

从NHANES中提取了44种饮食抗氧化剂的摄入数据，包括维生素、矿物质和多酚化合物。饮食摄入量使用美国农业部（USDA）的自动化多步骤方法进行评估，这是一种高度验证的、计算机化的五步访谈程序，旨在最小化受访者回忆偏差并显著提高自我报告的营养数据准确性（Stote等人，2011年）。调查参与者接受了两次详细的24小时饮食回忆访谈。第一次回忆是由受过培训的访谈者在专门的移动检查中心面对面进行的，随后在3-10天后通过结构化电话访谈进行。为了为机器学习算法建立连续的饮食特征，计算了成功完成两次24小时回忆的参与者的选定饮食抗氧化剂的未加权日均摄入量。由于第二次回忆通常在第一次回忆后3-10天通过电话进行，因此取这两天的平均值可以在一定程度上减少与个体饮食日常变化相关的测量误差。此外，由于个体饮食模式会随时间自然波动，调查的连续全年运营设计本质上减轻了季节性变化的影响，确保所有季节都得到适当代表。

**2.3 糖尿病和癌症的诊断**

如果参与者符合以下任何标准，则被诊断为糖尿病：空腹血浆葡萄糖（FPG）≥126 mg/dL；口服葡萄糖耐量测试（OGTT）后2小时血清葡萄糖≥200 mg/dL；HbA1c > 6.5%；自我报告的糖尿病或使用抗高血糖药物，如NHANES问卷中所述。同样，如果参与者报告医生或其他医疗专业人员告知他们患有癌症或指定了特定类型的癌症，则确认癌症诊断。虽然糖尿病的诊断基于高度客观的生理生物标志物数据，但癌症状态的分类依赖于自我报告的调查数据。尽管自我报告本质上存在回忆偏差和误分类的潜在风险，但广泛的流行病学验证研究一致表明，在大型基于人群的调查队列中，自我报告的癌症诊断具有很高的有效性。例如，将自我报告的癌症史与黄金标准的Medicare诊断索赔和全面的州癌症登记册进行比较的全面验证研究显示，总体诊断敏感性在73.2%到93.0%之间，特异性始终超过96.0%（Mullins等人，2022年）。这种持续的高特异性确保了本研究中的非癌症对照组基本上没有误分类的癌症病例。

**2.4 基线特征的收集**

基于人口统计、生活方式和健康状况三个方面收集了基线特征。这些特征包括年龄、性别（男性或女性）、种族/民族（墨西哥裔美国人、其他西班牙裔、非西班牙裔白人、非西班牙裔黑人和其他类别）、家庭贫困与收入比率（PIR）、吸烟状况（是或否）、参与中等至剧烈体力活动（是或否），以及高脂血症、高血压和心血管疾病（CVD）的存在。年龄、性别、种族/民族和家庭贫困与收入比率的数据来自NHANES的人口统计数据模块，而吸烟和体力活动的信息来自问卷数据模块。报告一生中吸烟少于100支香烟的个体被归类为非吸烟者，而其他个体则根据他们对“一生中是否至少吸过100支香烟？”这个问题的回答被归类为吸烟者。高脂血症和高血压的诊断是基于问卷数据模块中的测量数据和自我报告数据确定的。具体来说，高脂血症的定义是男性高密度脂蛋白胆固醇水平低于1.0 mmol/L，女性低于1.3 mmol/L，或所有参与者的甘油三酯水平达到或超过1.8 mmol/L。高血压的诊断标准是收缩压≥140 mmHg和/或舒张压≥90 mmHg，在三次测量中的平均值，或者参与者回答“是”关于服用高血压药物或之前被诊断为高血压的问题。如果参与者报告医生或其他医疗专业人员告知他们患有充血性心力衰竭、冠心病、心绞痛、心肌梗死或中风，则确认CVD诊断。

**2.5 机器学习特征的预处理**

本研究的数据集最初包含55个特征，包括47个连续变量和8个分类变量。为了减少饮食抗氧化剂特征之间的多重共线性，计算了相关系数，并移除了系数超过0.9的特征。为了解决数据集中的类别不平衡问题，我们应用了合成少数派过采样技术（SMOTE），以确保在模型训练前类别的平衡表示。具体来说，对于每个少数类实例，SMOTE识别其K个最近邻，并通过连接原始实例与其选定邻居的线段进行线性插值来创建新的数据点。最后，我们使用z分数标准化对所有特征进行了标准化，以防止具有较大尺度的变量主导模型。

**2.6 统计分析**

使用调查加权的统计模型描述了有无共病疾病的参与者的特征。连续变量以均值±标准误差表示，而分类变量以频率和百分比表示。使用加权χ2检验比较分类变量，ANOVA比较正态分布的连续变量，Kruskal–Wallis H检验比较偏态分布。使用R中的tidymodels框架开发了包括Light Gradient Boosting Machine（LightGBM）、决策树（RPART）、逻辑回归（LR）、多层感知器（MLP）、朴素贝叶斯（NB）、核k-最近邻（K-KNN）、随机森林（RF）和带径向基函数的支持向量机（SVM-RBF）在内的判别模型。LightGBM特别适合大规模数据集，因为它计算效率高，同时保持高预测准确性（Yang, Chen等人，2023年）。RPART模型能有效捕捉非线性关系和特征交互作用，非常适合处理数据中的复杂变量关系（Strobl等人，2009年）。LR因其简单性和可解释性而仍然是风险预测的基本选择，而MLP在识别数据中的复杂模式方面表现出色（Bishop 1991年；Boateng和Abaye 2019年）。NB在计算效率方面很高，特别是对于大规模数据集（Langarizadeh和Moghbeli 2016年）。K-KNN模型根据样本的相似性进行分类，适用于样本分布不均匀的数据（Mullick等人，2018年）。RF能够建模非线性关系和复杂的特征交互作用，而SVM适用于高维数据（Son等人，2010年；Unnikrishnan等人，2016年；Xin和Ren 2022年）。这些模型在之前的研究中也被成功应用于分析NHANES数据，进一步证明了它们的适用性（Lundberg和Lee 2017；Tan等人2024；Vollmer等人2022）。为了评估模型性能，我们进行了全面的区分度和校准分析。生成了接收者操作特征（ROC）曲线来计算曲线下面积（AUC），AUC-ROC指标量化了模型区分不同结果类别的能力。校准通过布里尔分数（brier score）和校准图进行评估，其中布里尔分数衡量预测概率与实际结果之间的平均平方偏差（较低的值表示更好的校准）。分类准确性定义为正确预测实例的比例与总样本的比例，提供了额外的性能验证。为了提高模型的可解释性，我们使用了SHAP值来评估在机器学习模型中具有最佳预测性能的全局特征重要性。作为可解释人工智能的前沿技术，SHAP利用博弈论原理来聚合局部特征贡献，从而通过加性特征归属来阐明全局模型行为。这种方法在最近的方法学比较中显示出优于传统全局近似方法的优越性（Lundberg和Lee 2017）。该算法提供了双重能力：（1）在群体层面全面量化特征重要性；（2）在个体预测层面提供详细的特征效应。所有分析都是使用R统计软件（版本4.4.1）和以下专用包完成的：dplyr用于数据操作，themis用于类别不平衡校正，baguette用于集成建模，discrim用于判别分析，probably用于概率校准，treeshap用于计算SHAP值，shapviz用于SHAP输出的交互式可视化。统计测试是双边的，p值<0.05被认为是统计显著的。

3 结果

3.1 特征的特性

共有8644名参与者被纳入这项分析，其中272人被确定为同时患有糖尿病和癌症。与没有共病的参与者相比，患有共病的参与者摄入的糖肽（0.18 [1.00] vs. ±0.06 [0.42）和山柰酚（4.83 [6.21] vs. 4.05 [5.83]）显著较低，而维生素A（650.33 [489.57] vs. 750.96 [648.35）和β-胡萝卜素（2322.05 [3213.76] vs. 2474.03 [2630.72）的摄入量显著较高。两组在年龄、种族、体力活动、高血压状况、高脂血症状况和心血管疾病（CVD）状况方面存在显著差异（表1）。表1. 参与者的特征。

3.2 共病疾病预测模型的开发与验证

在构建机器学习（ML）模型之前，我们可视化了膳食抗氧化特征之间的相关系数（显示在图S1中）。从图S1可以看出，一些膳食抗氧化特征表现出高相关性，因此去除了染料木黄酮、糖肽、染料木素-3-没食子酸酯、表没食子素-3-没食子酸酯、茶黄素-3-3-没食子酸酯、茶黄素-3-没食子酸酯、总黄酮类化合物、总儿茶素、总黄烷-3-醇、总黄酮酮和总异黄酮。图2展示了在处理共线性问题后纳入ML模型的膳食抗氧化特征。最终，ML模型包括了30个膳食抗氧化特征和10个基线特征。图2显示了去除相关性大于0.9的膳食抗氧化特征后的成对相关性热图。在花青素（例如，花青素-木薯素，r = 0.84）和儿茶素（例如，表没食子素-表没食子素，r = 0.87）之间出现了强烈的相关性。图3A系统地比较了八种机器学习算法在三个评估指标上的性能：ROC曲线下面积（图3B）、分类准确性和布里尔分数。分析显示评估模型之间存在明显的性能分层。随机森林（RF）表现出优越的区分能力，具有最佳的AUC（0.996）和准确性（0.978）值，表明其具有出色的分离能力。LightGBM紧随其后，具有可比的性能指标（AUC = 0.993，准确性 = 0.977），表明其作为替代集成方法的有效性。在概率校准评估方面，RF（布里尔分数 = 0.0241）和LightGBM（布里尔分数 = 0.0193）在预测概率和观察频率之间表现出极好的一致性。校准图（图3C）进一步支持了这些发现，RF曲线几乎与X轴和Y轴之间的45°对角线对齐，表明模型具有一致性。其余六个模型在所有评估维度上的表现相对较差。

3.3 使用SHAP值解释特征的重要性

为了全面阐明ML模型的预测机制，我们将人口统计特征、临床基线特征和膳食抗氧化剂整合到了SHAP框架中。SHAP重要性图（图4A）显示了最优RF模型中的前15个预测因子。分析显示，基本的生理和心血管代谢健康指标在预测架构中占主导地位。年龄成为糖尿病-癌症共病最强大的预测因子，其次是心血管疾病（CVD）、高血压、血脂异常和吸烟状态。值得注意的是，即使与这些系统和行为变量竞争，特定的膳食抗氧化剂仍然保持了显著的预测价值。染料木黄酮、木薯素、天竺葵素、矮牵牛素和花青素排在前15个特征之中。对于其他膳食抗氧化成分，SHAP重要性图（图S2A）展示了在ML模型中预测共病方面按重要性排名的前15个膳食抗氧化剂。SHAP值表明，在染料木黄酮、木薯素、天竺葵素、矮牵牛素和花青素之后，镁（Mg）、飞燕草素、表没食子素、矮牵牛素、木犀草素、总花青素、异鼠李素、山柰酚、槲皮素和维生素C是主要的贡献因素。图4显示了RF模型中人口统计特征、临床基线特征和膳食抗氧化剂的SHAP值。（A）SHAP重要性图。（B）SHAP摘要图。（C）SHAP瀑布图。SHAP摘要图（图4B）进一步阐明了这些特征对共病风险的方向性影响。分布表明，高龄以及CVD、高血压、血脂异常的阳性临床诊断和吸烟状态的一致性正向改变了SHAP值，这表明它们是增加共病风险的主要驱动因素。相比之下，参与中等至剧烈的体力活动以及一些人口统计特征，如较高的教育水平、女性性别和较高的家庭收入（PIR），则将分布向负方向移动，证实了它们的显著保护作用。正如特定的膳食成分SHAP摘要图所示，镁（Mg）、木犀草素、山柰酚和维生素C的摄入量增加时，它们相应的SHAP值降低，进一步表明了它们对共病的潜在保护作用。为了说明模型如何进行个性化临床预测，我们使用shapviz包生成了一个SHAP瀑布图。图4C展示了特定参与者的预测推导过程，从预期的基础值（E[f(x)] = 0）转变为最终的局部预测值-0.286。该图清楚地量化了各种因素的影响：患者积极参与体力活动显著降低了风险（贡献为-0.0626），而没有高血压（-0.0586）、没有CVD（-0.0392）和较年轻的年龄（-0.0387）也降低了概率。在这些宏观层面基线因素建立的保护框架内，膳食抗氧化剂如染料木黄酮和木薯素也提供了保护作用，进一步降低了共病事件的发生概率。这一可视化展示了基线健康的关键影响，同时强调了抗氧化剂在个性化预防中的干预价值。图S3C显示了抗氧化剂在预测共病事件中的贡献排名，以及最终的预测值达到-0.258。此外，我们通过散点图（图S3）分析了前10个最关键膳食抗氧化剂的特征值和SHAP值之间的关系。图表显示了花青素、镁（Mg）、飞燕草素和木犀草素的摄入水平与其SHAP值之间的明显负相关，表明这些成分的增加摄入量具有保护作用。然而，其他因素如染料木黄酮、木薯素、天竺葵素、矮牵牛素和表没食子素与SHAP值之间没有显示出明显的线性关系。

4 讨论

我们采用了可解释的机器学习方法，利用2007-2010年和2017-2018年NHANES的数据来探索膳食抗氧化剂摄入量与糖尿病和癌症共病之间的关系。在考虑的八个ML模型中，RF模型表现最佳。RF模型的AUC为0.996，显示出出色的分类效率。SHAP被用来阐明模型中每个选定特征的重要性，识别出关键贡献因素，如染料木黄酮、木薯素、天竺葵素、矮牵牛素、花青素和镁（Mg）。据我们所知，这是第一个开发和验证糖尿病-癌症共病预测模型的研究，该模型整合了抗氧化因素和基线特征。虽然我们的主要重点是分析膳食抗氧化剂的贡献，但模型还结合了容易获取的人口统计特征、生活方式因素和个人健康状况，从而增强了其预测能力。此外，我们还使用了布里尔分数和校准曲线来比较不同模型的性能。机器学习模型越来越多地被用来探索与糖尿病和癌症相关的膳食因素。Eckart等人利用XGBoost算法来解释饮食-生活方式模式在2型糖尿病（T2DM）风险中的作用，识别出关键预测因素（Eckart和Sharma Ghimire 2025）。薛等人使用决策树、随机森林、结合决策树的AdaBoost以及极端梯度提升（XGBoost）算法，根据身体测量数据和饮食问卷来识别2型糖尿病患者，结果表明XGBoost的表现最佳（AUC=0.968）（薛等人，2020年）。Birk等人探索了使用各种机器学习和统计方法，结合全球饮食质量评分（GDQS）和年龄，开发出一种用于糖尿病前期筛查的工具，广义线性混合模型（GLMM）、广义线性模型（GLM）、LASSO和随机森林技术都表现良好（AUC>0.70）（Birk等人，2021年）。Park等人利用XGBoost和深度神经网络方法，结合胡萝卜素、叶酸、维生素C和D、钙、黄酮类和多酚等饮食因素，开发出一个预测含糖碳酸饮料（CSSB）摄入量的模型，指出增加CSSB摄入量与西方饮食方式有关，会提高代谢综合征的风险（Park等人，2024年）。在将饮食与癌症联系起来的研究中，单独的饮食因素已被证明可以创建出令人满意的预测模型。Abdul等人使用监督和非监督模型，结合饮食数据库来预测结直肠癌，其中人工神经网络模型表现最佳，CRC的误分类率为1%，非CRC的误分类率为3%（Abdul Rahman等人，2023年）。Qarmiche等人应用非监督机器学习方法，根据经过验证的食物频率问卷测量的基线饮食摄入量，对摩洛哥人的饮食模式进行聚类，识别出两种与癌症相关的饮食模式：“高风险”和“谨慎型”（Qarmiche等人，2023年）。Yang等人使用随机森林模型证明，α-胡萝卜素、镁、维生素C和E、番茄红素、硒、叶黄素和β-胡萝卜素的饮食摄入对预防肺癌最为有益（Yang, Qian等人，2023年）。在这项研究中，我们选择了LightGBM、RPART、LR、MLP、NB、K-KNN、RF和SVM-RBF来构建预测模型，评估每个模型的特征，以确定最适合预测糖尿病-癌症共病的模型。我们的结果表明RF模型表现最佳。RF是一种基于决策树多数投票的集成分类器，广泛用于分类任务。越来越多的证据表明RF在医学领域具有强大的预测能力（Hu等人，2024年；Potash等人，2020年；Zhang等人，2022年）。然而，机器学习模型的另一个挑战是它们的临床可解释性，因为这些算法通常被视为“黑箱”，缺乏对预测机制的清晰解释（Wang等人，2018年）。为了解决这个问题，我们采用了SHAP方法来确定某些特征对预测的正面或负面影响。与慢性系统性疾病“共享土壤”假说一致，我们的SHAP分析指出，年龄增长以及心血管疾病（CVD）、高血压和血脂异常是糖尿病-癌症共病可能性最重要的驱动因素（Silva等人，2021年）。年龄作为累积生物退化的不可避免的代理指标，促进了肿瘤发生和代谢衰竭（Petrie等人，2018年；Gao等人，2024年）。同时，CVD和高血压的预测权重强调了内皮功能障碍和慢性系统炎症的严重下游后果（Newman等人，2025年；Koene等人，2016年；Katsi等人，2023年）。尽管血脂异常也被认为是共病风险的主要驱动因素，但系统的脂毒性既是晚期糖尿病器官损伤的温床，也是侵袭性肿瘤发生的促进因素（Katsi等人，2023年；Feng等人，2024年）。与这些不可改变的风险相比，我们的模型确认了中等强度的体育活动和特定的饮食抗氧化剂是最有力的可改变治疗靶点。与体育活动相关的保护性SHAP值反映了其在骨骼肌中通过独立于胰岛素的葡萄糖摄取来缓解高胰岛素血症的显著生理能力，同时下调促进肿瘤增殖的系统炎症（Feng等人，2024年；Venkatasamy等人，2013年；Golbidi等人，2012年）。与非吸烟相关的保护性SHAP值与大量证据一致，这些证据表明吸烟是2型糖尿病和多种恶性肿瘤的已知风险因素（Dai等人，2022年）。模型还确定了女性性别、较高教育水平和较高的贫困指数（PIR）为保护性特征，使SHAP分布呈现负向变化。较高的教育成就与更好的健康素养和更严格的医疗及饮食管理依从性密切相关（Sells Michael等人，2023年）。同样，女性性别的保护作用可能归因于绝经前雌激素的心血管和代谢保护作用，这决定了与男性相比更有利于脂肪组织的分布和更好的基础胰岛素敏感性（Kautzky-Willer等人，2016年）。正如流行病学文献所指出的，较高的PIR（表明较高的贫困水平）与更好的健康结果、较低的代谢综合征患病率和较低的心血管死亡率相关（Sells Michael等人，2023年）。对于特定的饮食抗氧化剂，结果表明多酚（如花青素、橙皮苷、山柰酚）、矿物质（如镁）和维生素（如维生素C）是关键的预测因素。尽管依赖图和摘要图没有显示出明确的线性关系，但根据SHAP重要性图，花青素、 malvidin、pelargonidin、petunidin和peonidin是模型中最重要的特征。这表明它们对预测有显著的平均影响。这种不一致性可能表明它们的影响是非线性的，或者受到与其他特征交互作用的影响（例如，花青素与山柰酚的交互作用），导致在相似特征值下SHAP值的较大变化。在这项研究中，饮食抗氧化成分主要分为三类：维生素、矿物质和多酚。这些小分子通过多种机制发挥抗氧化作用。维生素A通过转录调节参与人体典型抗氧化反应的基因来发挥间接抗氧化作用（Blaner等人，2021年）。维生素C通过电子捐赠中和自由基，从而发挥其抗氧化作用（Getoff，2013年）。维生素E还原过氧化物自由基并形成生育酚自由基，进一步调节与膜脂质相关的生物活性和信号传导（Niki，2014年）。矿物质主要作为参与氧化应激的酶的辅因子；然而，它们的作用远不止于此。例如，硒和锌是谷胱甘肽过氧化物酶的辅因子，而镁是谷胱甘肽过氧化物酶、超氧化物歧化酶和过氧化氢酶的辅因子（Morais等人，2017年；Zhang等人，2023年）。类胡萝卜素被认为具有直接的抗氧化活性，主要作为单线态氧的清除剂（B?hm等人，2012年）。黄酮类在体外是强效抗氧化剂，能够通过向各种活性氧、氮和氯物种（包括羟基自由基、过氧化物自由基、次氯酸和过氧亚硝酸盐）捐赠电子或氢原子来中和自由基（Panche等人，2016年）。我们的基线表格显示，共病患者摄入的维生素A和β-胡萝卜素量较高。这可能是由于维生素A和β-胡萝卜素对癌症的潜在不良影响（Middha等人，2019年；Omenn等人，1996年）。花青素和malvidin是本研究中最显著的两种抗氧化剂。尽管临床试验尚未确认花青素在预防或治疗糖尿病方面的有效性，但临床前研究表明其有益处，包括调节参与糖酵解的肝酶、增强肌细胞中的葡萄糖摄取、降低空腹血糖和总血清胆固醇以及改善HbA1c、胰岛素和C肽水平（Cheong等人，2014年；Choi等人，2008年；Sun等人，2016年）。长期不受控制的血糖升高会导致ROS的生成，通过形成晚期糖基化终产物，激活多醇、蛋白激酶C和己糖胺途径（Laddha和Kulkarni，2019年）。这些途径影响血液动力学、遗传学和代谢，导致包括肾脏、视网膜和心脏在内的各种器官损伤（Laddha和Kulkarni，2019年）。花青素具有清除ROS和降血糖的特性，有效防止糖尿病相关并发症在肾脏、视网膜和心脏的进展（Laddha和Kulkarni，2020年，2021年，2022年）。此外，花青素还表现出广谱抗癌活性。细胞和动物研究表明，花青素可以促进乳腺癌、前列腺癌、结直肠癌和神经母细胞瘤的凋亡并抑制其增殖（Guo等人，2004年；Jin等人，2010年；Lo等人，2007年；Park等人，2013年；Szliszka和Krol，2011年）。根据SHAP值，malvidin的重要性排名第二。Malvidin是最突出的花青素之一，其化学结构类似于delphinidin，存在于各种水果、蔬菜及其衍生物中。Malvidin通常在C-3位置连接不同的糖基团。该分子含有四个氢键供体，使其成为强效的ROS清除剂（Husain等人，2022年）。临床试验表明，对于2型糖尿病患者来说，补充花青素（每粒胶囊含80毫克花青素，包括3.0%的malvidin-3-葡萄糖苷、malvidin-3-半乳糖苷和malvidin-3-阿拉伯糖苷）可以显著降低空腹血糖和胰岛素抵抗的稳态模型评估（Li等人，2015年）。对于糖尿病前期患者或新诊断的2型糖尿病患者，每天补充320毫克花青素可以改善葡萄糖和脂质代谢（Yang等人，2021年）。服用含有花青素的越橘标准化提取物的2型糖尿病患者，其血糖和胰岛素水平显著降低（Hoggard等人，2013年）。体外和体内研究也揭示了malvidin的抗癌作用。Malvidin治疗显著减少了小鼠的淋巴瘤体积并增加了白细胞计数（Sakthivel等人，2020年）。Malvidin-3-半乳糖苷调节与增殖、凋亡、迁移和侵袭相关的途径，显示出预防肝癌的潜力，并在小鼠肝肿瘤细胞中诱导凋亡（Lin等人，2020年；Wang等人，2019年）。此外，研究表明malvidin通过线粒体介导的途径诱导口腔癌细胞的细胞周期停滞和凋亡（Baba等人，2017年）。将可解释的机器学习整合到营养流行病学中，对临床实践和广泛的公共卫生政策具有几项实际意义。首先，通过识别特定的饮食抗氧化剂（如花青素、malvidin和镁）以及强烈预测糖尿病和癌症共病的基线临床因素，医疗专业人员可以获得一个多维矩阵，以更好地评估患者风险状况并持续监测他们的健康状况。其次，从SHAP分析中获得的详细见解将理论上的群体水平营养转化为可操作的个性化饮食建议。通过了解特定多酚和矿物质的定向影响和相对重要性，临床医生可以指导人们采用富含抗氧化剂的饮食，以降低代谢和肿瘤疾病进展的风险。第三，当仔细验证并将可解释的机器学习模型整合到电子健康记录中时，可以自动化复杂的风险分层过程，并标记高风险患者进行早期预防性筛查。最后，这些计算结果为未来的机制研究和纵向研究提供了数据驱动的基础。与malvidin和花青素等化合物相关的显著预测信号突显了进行针对性分子研究的迫切需求，以揭示这些抗氧化剂调节胰岛素和胰岛素样生长因子轴、中和活性氧物种以及抑制系统炎症的精确机制，从而推动基于证据的循证生活方式医学的持续发展。我们的研究有几个局限性需要解决。首先，NHANES数据集缺乏时间分辨率，这阻碍了抗氧化剂摄入与共病之间的因果推断。其次，依赖于24小时饮食回忆而不进行具体的星期几调整，引入了回忆和报告偏差；因此，可能无法捕捉长期的饮食模式。未来的研究应结合食物频率问卷或基于生物标志物的评估（如血浆抗氧化剂水平），以提高准确性。在更大、更多样化的群体中进行外部验证对于确保模型的泛化能力至关重要。第三，我们的研究没有考虑影响抗氧化剂生物利用度的因素，如食物基质、烹饪方法和个体代谢，这突显了未来需要进行代谢组学分析的必要性。最后，癌症状态依赖于自我报告的问卷数据。尽管广泛的外部验证研究表明自我报告的癌症具有极高的特异性和中等至高的敏感性，但它仍然容易受到误分类的影响。因此，未来需要进行前瞻性纵向队列研究，理想情况下结合长期饮食跟踪技术、客观的代谢组学生物标志物和注册验证的肿瘤临床数据，以外部验证和细化这些预测计算模型。

5 结论
总之，我们使用LightGBM、RPART、LR、MLP、NB、K-KNN、RF和SVM-RBF开发了糖尿病-癌症共病的预测模型。在这8种算法中，RF和LightGBM在预测糖尿病-癌症共病方面表现出卓越的区分能力和准确性。SHAP值表明，年龄增长、心血管疾病、高血压和血脂异常是与共病风险正相关的最强预测因素。我们还确定了花青素和malvidin是模型中的主要抗氧化剂。作者贡献
张毅：概念化、方法论、验证、监督、资源、项目管理、写作——审阅和编辑、资金获取。金淑清：调查、可视化、资源、写作——审阅和编辑、初稿撰写、软件、数据管理。刘云峰：监督、概念化、方法论、验证、形式分析、调查、资金获取、项目管理、资源获取、撰写（包括审阅和编辑）、初稿撰写。徐明：概念化、方法论、软件使用、数据管理、调查、验证、形式分析、撰写（包括审阅和编辑）、资源获取、数据可视化。刘秦浩：方法论、调查、撰写（包括审阅和编辑）、资源获取、验证、软件使用、数据管理。魏红霞：验证、方法论、调查、撰写（包括审阅和编辑）、数据可视化。孙宇晨：调查、撰写（包括审阅和编辑）、形式分析。李茹：概念化、方法论、调查、验证、形式分析、初稿撰写、撰写（包括审阅和编辑）、数据可视化、数据管理、软件使用。李哲：调查、验证、撰写（包括审阅和编辑）、数据可视化。致谢

各位合作者感谢国家自然科学基金（项目编号：82073909）的支持。在准备本项工作时，作者使用了Gemini工具来改进语言表达。使用该工具后，作者对内容进行了必要的审阅和编辑，并对出版物的内容负全部责任。

本项工作得到了山西省中央领导地方科技发展基金项目（项目编号：YDZJSX20231A059、YDZJSX2022A059）、山西省“四批”科技创新项目（项目编号：2023XM022）以及山西省高等教育“百亿工程”科技指导项目（项目编号：BYJL-024）的支持。

本研究的伦理审查已获得国家卫生统计研究中心伦理审查委员会的批准（协议编号：2005-06、2011-17和2018-01）。

由于本研究涉及二次数据分析，因此在初次数据收集时获得的知情同意书已包含了二次使用的许可，因此无需额外征求参与者的同意。为保护参与者隐私，数据经过匿名化或去标识化处理，以防身份被泄露。有关NHANES伦理审查的更多详细信息，请访问CDC官方网站：https://www.cdc.gov/nchs/nhanes/about/erb.html?CDC_AAref_Val=https://www.cdc.gov/nchs/nhanes/irba98.htm。

作者声明没有利益冲突。

本研究的支持数据来源于以下公共领域的资源：- 国家健康与营养调查（网址：https://wwwn.cdc.gov/nchs/nhanes/tutorials/sampledesign.aspx）；- FNDDS黄酮类化合物数据库（网址：https://www.ars.usda.gov/northeast-area/beltsville-md-bhnrc/beltsville-human-nutrition-research-center/food-surveys-research-group/docs/fndds-flavonoid-database/）。

热点排行