通过一种可解释的机器学习模型实现维生素缺乏症的早期风险预测，该模型能够处理不同抽象程度的数据

《Nutrition Research》：Early Risk Prediction of Vitamin Deficiency Disorders by an Interpretable Machine Learning Model with Varying Levels of Data Abstraction

【字体：大中小】 时间：2026年06月06日 来源：Nutrition Research 3.1

编辑推荐：

　　乌马帕蒂·克里希纳莫蒂（Umapathi Krishnamoorthy）印度泰米尔纳德邦哥印拜陀市KIT-卡莱尼亚卡鲁纳尼迪理工学院（KIT-Kalaignarkarunanidhi Institute of Technology）电子与通信工程系摘要营养缺乏是一个全球

乌马帕蒂·克里希纳莫蒂（Umapathi Krishnamoorthy）

印度泰米尔纳德邦哥印拜陀市KIT-卡莱尼亚卡鲁纳尼迪理工学院（KIT-Kalaignarkarunanidhi Institute of Technology）电子与通信工程系

摘要

营养缺乏是一个全球性的健康挑战，通常在出现临床症状或生化异常之前难以被发现。及早识别出处于中度营养风险中的个体对于及时干预和疾病预防至关重要。对非生化生物标志物的详细特征影响分析和评估仍然是未解决的研究问题。本研究采用基于Light Gradient Boosting的机器学习框架，针对三个特征组制定了一个三类营养风险分类任务：(i) 在所有特征上训练的完整临床模型A；(ii) 仅在非生化特征上训练的模型B；(iii) 仅在非生化特征和症状细节上训练的模型C。基于平衡准确率、宏观F1分数和ROC-AUC的实验结果表明：(i) 模型A的准确率分别为0.9475、0.9329和0.9952；(ii) 模型B的准确率分别为0.9190、0.8845和0.9851；(iii) 模型C的准确率分别为0.9111、0.8574和0.9781。与基线机器学习模型相比，所提出的LightGBM模型表现更为优越。使用SHapley Additive Explanations (SHAP)进行的可解释AI分析支持了实验结果，表明生化标志物对于高风险分类是必要的，而非侵入性参数则有助于识别中度营养风险。该框架证明了机器学习模型可以从不同数据抽象层次预测营养风险。特别是，非侵入性模型的结果表明其适用于实验室基础设施有限的社区健康筛查任务。然而，对于远程医疗应用中的营养风险筛查，更简单的模型更为合适。

假设：我们假设可以从非生化特征预测营养风险。

引言

营养缺乏是一个全球性的公共卫生问题，可能影响所有年龄组和社会经济阶层的个体。铁、维生素B12和叶酸等必需微量营养素的缺乏可能导致贫血、免疫功能下降、肌肉骨骼无力、神经系统疾病以及认知能力下降[1]。尽管有饮食指南和补充策略，但由于识别延迟和诊断不足，营养缺乏的治疗常常受到阻碍，尤其是在低收入和中等收入环境中[2,3]。

传统的营养评估依赖于临床评估和生化检测。虽然实验室生物标志物可以提供缺乏的客观证据，但它们通常成本高昂且具有侵入性，在初级保健、社区健康项目和大规模筛查中难以获得[4,5]。此外，这些生化变化只有在长期缺乏后才会出现，这限制了它们在预后中的使用[6]。营养缺乏的影响以及传统方法无法早期预测风险的需求，促使人们寻求可扩展、非侵入性的方法来识别营养风险个体[7]。

人工智能（AI）、机器学习（ML）和深度学习（DL）技术的发展为生物医学诊断领域带来了福音[8]。与传统诊断技术相比，这些技术能够以经济、无痛且方便的方式实现数据驱动的医疗风险评估和诊断[9,10]。大多数现有方法利用眼睛和指甲图像以及临床数据来进行营养缺乏的分类[11][12][13]。然而，仍存在一些研究空白需要解决。首先，现有的基于AI的模型通常使用二元分类来预测一种或两种维生素的缺乏或非缺乏状态[13]。这种分析可以诊断缺乏情况，但无法识别营养风险的进展阶段。识别这一中间阶段（即中度风险）在临床上非常重要，因为它有助于预测营养缺乏的发展，并采取必要的措施（如及时的饮食和生活方式干预）以防止疾病进展到临床显著阶段，从而减轻长期医疗负担[14][15]。其次，大多数现有基于AI的方法依赖于实验室生物标志物、眼睛和指甲图像，这限制了它们在资源有限环境中的使用[11,12]。第三，迫切需要无需实验室评估、输入信息最少的筛查工具，以便在资源有限的环境中用于社区调查、远程医疗平台和预防性护理计划[16]。第四，目前缺乏在准确性和实用性之间取得平衡的可扩展筛查工具。在营养风险分层背景下，通过研究模型复杂性、特征可用性和预测性能之间的权衡来优化模型仍然是一个未解决的研究课题[7]。最后，尽管强烈建议将可解释AI方法与临床ML结合使用，但即使在营养风险分层方面，它们的应用也仍然有限[17,18]。这些需求表明需要一种能够预测营养风险，并提供各种因素（饮食、症状和生化因素）及其对营养缺乏影响的透明、临床可解释联系的工具[19]。

为了解决这些研究空白，本研究提出了一个基于AI的框架，该框架在三个不同的数据抽象层次上评估营养风险预测，即：(i) 包括基于生化标志物和其他所有特征的临床数据的模型预测；(ii) 不包含临床生物标志物的非侵入性患者数据；(iii) 仅基于人口统计、生活方式和饮食信息的最小公共健康数据。这使得可以明确评估各种特征对模型决策和性能的影响。本研究的目标包括：

•

开发一个基于AI的框架，将营养健康分为低、中、高三个等级进行早期营养风险分层。

•

系统地评估各种特征（生化、临床、非侵入性健康和最小饮食特征）对模型决策和性能的影响。这有助于了解在没有实验室生物标志物的情况下获取准确营养风险筛查所需特征的方法，这些方法可以在资源有限的环境中应用。

•

整合可解释AI技术，为模型预测提供透明、具有临床意义的特征重要性解释。

假设：我们假设可以从非生化特征预测营养风险。

在简要介绍了营养健康评估的重要性以及现有模型中的研究空白之后，本文的其余部分安排如下：“第2节”回顾了基于AI模型的营养风险分层领域的最新研究成果；“第3节”介绍了本研究使用的数据集和适应于营养风险分类的方法理论；“第4节”介绍了所提出的框架；“第5节”讨论了使用所提方法获得的结果；“第6节”总结了本文。

章节片段

数据集描述

本研究基于从Kaggle下载的一个匿名公开可用的结构化营养健康数据集[27]。该数据集包含人口统计特征、生活方式因素、饮食摄入量、营养缺乏症状指标、生化生物标志物以及临床标注的疾病标签。每条数据记录对应一个个体，包括（i）人口统计属性，如年龄（18-84岁）、性别（男、女）、体重指数（BMI）（15-45）、收入等

提出的方法论

所提出的营养缺乏风险预测模型的流程图如图1所示。基于ML的诊断流程从数据预处理阶段开始，该阶段去除异常值并填补缺失值。数据填补后，数据集被标记为高风险、中等风险和低风险类别，以便进行监督学习。根据生物标志物值对数据记录进行分析和分类，用于模型训练

结果与讨论

机器学习代码是用Python开发的，并在Google Colaboratory中实现和运行。输入数据集包含4000条个体记录，包括人口统计信息、生活方式、饮食摄入量、临床生化测试结果和基于症状的变量。目标类别被标记为高、中、低三个风险等级。特征被分为三组，用于模型训练和验证，具体见“表5”。然而，分析

结论与未来工作

本研究提出了一个基于AI的营养风险分层框架，用于预测营养缺乏。通过制定一个三类分类任务，该研究证明了使用非侵入性、非生化变量预测营养缺乏进展的可行性。本文的主要贡献是对特征可用性及其对模型性能影响的系统评估。完整临床模型的结果显示

CRediT作者贡献声明

乌马帕蒂·克里希纳莫蒂（Umapathi Krishnamoorthy）：概念化、研究、方法论。

摘要

引言

章节片段

相关工作

数据集描述

提出的方法论

结果与讨论

结论与未来工作

CRediT作者贡献声明

AI和AI辅助技术的声明

致谢

热点排行