《Scientific Reports》:Prioritizing neglected food species in nutritional studies using expert-knowledge and explainable AI
编辑推荐:
这项研究旨在解决如何有效优先研究那些在营养学上被忽视的物种(NUS)的难题。研究人员针对巴西的369个被忽视食物物种,整合专家知识与可解释人工智能(LightGBM和SHAP值分析),确定了影响食物成分研究与消费研究优先级的关键因素。结果表明,食谱数量与物种在各州的分布状况是预测优先级的两个最显著特征。该研究强调了文化用途与本地可获得性在塑造营养研究重点中的作用,为弥补数据缺口、将这些物种纳入可持续食品系统提供了新思路。
在全球粮食系统面临同质化、营养缺乏与生态压力的背景下,食物生物多样性(Food Biodiversity)的重要性日益凸显。它不仅是保障人类营养健康的潜在宝库,也是构建更具韧性和可持续性食品系统的基石。然而,在数以万计的可食用物种中,绝大多数都处于“被忽视”或“未被充分利用”的状态。针对这些被忽视和未被充分利用物种(Neglected and Underutilized Species, NUS)的研究面临着严峻挑战:研究资源有限,研究能力分布不均,且需要在生态保护、文化传承与公共健康等多重目标间艰难平衡。那么,在资源有限的情况下,究竟应该优先研究哪些物种?哪些因素能够有效指导这种优先排序,以确保研究投入能带来最大的科学与社会价值?为了回答这些紧迫问题,一项以巴西为模型的研究应运而生。
巴西作为一个生物多样性极为丰富的热带大国,其境内的被忽视食物物种种类繁多,是探索上述问题的绝佳样本。研究人员首先进行了一项详尽的清查工作,共识别出跨越六大类别(藻类、水生动物、野生陆生脊椎动物、昆虫、蘑菇和植物)的369个被忽视食物物种。这项清单不仅揭示了物种构成的多样性——其中以植物(占29.5%)和野生陆生脊椎动物(占24.4%)为主,也凸显了当前营养数据存在的巨大空白,尤其是在藻类、昆虫和野生脊椎动物领域。更令人印象深刻的是,研究团队从烹饪传统中挖掘出超过36,000份使用这些被忽视物种的食谱,为量化其文化嵌入性提供了宝贵数据。
面对如此庞杂的物种清单,传统的专家经验排序可能带有主观性,而纯粹的数据驱动模型又缺乏可解释性。为此,研究团队创新性地采用了一种混合方法,将领域专家的宝贵知识与前沿的可解释人工智能(Explainable AI)技术相结合。核心目标是识别出能够有效预测一个物种是否应被优先选作食物成分研究或消费研究对象的决定性特征。为了实现这一目标,研究构建了两个独立的预测模型,分别对应“食物成分研究优先级”和“消费研究优先级”这两个目标变量。模型所考虑的特征(或称因子)广泛涵盖了物种的生物学特性、生态分布、文化使用情况等多个维度,例如物种的分类群、在各州的分布记录数量、对应的食谱数量等。
在技术方法层面,研究主要应用了以下几种关键技术:首先,通过系统的文献与数据库检索,建立了巴西被忽视食物物种的详细清单与属性数据库。其次,利用网络爬虫与数据挖掘技术,从公共食谱网站大规模收集并量化了物种相关的食谱数据,作为文化使用强度的代理指标。最后,也是研究的核心,是应用机器学习中的梯度提升决策树算法(具体为LightGBM框架)来构建优先级预测模型,并进一步采用SHAP(SHapley Additive exPlanations)值分析这一可解释AI技术,来量化每个特征对于模型预测结果的影响程度与方向,从而揭示驱动优先级决策的关键因素。
被忽视食物物种清单
研究人员系统性地编制了一份包含369个物种的清单,涵盖藻类、水生动物、野生陆生脊椎动物、昆虫、蘑菇和植物。分析表明,植物和野生陆生脊椎动物构成了清单的主体。同时,研究指出在营养数据方面存在显著缺口,特别是在上述几个类群中。
被忽视食物物种的烹饪用途
通过数据挖掘,研究识别出超过36,000份使用被忽视食物物种的食谱。这一发现量化了这些物种在巴西饮食文化中的广泛存在和重要性,为后续分析提供了关键的“文化使用”量化指标。
预测食物成分研究优先级的特征
针对食物成分研究优先级的预测模型取得了较高的拟合优度(R2为0.677)。SHAP值分析显示,食谱数量和物种在巴西不同州的分布记录数量是预测一个物种是否应优先进行营养成分分析的两个最具影响力的正面特征。这意味着,一个物种在传统食谱中使用越广泛、在各地越常见,就越有可能被研究者优先考虑进行其营养成分的详细测定。
预测消费研究优先级的特征
对于消费研究优先级模型,其预测性能更优(R2达到0.782)。同样地,食谱数量和州分布记录数再次成为最具影响力的预测因子。这表明,在决定优先研究哪些物种的消费模式、可接受度及潜在健康影响时,其文化渗透度(通过食谱体现)和地理可及性仍然是核心考量。
各类别物种的优先级特征
深入不同生物类别的分析发现,对于植物而言,食谱数量是预测其消费研究优先级的唯一重要特征。对于野生脊椎动物,州分布数对食物成分研究优先级的影响最大。而对于昆虫,其优先级则与它们所属的目(生物分类单元)密切相关。
研究结论与讨论
本研究的核心结论明确指出,在资源受限的条件下,优先考虑那些已经深深融入当地饮食文化(体现为丰富的食谱)且在本地易于获取(体现为广泛的分布)的被忽视食物物种进行营养学研究,是一种高效且合理的策略。食谱数量和分布范围这两个特征,跨越了食物成分和消费研究两个不同维度,始终发挥着最关键的作用。这一发现深刻揭示了文化实践与本地可及性在无形中塑造营养学研究议程的强大力量。
此项研究的意义重大。在方法论上,它成功示范了如何将领域专家知识(用于特征选择与结果解读)与可解释人工智能(用于模型构建与因子重要性量化)相结合,为复杂环境下的研究优先级排序提供了一个透明、数据驱动且可推广的新框架。在实践层面,研究结果为巴西及其他具有丰富生物多样性的热带地区的政策制定者、研究资助机构和科学家提供了明确的行动指南:应加大对那些具有深厚文化根基和广泛可得性的被忽视物种的研究投入。最终,这项工作为推动填补关键营养数据空白、将生物多样性资源有效整合到区域和国家食品系统中、从而促进可持续膳食和全球粮食安全,奠定了坚实的科学基础。该论文已发表于《Scientific Reports》期刊。