提高海带起源预测的准确性:结合稳定同位素分析和可解释性技术的TabPFN模型,以获得更可靠的见解

《Food Chemistry》:Enhancing kelp origin prediction accuracy: A TabPFN model with stable isotope analysis and explainability techniques for robust insights

【字体: 时间:2026年02月24日 来源:Food Chemistry 9.8

编辑推荐:

  海带地理溯源基于稳定同位素比值与可解释TabPFN模型研究。通过分析C、N、O、H同位素比值及化学组成的地域差异,构建TabPFN模型实现100%预测精度,并利用LIME解释特征贡献,为食品安全溯源提供创新方法。

  
Xuming Kang|Yanfang Zhao|Zhijun Tan|Lin Yao|Yingying Guo
中国渔业科学院黄海渔业研究所;农业农村部水产品安全与质量检测与评价重点实验室,中国青岛266071

摘要

准确预测海带的产地对于有效管理和控制其质量和安全至关重要。为此,我们整合了来自不同产地的海带样本中的稳定同位素比值以及碳、氮、氧和氢的含量,并使用了一个可解释的TabPFN模型进行分析。结果表明,除了氢之外,其他变量都存在显著的地域差异。在默认配置下,TabPFN模型在2.5秒内取得了出色的性能,准确率达到100.0%(95%置信区间:87.5%–100.0%),精确度、召回率和F1分数均为100.0%,AUC值为1.000。值得注意的是,该模型的运行速度比经过调整的传统机器学习模型快了5782倍。此外,Local Interpretable Model-agnostic Explanations(LIME)工具提供了关于关键特征对预测结果影响的宝贵见解。这项工作提出了一种用于识别中国海带地理来源的稳健且创新的方法。

引言

几个世纪以来,海藻一直是全球许多沿海社区传统饮食中的重要组成部分。据估计,约有600种可食用的海藻,其中褐藻是主要类型(Jang等人,2024年)。在褐藻中,海带是栽培最广泛的种类,在东亚料理中尤为突出(Jang等人,2024年;Salido等人,2023年)。大量先前的研究表明,海带富含多种营养素和生物活性物质,包括蛋白质及其衍生的生物活性肽、多糖、维生素、酚类化合物以及必需氨基酸、矿物质和膳食纤维(Jiang等人,2018年;Matos等人,2024年;Prashant等人,2025年;Salido等人,2023年)。这些化合物的协同作用赋予了海带多种健康益处和治疗效果。特别是,实验证据证实海带具有抗炎、抑制肥胖和预防糖尿病的功效(Jang等人,2024年;Shirosaki & Koyama,2011年)。然而,海藻的消费仍面临一些与风险相关的问题。这些风险包括重金属(如铅、镉、无机砷和过量碘)的污染可能性。这些物质因其能够引发神经毒性效应并损害人体重要器官而臭名昭著(Guo等人,2023年;Swinscoe等人,2020年)。此外,抗营养元素(如单宁化合物和植酸)的存在可能会阻碍重要营养素的吸收和消化,从而对人类生理产生不利影响(Swinscoe等人,2020年)。此外,还存在病原微生物(如单核细胞增生李斯特菌)污染的风险,这对公共健康构成严重威胁(Prashant等人,2025年)。海藻的质量特性和关键风险因素受到其地理来源的显著影响。此外,具有地理标志保护(PGI)的特定海藻产品(如荣成海带和连江海带)由于追踪地理来源的技术不够先进,存在被仿冒的风险。因此,开发有效的海藻产地追溯技术对于确保产品质量和安全、保护消费者权益以及维护地理标志产品的完整性至关重要。
迄今为止,已经采用了多种分析方法来确定各种海藻的地理来源。矿物元素分析已被用于确定褐藻(Fucus vesiculosus)、红藻(Neopyropia yezoensis)和绿藻(Ulva spp.)的来源(Duarte等人,2023年;Zhao等人,2024年)。近红外光谱技术的应用有助于快速区分褐藻,特别是Sargassum fusiforme(Yang等人,2022年)。此外,高分辨率基因组工具也被用于鉴定Alaria esculenta的来源(Inaba等人,2022年)。使用稳定氮同位素(δ15N)特征可靠地验证了褐藻Undaria pinnatifida的地理来源(Hiraoka等人,2014年),而绿藻(Ulvophyceae的来源则通过稳定氢同位素(δ2H)比值有效追踪(Carvalho等人,2017年)。与其他替代方法相比,稳定同位素技术具有更高的准确性,并且所需的样本量相对较少。此外,它通常不受食品生产过程变化的影响(Camin等人,2017年)。由于这些优点,这项技术已在食品追溯领域得到广泛而有效的应用。它能够精确量化碳、氮、氢和氧等同位素的自然丰度变化。这些同位素的变化受到食品生长环境和来源材料的复杂影响(Li等人,2023年)。然而,将稳定同位素技术应用于海带来源的追踪至今仍是一个未探索的领域。因此,在本研究中,我们提出分析稳定同位素比值可能是一种确定海带来源的可靠方法。
随着人工智能的不断进步、算法的持续优化以及计算能力的显著提升,机器学习和深度学习在食品化学、食品质量和安全方面取得了显著进展,尤其是在食品追溯方面(Deng等人,2024年;Tseng等人,2023年;Yi等人,2024年)。然而,传统的机器学习和深度学习模型仍存在一些局限性。例如,它们需要复杂的数据预处理和耗时的超参数优化,并且当训练数据量较小时往往泛化能力较差。此外,这些模型通常无法为其预测提供明确的解释,这使得理解其决策背后的逻辑和检测潜在的偏差或不准确性变得复杂。对于缺乏计算和机器学习背景的研究人员来说,这些挑战尤为艰巨。幸运的是,Hollmann、Müller、Eggen-sperger和Hutter(2023年)以及Hollmann等人(2025年)引入了一种名为tabular prior data fitted network(TabPFN)的新模型。该模型有效地避免了复杂的数据预处理和漫长的超参数调整过程,同时在处理小数据集的分类任务中表现出色。此外,Local Interpretable Model-agnostic Explanations(LIME)技术通过提供强大的可解释性框架,显著提高了模型决策过程的透明度(Ribeiro等人,2016年)。
鉴于上述考虑,本研究的主要目标如下:(1)探索海带中碳(C)、氮(N)、氧(O)和氢(H)的稳定同位素比值和化学成分的地域差异;(2)介绍一种新的TabPFN模型,并重点研究其在预测海带来源方面的性能和泛化能力;(3)通过可解释性分析深入探讨TabPFN模型的决策机制。本研究有望成为准确预测食品来源的关键参考,特别是在样本数据有限或难以获取的情况下。

采样收集和预处理

2023年,中国海带产量接近178万吨。值得注意的是,福建、辽宁和山东等主要海带生产区被确定为海带质量监测的关键地点(MOAC,2024年)。为了验证样本的来源,直接从多个生产地点随机采购了干海带(Laminaria japonica)。具体来说,2024年从以下地区的企业收集了30个样本:辽宁的大连

海带中碳(C)、氮(N)、氧(O)和氢(H)的稳定同位素比值和元素组成的地理差异

为了研究海带中碳(C)、氮(N)、氧(O)和氢(H)的稳定同位素比值和元素组成的地理差异,进行了单因素方差分析(ANOVA)测试。结果表明,来自不同地区的海带样本在碳(C)、氮(N)、氧(O)、δ13C、δ15N、δ18O和δ2H的含量上存在显著差异(p < 0.05)(图2)。具体而言,荣成海带样本的平均碳含量(33.0%)显著高于大连和霞浦的样本(p < 0.05)。相比之下,平均

结论

预测海带的来源对于有效管理和控制其质量和安全具有重要意义。为此,我们对来自不同产地的海带样本中的碳(C)、氮(N)、氧(O)和氢(H)的元素组成和稳定同位素比值进行了全面分析。此外,引入了一个可解释的TabPFN模型,以提高预测过程的透明度和可靠性。结果表明,除了氢之外,其他变量都表现出显著的地域差异

CRediT作者贡献声明

Xuming Kang:撰写——初稿、可视化、软件开发、项目管理、资金筹集、正式分析、数据管理、概念构思。Yanfang Zhao:研究工作。Zhijun Tan:资金筹集。Lin Yao:资源协调。Yingying Guo:撰写——审稿与编辑、监督、项目管理、研究工作。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了国家自然科学基金(项目编号32202156)、山东省自然科学基金(项目编号ZR2022QC067)、CARS专项基金(项目编号CARS-50和CARS-49)以及中央公益性科学机构基础研究基金(项目编号2023TD76和2023TD28)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号