基于多源数据融合与机器学习的地理标志大米多尺度地理来源识别：以盘锦大米为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月24日 来源：Food Research International 8

编辑推荐：

　　地理标志认证中多技术融合溯源模型研究。以欧盟与中国双认证的盘锦大米为对象，整合稳定同位素分析（δ13C/δ15N/δ2H/δ18O）、近红外光谱（NIRS）、矿物元素谱和代谢组学技术，构建跨空间尺度（省际/省内/市级）的溯源体系。通过机器学习算法（LDA/RF/SVM/KNN）验证，省际分类准确率达88.5%，省内达100%，市级需融合矿物元素与代谢组学数据才能实现100%精准溯源，证实多源数据融合与多尺度协同是提升地理标志认证可靠性的关键策略。

王琴|卢洋洋|周长燕|李晓北|李旭娇|赵志勇|何向伟|赵晓燕|张艳梅

农业农村部农业食品标准与检测技术研究所，农产品质量安全风险评估实验室（上海），上海市农业科学院，京祁路1000号，上海201403，中华人民共和国

摘要

随着欺诈行为的增加，验证地理标志（GI）大米的来源变得越来越困难。以盘锦大米（中国和欧盟都认可的GI产品）为例，本研究开发了一个多尺度追溯模型，该模型结合了稳定同位素分析、近红外光谱（NIRS）、矿物元素分析和代谢组学以及机器学习技术。在省际层面上，基于NIRS的模型表现出优异的区分性能，经过适当的光谱预处理后，线性判别分析（LDA）的准确率达到最高（88.5%）。在辽宁省内部省域层面上，基于稳定同位素和NIRS的模型都表现优异，LDA模型的分类准确率达到了100.0%。然而，仅依靠稳定同位素分析或NIRS在盘锦市市级层面进行区分则具有挑战性。通过整合矿物元素和代谢组学数据，实现了市级层面的稳健追溯，多个分类器的准确率均达到了100.0%。这些结果强调了在不同空间尺度上实现高精度地理认证时，采用灵活的多技术、数据融合驱动策略的必要性。

引言

地理标志（GI）大米因其卓越的质量和强大的区域品牌而备受重视。然而，市场需求的增加导致了广泛的食品欺诈行为，包括错误标注和掺假，这严重损害了GI产品的信誉和消费者的信任（Wadood等人，2022年）。盘锦大米是中国东北部的一个代表性GI产品，得到了中国和欧盟的认可，以其独特的口感和营养价值而闻名，这些特点是由其独特的土壤和气候条件塑造的。然而，其高经济价值使其特别容易受到原产地欺诈的影响，因此迫切需要稳健可靠的追溯方法。

来自不同地理来源的农产品表现出不同的稳定同位素比率、矿物元素组成和代谢物组成，这主要是由于土壤成分、灌溉水源和气候条件的差异，这些差异为地理来源的追溯提供了科学依据（Wadood等人，2022年）。因此，人们广泛使用稳定同位素分析、近红外光谱（NIRS）、矿物元素分析和代谢组学来鉴定大米的来源，通常还会结合化学计量方法。稳定同位素如δ¹³C和δ¹⁵N因其环境敏感性而被频繁使用；例如，δ¹³C、δ¹⁵N、δ²H和δ¹⁸O的联合使用对巴基斯坦巴斯马蒂大米的分类准确率达到了约70%（Wadood等人，2024年），而基于同位素的区分在中国各省之间的准确率超过了85%（Wang等人，2020年）。同样，由于其快速且无损的特性，NIRS也被广泛用于大米来源的追踪，在泰国Khao Dawk Mali大米的分类准确率达到了65%–100%（Lapcharoensuk & Moul，2024年）。在中国，NIRS结合优化后的偏最小二乘判别分析（PLS-DA）和学习向量量化神经网络（LVQNN）模型成功区分了松江和崇明大米与其他地区的大米（Liu等人，2022年）。矿物元素分析反映了大米的环境特征，Cd、Rb、Mg和K等元素能够以超过90%的预测准确率区分巴西中部和西部的大米（Maione等人，2016年）。同样，元素和同位素变量（如Mn、Rb、Co、Mo和δ¹⁸O）与线性判别分析相结合，有效区分了在不同省份种植的泰国Hom Mali大米（Kongsri等人，2021年）。此外，代谢组学捕捉了与地理来源相关的生化变化，挥发性代谢组学通过区域特定的香气化合物实现了国家、省份和大米品种之间的区分（Ch等人，2021年；Sirilertpanich等人，2024年；Wang等人，2025年）。基于液相色谱-质谱（LC-MS）的非靶向代谢组学进一步显示了中国省级大米鉴定的高区分性能（Li、Tan等人，2022年）。

此外，多种分析技术的整合代表了一种增强的食品地理认证策略，因为它结合了来自互补来源的数据，通常比单一方法具有更好的性能（Borràs等人，2015年；Callao & Ruisánchez，2018年）。例如，多项研究表明，稳定同位素比率和矿物元素含量的结合提供了多维变量，提高了来源区分模型的性能（Chung等人，2018年；Kukusamude等人，2023年；Li、Nie等人，2022年；Liu等人，2019年）。此外，多技术方法，如傅里叶变换近红外（FT-NIR）与顶空气相色谱-离子迁移谱（HS-GC-IMS）或气相色谱-质谱（GC–MS）与NIR的结合，在区域来源区分任务中的分类准确率超过了90%（Thantar等人，2024年；Van De Steene等人，2023年）。由于高通量技术生成的多源分析数据往往是高维和复杂的，数据融合已成为整合来自多个来源的互补信息的关键策略。这种整合显著提高了食品真实性和追溯模型的可靠性和准确性，相比单一方法更为有效（Borràs等人，2015年）。常用的融合策略，如低级（原始数据合并）和中级（特征整合），已成功应用于各种食品基质中的地理区分（Callao & Ruisánchez，2018年；Squara等人，2024年；Thantar等人，2024年；Van De Steene等人，2023年）。多源数据的整合增加了数据集的复杂性，从而促进了机器学习算法在建模中的更广泛应用。与传统统计方法相比，机器学习方法在捕捉多源数据中的非线性关系和复杂模式方面更为有效（Li、Qian等人，2025年）。目前，随机森林（RF）、支持向量机（SVM）和k近邻（KNN）等算法已被广泛用于预测大米的地理来源。五种机器学习算法被用于分析NIRS数据以进行来源识别，实现了100%的模型准确率（Lapcharoensuk & Moul，2024年）。此外，结合稳定同位素和元素数据的反向传播神经网络（BPNN）模型在区分中国不同地区的水稻时实现了高准确率（97.2%）（Li、Nie等人，2022年）。

然而，大多数关于大米来源追踪的研究仅限于单一分析技术或有限的地理尺度。目前还缺乏对多尺度追溯模型（省际、省域和市级）的系统性研究，以及多源数据融合技术的应用也较为有限。为了解决这些限制，本研究以盘锦大米（中国和欧盟双重认可的GI大米）为研究对象，通过整合稳定同位素分析、NIRS、矿物元素分析和代谢组学技术建立了一个多维度追溯模型。具体来说，首先在省际和省域层面上应用稳定同位素分析和NIRS来区分盘锦大米与其他中国省份以及辽宁省内其他水稻种植区的大米。在盘锦市更细的市级层面上，通过进一步整合矿物元素和代谢组学数据，采用了更全面的分析框架，以捕捉大洼区和盘山县之间的细微区域差异。多种机器学习算法，包括LDA、RF、SVM和KNN，被用于构建不同空间尺度上的来源区分模型，并应用了多技术数据融合策略来提高追溯性能。这项工作为GI大米的高精度地理认证提供了全面的参考，并支持数据融合策略在食品追溯中的应用。

样本收集与制备

在这项研究中，2023年10月至12月期间从中国各地收集了94个GI粳米样本。在省际层面上，样本主要来自盘锦市（PJ，n = 24）、黑龙江省（HLJ，n = 15）、吉林省（JL，n = 20）、上海市（SH，n = 15）和江苏省（JS，n = 10）。在省域内部，样本来自辽宁省的盘锦市（PJ，n = 24）和其他城市

不同来源大米的稳定同位素特征

如图2a所示，大米中的δ¹³C、δ¹⁵N、δ²H和δ¹⁸O值在不同省份之间存在显著差异。所有样本的δ¹³C值范围为?28.82‰至?25.97‰。盘锦大米的δ¹³C值显著高于江苏和上海的大米，这可能是由于区域气候差异所致。盘锦较凉爽的温度可能导致粳米在生长过程中的气孔导度降低，从而减少了光合作用中的碳同位素分馏

结论

本研究通过整合稳定同位素比率（δ¹³C、δ¹⁵N、δ²H和δ¹⁸O）、NIRS、矿物元素特征和代谢组学特征以及机器学习模型（LDA、RF、SVM和KNN），开发了一个多源、多尺度的盘锦大米地理来源追溯框架。在三个空间尺度上系统评估了追溯模型：五个省份之间的省际区分、辽宁省内的省域区分以及市级区分

CRediT作者贡献声明

王琴：撰写——原始草稿，验证，数据管理，概念化。卢洋洋：撰写——原始草稿，方法论。周长燕：验证。李晓北：方法论。李旭娇：数据管理。赵志勇：验证。何向伟：正式分析。赵晓燕：撰写——审阅与编辑，监督。张艳梅：撰写——审阅与编辑，监督，资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家重点研发计划（2022YFF0606800）的资助。

联系信箱：

粤ICP备09063491号

摘要

引言

样本收集与制备

不同来源大米的稳定同位素特征

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行