《Food Chemistry: X》:Study on domestication characteristics of Xinjiang apricot germplasm based on HPLC sugar-acid identification and machine learning
编辑推荐:
针对传统杏种质分类方法(如基因测序)成本高、耗时长的问题,本研究通过高效液相色谱(HPLC)测定杏果实糖酸组分,并运用极端学习机(ELM)、支持向量机(SVM)等四种机器学习模型,成功对杏地方品种与传统栽培种进行分类,模型性能指标均>0.85。研究明确了新疆杏种质的糖酸分布特征,并筛选出草酸、酒石酸和果糖作为关键分类指标。该研究为利用生理生化指标结合机器学习高效、低成本地鉴定不同驯化阶段的杏种质资源提供了新策略。
杏,这种起源于中国的古老核果,以其独特的风味深受人们喜爱。然而,你是否想过,我们今天吃到的甜美多汁的栽培杏,与千百年前野生状态下的祖先相比,经历了怎样的风味“改造”?要回答这个问题,关键在于解析决定果实风味的核心——糖和酸的组成。在新疆,这片杏的起源中心,分布着从帕米尔高原的古老地方品种到南疆绿洲的传统栽培种等丰富的种质资源。它们就像是杏在数千年驯化历程中留下的“活化石”,记录着人类对果实风味的选择偏好。然而,传统的种质分类方法,如基因测序,虽然精确但成本高昂、过程繁琐。那么,能否找到一种更快速、更经济的“化学指纹”来区分这些不同驯化阶段的杏呢?
为了回答这个有趣又重要的问题,由塔里木大学李加龙、栾熙赟等人组成的研究团队,在郭玲和袁雨姚的指导下,开展了一项结合化学分析与人工智能的创新研究。他们试图探究新疆杏地方品种与传统栽培种在糖酸风味品质上的差异,并探索利用这些“化学指纹”结合机器学习算法,实现对不同驯化阶段杏种质的高效、准确分类。这项成果已发表在食品科学领域的期刊《Food Chemistry: X》上。
研究者们主要运用了以下几个关键技术方法:首先,他们采集了来自新疆帕米尔高原的31份杏地方品种和来自阿克苏地区的64份传统栽培种,共95份样本。其次,利用高效液相色谱(HPLC)技术,精确测定了每份样本果实中的三种可溶性糖(葡萄糖、果糖、蔗糖)和五种有机酸(苹果酸、柠檬酸、奎宁酸、草酸、酒石酸)的含量。最后,他们基于测得的糖酸数据,构建了包括极端学习机(ELM)、K-最近邻(KNN)、支持向量机(SVM)和偏最小二乘判别分析(PLS-DA)在内的四种机器学习二分类模型,并使用粒子群优化(PSO)算法进行特征筛选,以寻找区分两类杏种质的关键指标。
1. 95份杏种质资源糖酸组分的分布特征
通过对95份杏种质资源的分析,研究人员首先绘制了一张详细的“风味成分地图”。他们发现,在糖组分中,蔗糖是杏果实中最主要的可溶性糖,其含量在不同种质间差异巨大,从最低的8.12 mg/g到最高的124.7 mg/g不等。在酸组分中,苹果酸是杏果实中最主要的有机酸,这与蔷薇科果树果实的特点一致。此外,酒石酸和草酸的含量普遍较低,甚至在部分种质中未能检出,暗示它们可能在区分不同种质类型中扮演特殊角色。
2. 两种驯化杏种群糖酸组分的差异分析
对比杏地方品种与传统栽培种,研究人员发现了驯化带来的明显印记。传统栽培种的总糖含量及其最大值、最小值均显著高于地方品种,其糖酸比的分布也更加分散,这反映了人类育种对高糖、风味更佳性状的选择。而在糖酸的具体组分上,传统栽培种的蔗糖、葡萄糖含量显著高于地方品种。在有机酸方面,草酸和奎宁酸含量在传统栽培种中更高,而酒石酸含量则在地方品种中更高。值得注意的是,作为主要酸成分的苹果酸和柠檬酸,在两组间并无显著差异。
3. 两种杏种群指标间的相关性分析
相关性分析进一步揭示了驯化对杏果实内部代谢调控网络的影响。在传统栽培种中,果糖与葡萄糖、蔗糖及总糖含量均呈极显著正相关,显示出糖代谢的协同性增强。同时,苹果酸与柠檬酸之间呈现极显著的负相关。而在地方品种中,酒石酸与苹果酸、总酸含量呈正相关,暗示其在半野生条件下与三羧酸循环(TCA cycle)可能存在更紧密的关联。这些不同的相关模式,反映了人类定向选择可能重塑了杏果实糖酸代谢的协调关系。
4. 判别模型的构建与两种杏种群关键特征的筛选
研究的核心创新在于将化学数据与机器学习结合。研究人员构建的四个机器学习模型(ELM, KNN, SVM, PLS-DA)均表现出色,准确率、精确率、召回率和F1分数等性能指标均超过0.85。通过粒子群优化(PSO)算法进行特征筛选,并结合UpSetR分析,最终从11个糖酸指标中锁定了三个关键分类指标:果糖、草酸和酒石酸。
5. 基于线性判别分析(LDA)的分析
为了验证这三个关键指标的有效性,研究人员构建了简化的线性判别分析(LDA)分类器。令人惊喜的是,仅使用果糖、草酸和酒石酸这三个指标构建的模型,其分类性能(所有评价指标均超过0.90)甚至优于使用全部11个指标构建的模型。这强有力地证明,这三个含量相对较低但组间差异显著的成分,是高效区分杏地方品种与传统栽培种的“核心密码”。
综上所述,本研究系统解析了新疆重要杏驯化类群的糖酸风味品质特征,明确了驯化过程中糖(尤其是蔗糖)含量升高、部分有机酸(草酸、酒石酸)组成发生变化的趋势。更重要的是,研究创新性地提出并验证了一套“HPLC测定+机器学习建模”的杏种质快速分类鉴别新策略。该方法仅需测定果糖、草酸和酒石酸这三个关键指标,即可实现对不同驯化阶段杏种质的高效、低成本分类,其性能不亚于甚至优于使用全部常规指标。
这项研究的意义深远。首先,它从风味化学角度深化了对杏驯化过程的理解。其次,它为种质资源鉴定和育种研究提供了一种全新的、快速且经济的解决方案,尤其适用于大规模种质资源的初步筛查和分类。相较于昂贵的基因测序技术,这种基于生理生化指标结合机器学习的方法更易于在生产和科研一线推广。未来,如果能整合更多的代谢物和表型数据,该策略有望进一步优化,用于鉴别来自不同地理区域和类群的杏种质资源,为杏的遗传育种和品质改良提供强有力的工具。