《Journal of Food Composition and Analysis》:Environmental Suitability-Driven Metabolomics and Machine Learning Study on Origin Variation and Traceability of Gastrodia elata Blume
编辑推荐:
本研究利用最大熵(Maximum Entropy, MaxEnt)模型构建物种分布模型(Species Distribution Model, SDM),识别天麻(Gastrodia elata Blume, GEB)的适宜生境,并在此基础上对这些生境进行非靶
本研究利用最大熵(Maximum Entropy, MaxEnt)模型构建物种分布模型(Species Distribution Model, SDM),识别天麻(Gastrodia elata Blume, GEB)的适宜生境,并在此基础上对这些生境进行非靶向代谢组学(untargeted metabolomics)表征,以阐明空间代谢变异规律。此外,研究人员开发了基于衰减全反射-傅里叶变换红外光谱(attenuated total reflectance-Fourier transform infrared spectroscopy, ATR-FTIR)并结合机器学习模型的产地溯源方法。结果表明,天麻主要栖息于中国西南部,受bio12(年降水量)、bio09(最干季均温)和bio02(昼夜平均温差)驱动,海拔范围为197–3,756 m。MaxEnt模型表现出高可靠性(AUC > 0.9)。天麻素(gastrodin)和巴利森苷类(parishins A、B、C)在昭通(ZT)产区占主导,而对羟基苯甲醇(p-hydroxybenzyl alcohol, HBA)、巴利森苷E(parishin E, PE)及总巴利森苷在大方(DF)产区显著更高。[6]-姜烯酚([6]-shogaol)、1-O-芥子酰-β-D-葡萄糖(1-O-sinapoyl-β-D-glucose)和毛兰素(erianin)可作为区分ZT与其他产区的潜在标志物。数据驱动的软独立建模分析类类比(Data-Driven Soft Independent Modeling of Class Analogy, DD-SIMCA)模型在ZT区分方面实现了完美分类(PC = 4)。此外,基于ATR-FTIR同步二维相关光谱(two-dimensional correlation spectroscopy, 2DCOS)图像的残差网络(Residual Network, ResNet)模型在多产地判别中达到100%的准确率,显示出天麻溯源的良好应用前景。然而,扩大外部验证集仍有待进一步验证。总体而言,该综合框架为这一珍贵药用资源的可持续管理、生态保护及质量控制提供了科学依据。
本研究发表于《Journal of Food Composition and Analysis》,旨在建立天麻产地溯源与质量评价的多维框架。天麻为兰科植物天麻的干燥块茎,在中国属于药食两用资源,其主要活性成分包括酚类化合物、有机酸、糖类及甾醇等,其中天麻素(GAS)、对羟基苯甲醇(HBA)和巴利森苷类(parishins)是其发挥药理作用的关键活性物质,具有镇静催眠、抗抑郁、神经保护、抗氧化及胃肠保护等功效。然而,天麻作为国家二级保护植物,野生资源因人类活动及生境破坏而趋于枯竭,市场主要以栽培品为主。由于不同产区的温度、湿度、海拔等生长条件差异显著,导致其活性成分含量参差不齐,加之"药食同源"理念推动下市场需求激增,经济利益驱动下天麻产地混乱问题突出,严重制约了产业稳定发展和药用价值充分发挥。因此,预测适生区、研究不同生境的组分差异并实施产地溯源控制,对推进天麻产业发展至关重要。
物种分布模型(SDM)中应用最广泛的最大熵模型(MaxEnt)具有仅需已知分布点即可建模、抗噪性强、能有效处理小样本数据等优势。既往研究已将MaxEnt模型用于动植物资源潜在分布预测及气候对植物生态分布影响的评估。尽管高适生环境有助于提升药材品质,但区域间气候差异会影响植物的代谢积累,因此比较不同高适生区样品的成分差异、分析气候效应对组分积累的影响变异,对天麻科学栽培具有重要指导价值。代谢组学可捕获植物在不同环境条件下的生理响应,识别关键代谢标志物,已广泛应用于植物组分鉴定。然而,代谢组学虽能深入解析代谢物种类,却难以区分地理来源。随着人工智能发展,机器学习(machine learning)作为能够自主学习和改进的独立学科,已广泛应用于预测分析、自动化系统及实时优化等领域。傅里叶变换红外光谱(FTIR)作为一种有前景的光谱技术,与化学计量学结合可提供具有可解释性的结果;而将光谱图像处理与机器学习相结合,则为中药材掺假检测、物种鉴定、产地溯源及含量预测等提供了快速高效的分类方法。基于上述背景,本研究提出以下科学问题:(1)哪些关键环境因子驱动天麻生境适宜性?(2)生态差异如何影响天麻主要活性成分?(3)差异代谢物能否作为有效的产地鉴别标志?研究人员假设温度、降水和海拔主要决定天麻生境适宜性;主要活性成分含量随生态区变异并与环境因子相关;特定区域的代谢组学特征可形成可靠的产地标志指纹。
为验证假设,研究人员首先利用MaxEnt模型筛选环境因子并构建基于地理信息系统(GIS)的适宜性图谱;随后对高适生区样品进行高效液相色谱(HPLC)活性成分分析和超高效液相色谱-串联质谱(UPLC-MS/MS)差异代谢物分析;最终结合光谱分析与机器学习开发产地溯源模型,建立天麻"环境-化学-成像"多维质量评价体系。
本研究用到以下关键技术方法:采用MaxEnt模型(版本3.4.4)结合19个生物气候变量和海拔数据进行物种分布建模,通过刀切法(Jackknife)识别显著环境变量,以ROC曲线下面积(AUC)、遗漏率、敏感度和特异度评估模型性能;利用ArcGIS software进行空间分析和适宜性分级。样品来自云南昭通(ZT)、贵州大方(DF)、四川乐山(LS)和湖北五峰(WF)四个产区的天麻,其中240份样品用于产地溯源鉴定(每产地60份),定量分析采用混合样品,代谢组学分析每产地随机选取5个生物学重复。化学成分定量采用岛津HPLC系统,代谢组学分析采用UPLC-ESI-Q-TRAP-MS/MS系统,数据处理采用Analyst 1.6.3软件和Metware Cloud平台。光谱分析采用Antaris II ATR-FTIR光谱仪(4000–400 cm
-1,分辨率8 cm
-1,64次扫描),预处理包括Savitzky-Golay平滑、多元散射校正(MSC)、标准正态变量变换(SNV)、一阶导数(1st)、二阶导数(2nd)及其组合;模型构建包括主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)、DD-SIMCA模型,以及基于Python和Anaconda构建的ResNet深度卷积神经网络模型,输入数据为ATR-FTIR同步2DCOS图像,模型划分60%训练集、30%测试集和10%外部验证集,以精确率、召回率、F1分数和马修斯相关系数(MCC)评估模型稳健性。
研究结果部分:
MaxEnt模型分析:模拟结果与精度评价方面,经相关性分析剔除相关系数>0.8的变量后,保留8个变量进行正式建模。训练集AUC均值为0.965±0.002,测试集为0.959±0.004,表明模型具有高预测精度和强一致性,10折交叉验证保持了预测性能。主导环境变量因子分析显示,年降水量(bio12)、最干季均温(bio09)、昼夜平均温差(bio02)和海拔(ele)为最具影响力的变量,置换重要度分别为10.9%、21.6%、17.1%和9.7%;水文因素(bio12、bio09、bio15)贡献64.3%的变异,热相关因素(bio02、bio04、bio03、bio10)贡献19.8%,海拔因素贡献16.0%。环境因子响应曲线表明,天麻分布适宜性与各环境因子呈先增后降关系,最适峰值分别为:bio12 927 mm(适宜性指数0.8521)、bio09 2.3°C(0.8811)、bio02 8.5°C(0.8763)、海拔1926 m(0.8977),超过阈值后适宜性快速下降。
适宜生境分布方面,当代气候下天麻潜在适生区总面积为70.15×10
4 km
2(95% CI: 64.49–75.81×10
4 km
2),占研究区总面积7.33%。其中低适生区34.06×10
4 km
2(48.55%)、中适生区16.79×10
4 km
2(23.93%)、高适生区19.31×10
4 km
2(27.52%)。分布范围涵盖云南、贵州、四川、重庆、湖北、安徽(南部)、甘肃、陕西(北部)及西藏(高原区)。高适生区主要集中在云南昭通市、贵州毕节市和湖北五峰县。垂直分布上,天麻适生海拔跨度197–3756 m,峰值适宜性出现在1926 m(HSI=0.90);高适生区海拔1073–2725 m(均值1914 m),中适生区926–1065 m和2732–3151 m,低适生区197–352 m和3159–3756 m,低于197 m和高于3756 m为不适生区。
多酚类化合物定量分析与非靶向代谢组学方面,HPLC定量结果显示不同产区天麻主要活性成分含量存在显著差异(p < 0.05,Duncan检验)。ZT样品的天麻素(2.34 mg/g)、巴利森苷A(0.51 mg/g)、B(0.32 mg/g)、C(0.18 mg/g)显著高于其他产区;DF样品的HBA(2.30 mg/g)、PE(4.20 mg/g)和总巴利森苷(4.73 mg/g)突出;LS与WF样品间无显著差异。非靶向代谢组学共检测到810个代谢物,黄酮类占46.0%(373个)、酚酸类38.5%(312个)、木脂素和香豆素类10.7%(87个)。PCA得分图显示四产区样品形成四个 distinct 聚类,PC1和PC2分别解释30.20%和23.11%的方差;OPLS-DA模型Q
2=0.966、R
2Y=0.978,200次置换检验后Q
2=0.990、R
2Y=0.997(p < 0.005)。差异代谢物筛选显示:ZT_vs_LS鉴定318个(220上调,98下调)、ZT_vs_DF鉴定278个(132上调,146下调)、ZT_vs_WF鉴定291个(200上调,91下调)。Venn分析揭示四产区共有590个共同差异代谢物,ZT产区具有独特差异代谢物:与LS比较为Ladanetin-6-O-β-D-glucoside;与DF比较为[6]-shogaol、1-O-sinapoyl-β-D-glucose和Quercetin-3-O-α-rhamnosyl(1→2)-[α-rhamnosyl(1→6)]-β-glucoside;与WF比较为O-Feruloyl 3-hydroxycoumarin、Erianin、Feruloyltartaric acid、Syringaresinol-4'-O-(6''-acetyl)glucoside和Methyl 3-(3-hydroxy-4-methoxyphenyl)propanoate,可作为区分ZT与其他产区的潜在标志物。
光谱分析方面,一维光谱显示不同产区样品光谱特征相似但吸收强度存在显著差异。3500–2800 cm
-1功能团区3285 cm
-1处强而宽的吸收峰归于酚类化合物O-H伸缩振动或矿物结合水氢键,2926 cm
-1峰可能源于N-H吸收或C-H不对称伸缩振动;1629 cm
-1峰来自C=C芳环伸缩和C=O伸缩振动;1408 cm
-1和1380 cm
-1峰指示甲基C-H弯曲振动;1240 cm
-1峰代表醚基典型特征;998 cm
-1强峰对应糖和苷类C=C伸缩及C-O弯曲振动。通过与天麻素、对羟基苯甲醇和巴利森苷E标准品光谱对比,确定了对应主要活性成分的特征峰。二维相关光谱(2DCOS)较一维光谱更能有效检测产区差异,ZT产区在3500–3000 cm
-1范围O-H基团的正相关自相关峰显著区别于其他产区,(1380, 3285) cm
-1交叉峰表明C-H与O-H功能团间存在强协同效应。
模型构建与验证方面,PCA无监督模型PC1解释81.3%方差,PC2解释17.6%,但四产区聚类紧密,未能有效分类。PLS-DA模型中,未经预处理数据虽训练集和预测集准确率较高,但存在过拟合;MSC、SNV等预处理方法降低了潜在变量数但准确率下降且Q
2<0.5;SG、1st、2nd、SG+1st、SG+2nd等预处理方法提升了准确率,尤以2nd预处理效果最优(R
2>0.5、Q
2>0.5、R
2X与Q
2差值<0.3),训练集准确率98.81%、测试集91.67%,精确率、召回率、F1分数和MCC均≥0.85。DD-SIMCA模型针对ZT地理标志保护需求,将240份样品分为目标类(ZT,42训练+18测试)和非目标类(LS、DF、WF共180验证);参数α设为0.01(置信度99.90%),当PC=4且经2nd预处理时,训练集、测试集和外部验证集均达到100%正确分类,极端值图显示训练集无异常值。ResNet模型基于同步2DCOS图像,权重衰减系数λ=0.0001、学习率0.01,在第23和18个epoch时训练集和测试集准确率达到100%,损失值分别稳定于0.04和0.11,外部验证集各项评估指标均达1.00。
讨论部分总结:研究人员强调,与传统仅关注土壤因子的研究不同,本研究突出了气候变量在天麻分布中的驱动作用。bio12、bio09和bio02累积贡献率达79.10%,与李等报道的降水、海拔和温度共同影响天麻生长的结论一致。生态条件对药用植物生长、产量和品质至关重要,而气候因素与海拔密切相关,过高或过低海拔均会改变降水和温度等环境因子。需要指出的是,模型推导的环境阈值存在固有限制,应视为近似范围而非精确值,且气候数据和物种分布记录的不确定性也限制了阈值的精确性;此外,公共数据库未收录或野外调查未识别的分布点可能导致预测存在不确定性,普适性有待加强。
植物药理学很大程度上基于特化代谢物(specialized metabolites)。天麻主要化学成分含量在不同产区差异显著,尤以ZT产区天麻素含量突出,反映了该产区样品的独特品质特征,这与海拔和地理位置密切相关。ZT与其他产区的特征差异代谢物如[6]-shogaol、1-O-sinapoyl-β-D-glucose和erianin可作为区分产区的重要标志化合物,其中1-O-sinapoyl-β-D-glucose已被确认为黄酮生物合成的必需代谢物,再次凸显产地差异对代谢物积累的影响。这些关键标志化合物的价值有待深入研究。
尽管一维和二维光谱图可基于峰波数识别潜在化合物,但在区分不同地理来源样品方面仍存在局限。本研究采用机器学习建立产地分类模型:无监督PCA模型分类性能不足;PLS-DA结合二阶导数预处理显著提高了分类准确率,虽未达100%但已展现良好区分潜力。DD-SIMCA模型在二阶导数预处理和4个主成分下对ZT产天麻实现100%准确分类,但作为一类模型仅能进行二元分类,多产地判别存在局限。基于ATR-FTIR光谱数据构建2DCOS图像的ResNet模型实现了多产地分类,训练集和测试集准确率均达100%;然受限于样本量较小且外部验证集仅占10%,可能不足以全面评估泛化能力,需扩大外部数据集进一步验证模型的普适性。
研究结论部分翻译:本研究通过独特地协同地理空间建模(MaxEnt)、代谢组学化学指纹、光谱化学计量学(DD-SIMCA)和深度学习(ResNet),为天麻的产地溯源和质量评价建立了新颖的综合框架。研究结果识别出ZT、DF等为高适生栽培区,bio12、bio09和bio02成为天麻生长的主要环境驱动因子。化学层面上,ZT产区样品表现出显著更高的天麻素和巴利森苷(A、B、C)水平,而DF产区样品则以更高浓度的HBA、PE和总巴利森苷为特征。值得注意的是,[6]-shogaol、1-O-sinapoyl-β-D-glucose和erianin可作为区分ZT产区与其他产区的潜在标志物,有待进一步验证。在预测性能方面,DD-SIMCA模型在二阶导数预处理和4个主成分条件下对ZT产天麻实现100%分类准确率,而基于ATR-FTIR光谱数据的ResNet模型在多产地溯源中表现出稳健性。总体而言,该工作提出了连接环境数据库、野外调查、化学指纹和机器学习的综合策略,为天麻的优化栽培规划、质量控制和真伪鉴别提供了科学依据。