《Journal of Pharmaceutical and Biomedical Analysis》:A progressive screening strategy by combining UHPLC-QTOF-MS and machine learning for distinguishing different varieties of Citri Reticulatae Pericarpium
编辑推荐:
柑橘类药材品种鉴别基于UHPLC-QTOF-MS非靶向代谢组学,结合化学计量学与机器学习,系统筛选出46个通用差异代谢物及10个特异性代谢物(含nobiletin),揭示品种间表观遗传调控机制对黄酮类物质积累的影响,为药材质量控制提供新方法。
作者名单:胡德芳|钟敏勇|裴泽荣|郑璐璐|罗江南|蒋清香|陈旭欣|曹秋芳|林龙飞|邹文树|邓文文|李慧
江西省中医药大学学术工作站,南昌,330004,中国
摘要
本研究采用基于UHPLC-QTOF-MS的靶向代谢组学方法,并结合化学计量学和机器学习技术,用于区分柑橘网纹皮(Citri Reticulatae Pericarpium,简称CRP)的不同品种。为了更精确地识别每对品种之间的特异性标志物,采用了一种逐步筛选策略。首先,通过主成分分析(PCA)和偏最小二乘判别分析(PLS-DA)筛选出46个在四个品种中普遍存在的差异代谢物。随后,对这46个差异代谢物进行成对正交偏最小二乘判别分析(OPLS-DA),以帮助检测特定的差异代谢物。LC-MS分析共鉴定出268种代谢物。PCA显示四个CRP品种之间存在显著的代谢差异,而PLS-DA筛选出46个普遍存在的差异代谢物(VIP > 1)。基于这46个代谢物构建的9个机器学习判别模型表现出优异的性能(准确率等超过0.9461),并能以100%的识别率区分不同品种的CRP样本。进一步地,基于这些普遍差异代谢物的成对OPLS-DA分析筛选出10个特定的差异代谢物(VIP > 1),其中包括5-O-去甲基诺比利汀(5-O-demethylnobiletin)。值得注意的是,诺比利汀能够区分符合药典标准的CRP品种和不符合药典标准的CRP品种。最后,通过综合分析将这些发现与其生物学意义联系起来,将CRP品种间黄酮类化合物的积累差异归因于遗传背景依赖的甲基化和糖基化过程所驱动的分子进化机制。本研究展示了基于UHPLC-QTOF-MS的靶向代谢组学在区分CRP品种方面的巨大潜力,为市场质量控制和临床实践提供了有用的参考。
引言
柑橘网纹皮(CRP)学名为Citrus reticulata Blanco及其栽培品种的干燥成熟果皮,在中国通常被称为CRP[1]。CRP在中国已有数千年的使用历史,因其兼具药用和食品成分的双重作用而备受重视[2]。从化学角度来看,CRP包含多种生物活性化合物,如黄酮类、挥发油、生物碱、多糖等[3]。在临床和日常保健中,CRP被广泛用于治疗呼吸系统和消化系统疾病,因其具有调节气血流动、健脾化痰、止咳等健康促进作用[1]。现代药理学研究表明,CRP具有抗氧化、抗炎作用,并能影响胃肠道运动[4]。此外,CRP还作为一种多功能食品添加剂,被广泛应用于蛋糕和饮料等产品中,有助于促进消化和提升风味[5]。经济数据显示,在广东省新会市——该地区的主要栽培区——每年对CRP的大规模栽培投资达8.9亿元人民币,预计到2024年全产业链产值将达到260亿元人民币[6]。
目前市场上有许多CRP品种,包括广东省的“新会陈皮”(C. reticulata Blanco cv 'Chachi')、四川省的“大红袍”(C. reticulata Blanco cv 'Dahongpao')、江西省的“张头红”(C. reticulata Blanco cv 'Zhangshuensi')等。这些CRP品种的活性成分和整体质量存在显著差异,这主要是由于地理来源、生长条件和栽培方式的不同所致,进而影响了它们的市场价格。例如,符合药典标准的“大红袍”和“温州蜜柑”品种含有最高水平的总黄酮类化合物,因此其产品质量更高,价格也更高[7]。相比之下,“ Ponkan”因其高糖分和浓郁香气而受到消费者青睐,但来自PG品种的CRP质量较低[8]。目前,四种CRP品种——“新会陈皮”(C. reticulata Blanco cv 'Chachi')、“大红袍”(C. reticulata Blanco cv 'Dahongpao')、“柑橘”(C. reticulata Blanco cv 'Tangerina’)和“温州蜜柑”(C. reticulata Blanco cv 'Unshiu')已被纳入《中国药典》(2025年版),这得益于它们成熟的种植技术和丰富的活性成分。然而,这些品种与其他品种在形态上的相似性使得视觉识别变得困难,从而导致市场上掺假和低质量产品的泛滥。因此,基于活性成分的质量评估对于区分CRP品种和确保市场稳定至关重要。
目前,CRP的质量评估主要依据《中国药典》(2025年版)规定的方法,使用 hesperidin、nobiletin 和 tangeretin 作为质量控制指标。然而,这三个指标无法充分反映CRP的整体质量或区分不同品种,因为它们的化学组成非常复杂。Mao等人通过超临界流体色谱法鉴定出8个常见峰,利用化学模式识别建立了新会陈皮等样品的质量评估模型,并筛选出两个差异代谢物[9];Zhong等人基于多糖指纹图谱鉴定出10个常见峰,利用机器学习开发了区分新会CRP和大红袍CRP的模型,并选出了4个差异代谢物[10]。然而,这些研究都仅关注单一成分类别(黄酮类或多糖类),未能全面反映CRP的代谢特征或整体质量。
准确识别CRP品种是确保药材质量和临床疗效的关键。近年来,光谱技术(如近红外光谱和拉曼光谱)因快速性和无损性而被广泛用于品种鉴定;视觉检查也因其直观性和低成本而适用于现场初步筛选[11]。然而,光谱方法难以分析化学成分的差异,对品种特征的代谢解释能力有限[12]。视觉检查具有高度主观性,难以定量识别特定标志物。因此,开发一种能够从化学成分层面系统分析品种差异、兼具高特异性和可解释性的鉴定方法具有重要的科学价值和实际意义。
代谢组学是一门整合分析和统计技术的系统学科,通过定性和定量分析在整体层面揭示内外因素对生物体内代谢物的综合影响。Pimenta等人利用基于UHPLC-HRMS技术的非靶向代谢组学方法成功区分了来自巴西四个地区的咖啡豆[13]。因此,尤其是非靶向形式的代谢组学能够检测和分析更多的代谢物,有助于区分CRP品种。
机器学习(ML)作为人工智能的核心分支,通过自动从数据中提取和学习特征来执行复杂的预测、分类和决策任务,从而逐步优化算法模型。由于其精确性和高效性,ML技术现已广泛应用于质量控制、品种鉴定和地理溯源等领域[14]。例如,Wei等人利用融合的形态学和光谱特征准确区分了15种生菜品种,LDA模型的平均分类准确率为92.7%,批量验证的准确率为93.2%[15]。
尽管已有关于CRP的代谢组学研究,但大多数现有研究主要集中在单一点或成对比较上,缺乏系统识别多个位点常见变异的特异性标志物的综合方法。本研究采用基于UHPLC-QTOF-MS的非靶向代谢组学方法系统表征CRP中的小分子代谢物,并开发了一种新的逐步筛选策略,利用化学计量学方法(PCA和PLS-DA)和ML筛选区分品种的普遍代谢物。构建并验证了ML模型,以便基于这些差异代谢物快速识别CRP样本。随后,基于这些普遍差异代谢物构建了成对OPLS-DA模型,以更准确地识别每对品种之间的特定差异代谢物。最后,通过结合化学结构分类和生物合成途径映射分析了这些代谢物的生物学意义。这种策略为中国草药的质量评估提供了一种新方法,并为CRP资源的全面开发和利用提供了宝贵见解。详细的分析工作流程见图1。
材料
共收集了74批CRP样本,代表四个品种,分别来自四川、浙江、广东和江西四个省份,包括“大红袍”(C. reticulata Blanco cv 'Dahongpao',n=19)、“ Ponkan”(C. reticulata Blanco cv 'Ponkan',n=18)、“新会陈皮”(C. reticulata Blanco cv 'Chachi',n=18)和“张头红”(C. reticulata Blanco cv 'Zhangshuensi',n=19)。CRP的详细信息见表S1。所有CRP样本均由王晔博士(中国 Academy of...)进行了鉴定。
CRP的代谢谱
本研究采用基于UHPLC-QTOF-MS的靶向代谢组学方法获取和分析CRP样本的代谢物数据。如图S1所示,正离子模式和负离子模式分别检测到7095个和7273个特征。随后使用MS-FINDER软件将正负模式数据与化学成分数据库进行匹配。通过Peakview根据保留时间和相应信息确定每个化合物的分子量。
结论
本研究结合化学计量学和机器学习技术,开发了一种新的逐步筛选策略,用于区分不同CRP品种中的普遍差异代谢物。共鉴定出268种代谢物,包括多甲氧基黄酮(63种)、黄酮类(59种)、有机酸(39种)、二氢黄酮(27种)、香豆素(19种)、柠檬oids(7种)和生物碱(1种)。
作者贡献声明
蒋清香: 数据整理。
郑璐璐: 软件开发、数据整理。
罗江南: 文章撰写、审稿与编辑。
钟敏勇: 可视化、方法学设计、实验研究、数据整理。
裴泽荣: 实验研究、数据整理。
邓文文: 文章撰写、审稿与编辑、资源管理、项目统筹、概念构思。
李慧: 文章撰写、审稿与编辑、项目统筹、资金争取、概念构思。
胡德芳: 初稿撰写、可视化、软件开发。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
我们感谢江西省重点研发计划项目(20224BBG72001, S2023ZPYFB0261)、江西省自然科学基金(20232BAB216138)、江西省重大科学技术研究开发项目(20223AAF01007)、国家自然科学基金(编号82560853)、江西省中医药科学技术计划项目(2023B1284)以及人才引进科学研究基金(QD-2024002B)的支持。