多光谱(NIR-FTIR-RS)数据融合与化学计量学实现人参年龄快速可靠分类

《LWT》:Fast, Reliable Panax ginseng Age Classification via Multispectral NIR-FTIR-RS Data Fusion and Chemometrics

【字体: 时间:2026年03月16日 来源:LWT 6.0

编辑推荐:

  为解决人参因生长年龄差异导致品质不一,传统鉴定方法存在主观性或鉴别力有限的问题,研究人员整合了近红外(NIR)、傅里叶变换红外(FTIR)和拉曼(RS)光谱,结合化学计量学模型,开展了人参年龄快速鉴别研究。结果表明,多光谱数据融合模型在区分1-5年人参龄期(最佳模型F1得分0.87)和判别药用(4-5年)与非药用(1-3年)人参(最佳模型F1得分0.99)方面表现出色,为实现人参质量绿色、高效评估提供了有前景的方法。

  
人参,被誉为“百草之王”,是食药同源的珍贵草本植物,千百年来在传统医学中扮演着重要角色。其增强活力、调节免疫等药理功效备受推崇,全球年产量巨大。然而,人参的品质和价值并非一成不变,而是与其生长年龄息息相关。就像陈年老酒,人参中的活性成分——人参皂苷,需要时间慢慢累积沉淀。研究表明,生长不足四年的“年轻”人参,其化学成分尚不成熟,药效也大打折扣,通常被认为不具备合格的药用价值。这便催生了一个令人头疼的市场乱象:一些不法商家为了牟利,用低成本的年轻人参冒充高价、药效足的4-5年“成年”人参。这不仅扰乱了公平的市场秩序,更可能让消费者花了大价钱却买到无效的产品,甚至耽误健康。因此,准确、快速地对人参进行“年龄鉴定”,成为保障其品质、维护市场公正和保护消费者权益的关键。
传统上,鉴别人参年龄主要依靠经验丰富的药工“看、摸、闻”,这种方法主观性强,且难以精准区分年龄。而像高效液相色谱这样的化学分析方法虽然准确,但过程繁琐、耗时长,通常还需要破坏样品,难以满足快速、大批量检测的市场需求。有没有一种方法,能像超市扫码一样,快速、无损地“扫”出人参的真实“年龄”呢?
为解决这一难题,一篇发表在《LWT》期刊上的研究提出了一种创新的解决方案。来自长春中医药大学的研究团队 Songqi Ge, Shichang Li, Tianyi Xu, Jingzhen Wu, Yi Yang, Shuang Kang, Xinxin Yang, Peng Yu 整合了三种先进的光谱“侦探”——近红外光谱(Near-Infrared Spectroscopy, NIR)、傅里叶变换红外光谱(Fourier Transform Infrared Spectroscopy, FTIR)和拉曼光谱(Raman Spectroscopy, RS),并结合机器学习的力量,建立了一套快速、绿色、可靠的人参年龄鉴别新方法。这项研究的核心思想是,不同年龄的人参,其内部化学成分(如多糖、氨基酸、淀粉等)的含量和结构会存在细微差异,这些差异会“烙印”在它们的光谱“指纹”上。单一光谱可能只能捕捉到部分信息,而将多种光谱(NIR、FTIR、RS)的“证词”融合在一起,则能构建出更全面、更可靠的特征图谱,从而更精准地“指认”人参的年龄。
为了验证这一设想,研究人员从中国东北部(吉林、辽宁、黑龙江)14个主要人参产区,同步采集了226份1-5年生的人参样本,并通过专家确保了其准确年龄。样品经干燥、研磨、过筛后,分别使用便携式NIR分析仪、傅里叶变换红外光谱仪和拉曼光谱仪采集其光谱信息。在剔除异常值后,利用分层Kennard-Stone算法将217批有效样本分为训练集和独立的测试集,并严格隔离测试集以防止数据泄露。研究采用了多达18种光谱预处理方法来优化信号质量。核心分析技术包括三种化学计量学模型:偏最小二乘判别分析(Partial Least Squares Discriminant Analysis, PLS-DA)、支持向量机(Support Vector Machine, SVM)以及利用灰狼优化算法优化的支持向量机(Grey Wolf Optimized SVM, GWO-SVM)。研究的亮点在于比较了两种数据融合策略:低水平数据融合(Low-Level Data Fusion, LLDF,即直接拼接全谱变量)和中水平数据融合(Mid-Level Data Fusion, MDLF,即先通过竞争性自适应重加权采样算法提取关键特征变量,再进行融合)。研究建立了两个分类任务:其一是精细区分1至5年共五个年龄等级;其二则是从实际应用出发,将1-3年(非药用)与4-5年(药用)人参区分开来。
3.2.1. 基于单源数据的分类模型
研究人员首先评估了三种单一光谱技术在两个分类任务中的表现。对于区分五个年龄等级的任务,FTIR光谱结合支持向量机模型表现最佳,测试集准确率达到87.50%,F1得分为0.87。相比之下,拉曼光谱的表现较弱。对于区分药用与非药用(二分类)任务,近红外光谱结合灰狼优化算法优化的支持向量机模型表现近乎完美,在训练集和测试集上均达到100%准确率和1.00的F1得分。这些结果初步表明,支持向量机及其优化变体在处理此类光谱数据时,通常优于偏最小二乘判别分析模型,且光谱预处理方法的选择对模型性能有显著影响。
3.2.2. 基于多源数据融合的分类模型
这部分研究是文章的核心,探究了融合多种光谱信息是否能带来更好的分类效果。
3.2.2.1. 1-5年人参的五分类
在精细区分五个年龄等级的任务中,中水平数据融合策略展现出独特优势。其中,融合了近红外、傅里叶变换红外和拉曼三种光谱,并采用支持向量机模型的方案表现最优。该模型在测试集上取得了87.50%的准确率和0.87的F1得分。更重要的是,与直接拼接全谱的低水平数据融合模型相比,该模型在达到相近性能的同时,通过特征选择(CARS)大幅减少了变量数量,提升了计算效率,并获得了更优的模型参数(惩罚因子C=4,核参数γ=0.5),降低了过拟合风险。这证明,通过中水平数据融合精选出的多光谱特征,能够更有效地捕获与年龄相关的关键化学信息。
3.2.2.2. 1-3年与4-5年人参的二分类
在更具实际应用价值的药用性判别任务中,低水平数据融合策略结合灰狼优化算法优化的支持向量机模型表现最为出色。具体而言,融合傅里叶变换红外和拉曼光谱的模型取得了最佳成绩,测试集准确率高达98.51%,F1得分达到0.99,近乎完美地区分出了非药用与药用级人参。这表明,对于这项相对“粗粒度”但至关重要的分类任务,保留傅里叶变换红外和拉曼光谱的完整信息并进行直接融合,能为优化后的支持向量机模型提供最充分的判别依据。
4. 结论
本研究成功构建了一个基于多光谱数据融合与机器学习的人参年龄快速鉴别框架,并得出以下核心结论:首先,数据融合策略显著提升了模型的稳健性和鉴别能力,有效弥补了单一光谱技术的局限性。其次,在精细区分五个具体年龄(1-5年)时,最佳模型为基于近红外-傅里叶变换红外-拉曼光谱中水平数据融合的支持向量机模型。再者,在实用性的药用与非药用人参判别中,最佳模型为基于傅里叶变换红外-拉曼光谱低水平数据融合的灰狼优化算法优化的支持向量机模型,其鉴别准确率接近完美。最后,支持向量机及其优化算法在处理高维多光谱融合数据时,整体表现优于传统的偏最小二乘判别分析。
这项研究的意义在于,它为解决中药材,特别是人参的品质控制和真伪鉴别难题,提供了一条快速、绿色(符合绿色分析化学原则,无需有毒溶剂)、高效且有望实现现场检测的技术新路径。通过巧妙融合不同光谱技术提供的互补性化学信息,并结合智能化的机器学习算法,该方法不仅显著提升了鉴别的准确性和可靠性,也为其他药用植物材料的质量评估提供了可借鉴的方法学框架。尽管当前研究主要基于道地产区1-5年生栽培人参,未来通过扩充样本库和地理来源,并结合日趋小型化的光谱设备,该技术有望真正走向田间地头和市场前端,为保障中药材品质和消费者权益贡献科技力量。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号