使用NIR-HSI技术对姜黄根(Yujin)进行稳健的来源分类:预处理、嵌套交叉验证及形态学效应的研究

《Microchemical Journal》:Robust provenance classification of curcumae radix (Yujin) using nir-hsi: Preprocessing, nested CV and morphology effects

【字体: 时间:2026年01月31日 来源:Microchemical Journal 5.1

编辑推荐:

  姜黄根原产地鉴定通过近红外高光谱成像与机器学习实现,比较SVM、随机森林和k近邻算法在整数根切片和粉末形态下的分类性能,发现粉末形态样本分类准确率更高且抗干扰能力更强,验证了形态预处理结合支持向量机可高效、非破坏性鉴定原产地。

  
戴玉佳|丁浩源|赵尚勇|刘子源
浙江农林大学光机电工程学院,中国杭州311300

摘要

我们评估了900–1700纳米范围内的近红外高光谱成像技术,并结合机器学习方法,用于鉴定来自中国六大主要产区的姜黄根(Curcumae Radix)的地理来源。每个产地选取了100个样本,分别以完整的根切片和细磨粉末的形式进行测量。在五种常见的光谱预处理方法后,比较了三种分类算法——支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest)和k最近邻(k-nearest Neighbor, KNN)——并使用分层训练-测试分割和嵌套交叉验证(nested cross-validation)来确保泛化估计的可靠性。通过针对每个产地的保留测试(holdout testing)、排列分析(permutation analysis)以及引入高斯噪声和光照变化,进一步评估了模型的鲁棒性。结果表明,支持向量机始终表现出最高的性能:根切片的平均准确率为95.17%,而粉末的准确率为99.00%。与完整的根切片相比,粉末光谱不仅具有更高的区分能力,而且对测量噪声和光照变化具有更强的抵抗力。这些结果表明,结合形态学信息的预处理与支持向量机相结合,可以实现快速、无损且统计上有效的姜黄根来源鉴定,其中基于粉末的检测方法在准确性、鲁棒性和操作效率之间提供了最佳平衡。

引言

姜黄根(Yujin)是传统中医中的重要药材[1],[2],因其抗炎、抗氧化和保肝作用而被广泛使用[3],[4]。与许多植物药一样,姜黄根的药理功效和安全性与其化学成分密切相关,而这些成分又受到地理来源、栽培品种、土壤和气候、农业实践以及采后处理的影响[5]。因此,来源鉴定不仅是一个学术问题,对制造商、监管机构和临床医生来说也是一个实际需求:准确的追溯性是质量控制的基础,可以防止出于经济目的的掺假或错误标注,并有助于确保治疗效果的一致性。历史上,草本材料的来源和质量评估主要依赖于经过培训的专家进行的感官检验和显微解剖[6],[7]。虽然这些传统方法对于整体或轻度加工的材料很有价值,但它们本质上是主观的、依赖于操作者的,并且处理量有限。现代分析技术如高效液相色谱(High Performance Liquid Chromatography, HPLC)、气相色谱-质谱(Gas Chromatography-Mass Spectrometry, GC-MS)和靶向光谱分析(Targeted Spectroscopic Assays)能够提供化学特异性和定量信息,但这些方法需要破坏性取样、溶剂提取和漫长的实验室流程;这些方法资源密集、速度慢,不适合大规模或在线筛查[12]。基于DNA的方法(例如DNA条形码)可以为原始植物提供强大的分类分辨率[13],[14],但由于加工过程中DNA的降解,这些方法的准确性可能会受到影响,而且成本相对较高,并且不能直接测量决定药效的化学成分。
当材料被加工成粉末时,分析挑战变得更加严峻,因为粉末是许多草药制剂的主要商业形式。粉碎过程去除了专家用于感官或显微鉴别的宏观形态特征(颜色、质地、切割表面特征);结果得到的是一种视觉上均匀的黄棕色粉末,其中传统的感官或显微标记几乎不存在。同时,粉碎过程通过改变颗粒大小、堆积密度和多次散射(multiple scattering)改变了光与物质的相互作用[16],常常掩盖或改变了关键成分的光谱特征。因此,粉末带来了双重困难:它们缺乏形态学标识符,需要能够稳健地区分化学信号与散射和基线效应的分析方法。
尽管已经探索了多种非破坏性技术(如拉曼光谱[Raman Spectroscopy][17],[18]和激光诱导击穿光谱[LIBS][19])用于植物材料分析[20],[21],[22],但本研究专注于近红外高光谱成像(Near-Infrared Hyperspectral Imaging, NIR-HSI),因为它能够同时捕获化学和空间信息。近红外高光谱成像通过结合快速、无损的光谱传感和关于样品形态及异质性的空间分辨信息,解决了许多实际问题。NIR-HSI能够在数百个连续光谱带上进行操作[25],[26],[27],[28],对有机官能团的倍频和组合振动敏感,无需提取或试剂即可捕捉到细微的成分差异。结合现代化学计量学和机器学习算法,NIR-HSI已成功应用于农业和植物产品的来源分类、掺假检测和质量控制[29],[30]。然而,样品形态与光谱响应之间的相互作用——特别是完整根组织与粉碎粉末之间的比较——在受控的并行条件下尚未得到系统的研究。目前尚不清楚粉碎过程是通过均质化提高化学区分能力还是通过增强散射和失去空间背景信息而降低区分能力,以及哪些预处理和建模策略最能减轻形态学引起的干扰。
受这些不足的启发,本研究直接比较了来自六个不同地理来源的相同姜黄根样本的完整根切片和细磨粉末。如图1a所示,我们使用NIR-HSI结合严格的预处理、嵌套超参数优化和多重鲁棒性检验,量化了形态学对比度和成分对比度对来源鉴定的相对贡献,评估了基于粉末的快速筛查的可行性,并为草本质量控制提供了稳健、可部署的工作流程。需要明确的是,本研究仅关注使用从高光谱图像中提取的像素光谱进行的光谱来源鉴定。形态学感知(从图像中提取或分类表面纹理、形状或其他空间特征)是一个相关但独立的问题,超出了本手稿的范围。在本研究中,我们使用NIR-HSI测量了六个地理上不同的姜黄根群体(安徽、广西、昆明、四川、浙江磐安和浙江瑞安)的来源鉴定,这些测量数据包括完整的根切片和从相同样本制备的细磨粉末。我们比较了三种常见的分类器(支持向量机、随机森林和k最近邻),系统地探索了光谱预处理策略(Savitzky–Golay平滑及其衍生方法、乘法散射校正、标准正态变量),并采用了严格的嵌套交叉验证和鲁棒性测试(针对每个产地的保留测试、排列测试、噪声和光照扰动)来量化泛化和稳定性。值得注意的是,在我们的实验条件下,支持向量机取得了非常高的性能——粉末光谱的准确率接近完全分离,根切片的准确率也很高——这表明,通过适当的预处理和超参数调整,紧凑的机器学习模型可以实现姜黄根的稳健来源鉴定。
尽管近红外高光谱成像已广泛应用于草药鉴定,但本研究提供了四个具体且可复制的进展。首先,我们提供了一个大型、平衡的配对数据集(完整的根切片和相应的粉末,六个来源,n=600),以及一个按波长划分的方差/方差分析(ANOVA),量化了粉碎过程如何改变来源内部和之间的光谱变异性。其次,我们应用了严格的评估协议——嵌套5折外部/4折内部交叉验证,内部循环超参数网格搜索,自助法95%置信区间(n=1000),配对McNemar检验和排列检验——以确保模型选择的公正性和方法比较的统计支持。第三,我们结合无监督学习(PCA)和波段级定量分析,将形态学散射/基线效应与分类可分离性联系起来,从而从机制上解释了为什么粉碎过程能改善结果而不仅仅是提高准确率。第四,我们提供了实用的、考虑形态学的测量和模型选择建议,并在补充材料中提供了可复制的训练/分析脚本,以便于理解和比较。总体而言,这些进展将研究从描述性确认提升为定量严谨、机制明确且可复制的形态学效应对高光谱来源分类的影响。

样本采集与制备

姜黄根样本来自中国的六个不同地理来源,分别是安徽、广西、昆明、四川、浙江磐安和浙江瑞安。每个来源采集了100株植物,共计600个样本。补充材料中提供了采样位置图(补充图S1),以展示六个来源地区的地理分布和局部采样情况。每个样本被分为两种形态类型

平均光谱和PCA

图2展示了来自六个地理来源的姜黄根的平均反射光谱,分别对应两种形态状态:完整的根切片(图2a)和细磨粉末(图2b)。有两个主要特征显现出来。首先,整体光谱基线和曲线形状在两种形态之间存在系统性差异:完整的根显示出明显的基线偏移和更宽的带形状变化,而粉末则显示出更平滑、更可重复的光谱轮廓。其次,在每种形态内部

结论

本研究表明,样品的形态对近红外高光谱成像(NIR-HSI)下的姜黄根来源鉴定有重要影响:由于微观均匀化和稳定的散射-吸收耦合,粉末提供了显著更高且更稳健的分类性能。在多次验证中,支持向量机(SVM)被证明是最有效的分类器,其性能远超随机森林(Random Forest)和k最近邻(KNN),以及Savitzky–Golay一阶导数(Savitzky–Golay first-derivative)的组合方法

CRediT作者贡献声明

戴玉佳:撰写——原始草稿,正式分析,数据管理,概念构思。丁浩源:软件开发,资源获取,方法论设计,实验实施。赵尚勇:项目监督,资金申请。刘子源:撰写——审稿与编辑,原始草稿撰写,数据可视化,结果验证。

未引用的参考文献

[39]

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本工作得到了浙江省教育厅(编号:Y202249432)和浙江省自然科学基金(编号:ZCLQN25A0408)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号