姜黄根(Yujin)是传统中医中的重要药材[1],[2],因其抗炎、抗氧化和保肝作用而被广泛使用[3],[4]。与许多植物药一样,姜黄根的药理功效和安全性与其化学成分密切相关,而这些成分又受到地理来源、栽培品种、土壤和气候、农业实践以及采后处理的影响[5]。因此,来源鉴定不仅是一个学术问题,对制造商、监管机构和临床医生来说也是一个实际需求:准确的追溯性是质量控制的基础,可以防止出于经济目的的掺假或错误标注,并有助于确保治疗效果的一致性。历史上,草本材料的来源和质量评估主要依赖于经过培训的专家进行的感官检验和显微解剖[6],[7]。虽然这些传统方法对于整体或轻度加工的材料很有价值,但它们本质上是主观的、依赖于操作者的,并且处理量有限。现代分析技术如高效液相色谱(High Performance Liquid Chromatography, HPLC)、气相色谱-质谱(Gas Chromatography-Mass Spectrometry, GC-MS)和靶向光谱分析(Targeted Spectroscopic Assays)能够提供化学特异性和定量信息,但这些方法需要破坏性取样、溶剂提取和漫长的实验室流程;这些方法资源密集、速度慢,不适合大规模或在线筛查[12]。基于DNA的方法(例如DNA条形码)可以为原始植物提供强大的分类分辨率[13],[14],但由于加工过程中DNA的降解,这些方法的准确性可能会受到影响,而且成本相对较高,并且不能直接测量决定药效的化学成分。
当材料被加工成粉末时,分析挑战变得更加严峻,因为粉末是许多草药制剂的主要商业形式。粉碎过程去除了专家用于感官或显微鉴别的宏观形态特征(颜色、质地、切割表面特征);结果得到的是一种视觉上均匀的黄棕色粉末,其中传统的感官或显微标记几乎不存在。同时,粉碎过程通过改变颗粒大小、堆积密度和多次散射(multiple scattering)改变了光与物质的相互作用[16],常常掩盖或改变了关键成分的光谱特征。因此,粉末带来了双重困难:它们缺乏形态学标识符,需要能够稳健地区分化学信号与散射和基线效应的分析方法。
尽管已经探索了多种非破坏性技术(如拉曼光谱[Raman Spectroscopy][17],[18]和激光诱导击穿光谱[LIBS][19])用于植物材料分析[20],[21],[22],但本研究专注于近红外高光谱成像(Near-Infrared Hyperspectral Imaging, NIR-HSI),因为它能够同时捕获化学和空间信息。近红外高光谱成像通过结合快速、无损的光谱传感和关于样品形态及异质性的空间分辨信息,解决了许多实际问题。NIR-HSI能够在数百个连续光谱带上进行操作[25],[26],[27],[28],对有机官能团的倍频和组合振动敏感,无需提取或试剂即可捕捉到细微的成分差异。结合现代化学计量学和机器学习算法,NIR-HSI已成功应用于农业和植物产品的来源分类、掺假检测和质量控制[29],[30]。然而,样品形态与光谱响应之间的相互作用——特别是完整根组织与粉碎粉末之间的比较——在受控的并行条件下尚未得到系统的研究。目前尚不清楚粉碎过程是通过均质化提高化学区分能力还是通过增强散射和失去空间背景信息而降低区分能力,以及哪些预处理和建模策略最能减轻形态学引起的干扰。
受这些不足的启发,本研究直接比较了来自六个不同地理来源的相同姜黄根样本的完整根切片和细磨粉末。如图1a所示,我们使用NIR-HSI结合严格的预处理、嵌套超参数优化和多重鲁棒性检验,量化了形态学对比度和成分对比度对来源鉴定的相对贡献,评估了基于粉末的快速筛查的可行性,并为草本质量控制提供了稳健、可部署的工作流程。需要明确的是,本研究仅关注使用从高光谱图像中提取的像素光谱进行的光谱来源鉴定。形态学感知(从图像中提取或分类表面纹理、形状或其他空间特征)是一个相关但独立的问题,超出了本手稿的范围。在本研究中,我们使用NIR-HSI测量了六个地理上不同的姜黄根群体(安徽、广西、昆明、四川、浙江磐安和浙江瑞安)的来源鉴定,这些测量数据包括完整的根切片和从相同样本制备的细磨粉末。我们比较了三种常见的分类器(支持向量机、随机森林和k最近邻),系统地探索了光谱预处理策略(Savitzky–Golay平滑及其衍生方法、乘法散射校正、标准正态变量),并采用了严格的嵌套交叉验证和鲁棒性测试(针对每个产地的保留测试、排列测试、噪声和光照扰动)来量化泛化和稳定性。值得注意的是,在我们的实验条件下,支持向量机取得了非常高的性能——粉末光谱的准确率接近完全分离,根切片的准确率也很高——这表明,通过适当的预处理和超参数调整,紧凑的机器学习模型可以实现姜黄根的稳健来源鉴定。
尽管近红外高光谱成像已广泛应用于草药鉴定,但本研究提供了四个具体且可复制的进展。首先,我们提供了一个大型、平衡的配对数据集(完整的根切片和相应的粉末,六个来源,n=600),以及一个按波长划分的方差/方差分析(ANOVA),量化了粉碎过程如何改变来源内部和之间的光谱变异性。其次,我们应用了严格的评估协议——嵌套5折外部/4折内部交叉验证,内部循环超参数网格搜索,自助法95%置信区间(n=1000),配对McNemar检验和排列检验——以确保模型选择的公正性和方法比较的统计支持。第三,我们结合无监督学习(PCA)和波段级定量分析,将形态学散射/基线效应与分类可分离性联系起来,从而从机制上解释了为什么粉碎过程能改善结果而不仅仅是提高准确率。第四,我们提供了实用的、考虑形态学的测量和模型选择建议,并在补充材料中提供了可复制的训练/分析脚本,以便于理解和比较。总体而言,这些进展将研究从描述性确认提升为定量严谨、机制明确且可复制的形态学效应对高光谱来源分类的影响。