手持式近红外光谱跨扫描仪独立校准用于香荚兰豆荚稳健质量评估

《JOURNAL OF FOOD QUALITY》:Scanner-Independent Calibrations of Handheld Near-Infrared Spectra for Robust Quality Assessment of Vanilla Pods

【字体: 时间:2026年05月22日 来源:JOURNAL OF FOOD QUALITY 2.9

编辑推荐:

  香兰素(vanillin)是来源于香荚兰(Vanilla planifolia)的一种高价值风味化合物。由于豆荚组成的异质性以及手持式近红外(NIR)扫描仪之间的变异性,其在商业供应链中的分级仍然面临挑战。本研究开发了扫描仪独立的校准模型,利用漫反射手持式近红

  
香兰素(vanillin)是来源于香荚兰(Vanilla planifolia)的一种高价值风味化合物。由于豆荚组成的异质性以及手持式近红外(NIR)扫描仪之间的变异性,其在商业供应链中的分级仍然面临挑战。本研究开发了扫描仪独立的校准模型,利用漫反射手持式近红外光谱和偏最小二乘(PLS)回归,对香荚兰豆荚中的香兰素含量和干物质进行快速预测。来自乌干达一处香荚兰农场的39个批次样品被纳入研究,这些样品覆盖了典型商业等级以及较宽范围的香兰素含量(≤0.1–38.2 mg/g)和干物质含量(71.3%–95.5%(w/w));每个批次选取3根豆荚,并在多个位置进行测量。研究共采集了2000余条原始光谱,同时引入同型号8台辅助扫描仪的附加测量数据,以模拟跨设备部署。香兰素和干物质的参考值分别通过高效液相色谱法(HPLC)和烘箱干燥法获得,并采用每批3根豆荚的混合提取物,以反映真实分级实践。光谱预处理方面,香兰素模型采用扩展乘性散射校正(EMSC)并截除受水主导的谱区;干物质模型采用标准正态变量变换(SNV),随后进行一阶导数Savitzky–Golay平滑。PLS香兰素模型获得的RMSE值(RMSEC/RMSECV/RMSEP)为2.963/6.044/2.309 mg/g,相应R2值(Cal/CV/Pred)为0.921/0.699/0.979;对5个外部测试批次的平均绝对预测误差为1.98 mg/g。干物质模型获得的RMSEC/RMSECV/RMSEP值为1.862/2.379/1.657%(w/w),R2(Cal/CV/Pred)值为0.906/0.846/0.932,平均绝对预测误差为1.42%(w/w)。X载荷(X-loading)分析证实,两类模型均依赖具有化学意义的近红外谱带:干物质主要由水的倍频带与组合带主导,香兰素则主要依赖芳香结构/C–H相关谱区。所提出的校准框架对豆荚间变异性和扫描仪硬件波动具有稳健性,可支持共享主校准模型在现场分布式部署中用于香荚兰豆荚的原位质量评估。
该文发表于《JOURNAL OF FOOD QUALITY》,聚焦于香荚兰豆荚质量快速评价中一个具有显著应用价值而又长期存在的技术难题,即如何在真实供应链条件下,以手持式近红外(NIR,近红外光谱)设备实现对香兰素(vanillin)和干物质的可靠、快速、无损检测。香荚兰作为高价值天然香料作物,其生产过程依赖人工授粉和人工采收,成本高、品质波动大,同时市场中还存在掺假、误标和分级标准不一致等问题,因此建立可现场应用的客观分析方法具有重要现实意义。现有实验室方法中,高效液相色谱法(HPLC,高效液相色谱)可准确测定香兰素,但分析周期长、依赖实验室条件,不利于农场、收购、流通等环节的即时决策;干物质测定通常依赖烘干法,同样耗时。尽管已有研究证明NIR技术可用于香荚兰水分、干物质和部分品质指标的分析,但在实际部署中仍存在两大核心障碍:一是豆荚自身存在显著的批间和个体间异质性,二是不同手持式扫描设备之间存在硬件响应差异,导致模型跨设备迁移能力受限。基于此,研究人员旨在构建一种既能适应样品异质性、又能抵抗扫描仪差异的扫描仪独立校准框架,以提升手持式NIR在香荚兰质量控制中的可推广性。

在研究设计上,研究人员采集了来自乌干达同一香荚兰农场的39个批次样品,这些批次覆盖从优质“gourmet”到严重降解材料的多个商业等级,香兰素与干物质的分布范围较宽,从而确保校准集能够涵盖具有商业意义的理化差异。研究的关键思路并非将单根豆荚作为唯一分析单位,而是采用与实际行业分级一致的“批次级”参考值策略:每批样品通过3根豆荚的混合提取物获得HPLC香兰素参考值,并以3根豆荚烘干结果获得干物质参考值;与此同时,NIR测量则在每批3根豆荚的多个位置重复采集并进行结构化平均,以尽可能对冲豆荚内和豆荚间异质性。进一步地,为解决跨设备应用问题,研究人员将同型号8台辅助扫描仪所测得的光谱纳入建模过程,使校准空间显式包含仪器波动因素,从而训练出更具硬件泛化能力的模型。

本研究采用的主要技术方法包括:以手持式漫反射近红外光谱仪(ProxyScout)采集香荚兰豆荚光谱,样本来源为乌干达一处香荚兰农场的39个批次;以高效液相色谱法(HPLC)测定批次级香兰素参考值,以烘箱恒重法测定干物质;在化学计量学上使用偏最小二乘回归(PLS)建立校准模型,并结合交叉验证与独立测试集验证评估模型稳健性;针对不同目标性质,分别采用扩展乘性散射校正(EMSC)、标准正态变量变换(SNV)、Savitzky–Golay一阶导数平滑及特定波数区间截除等预处理策略;最后通过X载荷与潜变量(LV,latent variable)分析解释模型的化学意义与潜在结构。

研究结果部分首先表明,原始光谱与预处理策略的设计紧密围绕两个分析目标的光谱学特征展开。对于香兰素模型,研究人员采用EMSC和均值中心化,并截除受水强烈主导的波数区间,以降低水分协变量导致的间接相关风险,使回归更集中于具有化学合理性的芳香结构和C–H相关谱区。对于干物质模型,则采用SNV、一阶导数Savitzky–Golay平滑和均值中心化,以削弱豆荚曲率和表面纹理引起的散射效应,并突出水带形状变化。该结果说明,香兰素和干物质虽然同由NIR表征,但分别对应“弱分析物嵌入复杂基质”和“主导高方差组分”两种不同的化学计量学问题,因此需要差异化预处理路径。

3.1. Dry Matter Model
干物质模型的结果显示,其X载荷主要受水相关谱带控制,尤其在LV1中已表现出典型的O–H伸缩振动倍频带与O–H组合带特征,说明模型主要利用了与水分变化直接相关的化学信息来表征干物质。LV1解释了60.2%的X方差,反映出水分/干物质对比是模型中最主要的变化来源;LV2进一步体现了有机基质C–H相关信息以及水带形状的细化差异,提示模型不仅感知总水含量,也捕捉了水在不同结合状态和局部环境中的分布变化。RMSECV随潜变量数变化的结果表明,误差在前3个潜变量内显著下降,此后趋于平台,说明干物质模型可通过低维潜空间较好地实现稳定预测。定量性能方面,模型的RMSEC/RMSECV/RMSEP分别为1.862/2.379/1.657%(w/w),R2(Cal/CV/Pred)分别为0.906/0.846/0.932,5个独立测试批次的平均绝对预测误差为1.42%(w/w)。这一表现说明,手持式NIR对香荚兰豆荚干物质进行快速筛查具有较高可行性。

3.2. Vanillin Model
香兰素模型较干物质模型表现出更分散的潜在结构,这与香兰素在复杂植物基质中属于相对低含量分析物的事实一致。LV1解释62.0%的X方差,在约6050 cm?1附近以及6200、5730 cm?1附近出现多个C–H一阶倍频相关特征,同时在约4400 cm?1附近出现组合带响应,提示模型利用了芳香和脂肪族C–H、以及与芳香骨架或C–H/C=O相关的低波数组合带信息。LV2则在6100–5800 cm?1区域进一步增强了不同重叠C–H贡献之间的对比,并在4350 cm?1附近再次体现低波数组合带特征,说明香兰素相关信息分布于多个潜变量,而非集中在单一维度。RMSECV曲线显示,交叉验证误差在约5个潜变量前持续下降,之后逐渐趋稳,这意味着香兰素模型需要更多正交方向以区分分析物信息与水分、结构和异质性等混杂因素。模型最终获得RMSEC/RMSECV/RMSEP分别为2.963/6.044/2.309 mg/g,R2(Cal/CV/Pred)分别为0.921/0.699/0.979,外部测试集的平均绝对预测误差为1.98 mg/g。尽管交叉验证R2相对低于干物质模型,但结合测试集误差和研究对象的高异质性背景来看,该模型已达到快速筛查层面的实用要求。

3.3. Practical Implications
应用层面的结果强调了本研究的现实价值。首先,两类模型的载荷结构均具有可解释的光谱化学基础,表明预测并非纯粹依赖偶然相关。其次,模型性能受到批次级参考值设定的影响:由于HPLC参考值对应的是3根豆荚的混合提取平均值,而NIR测量对象是具有显著个体差异的真实豆荚,因此批内异质性天然限制了可达到的R2上限,但这种设定恰恰真实反映了行业分级实践。再次,通过引入8台辅助扫描仪的光谱,研究显式扩展了校准空间,使PLS模型能够吸收同型号设备之间的硬件差异,从而避免为每一台设备单独重建模型或再做校准转移。研究人员据此认为,该框架适用于在分散式场景下部署共享主校准模型,用于农场、收购与供应链环节的现场质量控制。与此同时,论文也明确指出,目前数据仍主要来自乌干达单一生产地、39个熟化批次,因此尚不能代表不同产地、加工工艺、成熟阶段和季节的全部变异,模型更适合在相似供应链情境下使用,更广泛推广仍需扩展多来源、多工艺和时间维度验证。

综合讨论部分可以看出,该研究的创新性在于将样品异质性与仪器异质性两个长期制约手持式NIR落地应用的问题纳入同一校准框架中处理。对于干物质这一由水分主导的宏观性质,模型在低维潜空间中即可实现较强预测能力;对于香兰素这一低浓度目标物,研究则通过合理预处理和多潜变量建模,从复杂背景中提取具有化学合理性的谱区信息。论文并未夸大模型的泛化能力,而是将其定位于与行业分级方式一致的快速筛查工具,这一定位符合实际应用需求。研究结果表明,手持式NIR并非要完全替代实验室分析,而是有潜力显著减少HPLC和烘干法的检测负担,提高现场分级效率与供应链透明度。

研究结论部分可译述如下:本研究证明,能够利用手持式光谱仪采集的近红外光谱,建立用于测定香荚兰豆荚中香兰素含量和干物质的扫描仪独立校准模型。研究通过将来自8台同类型辅助扫描仪的校准光谱纳入模型开发,显式处理了硬件变异性。对于水分(干物质)校准,所有校准集和测试集样品均在NIR测量后进行恒重干燥。最终,测试样品的平均绝对预测误差分别为干物质1.42%(w/w)和香兰素1.98 mg/g。尽管手持式NIR设备日益普及,但由于光学系统、对准状态及传感器响应的扫描仪间差异,校准模型通常难以在不同硬件单元之间直接迁移,从而限制了其在分散式应用中的一致部署。该研究建立了可迁移、与扫描仪无关的手持式NIR校准模型,并在多台同类型仪器上得到验证。通过整合多设备光谱,校准空间被扩展以包含现实仪器变异,进而使PLS算法能够构建对硬件波动具有韧性的局部自适应模型,这对于现场应用至关重要。该方法无需针对单个设备重新校准,支持其在分布式质量控制环境中的可靠使用。此外,该校准策略还被设计用于适应豆荚间变异,并与基于专家评估的行业分级标准保持一致。借助共享主校准模型,研究证实干物质和香兰素含量的平均绝对预测误差可分别控制在1.5%(w/w)和2.0 mg/g以内。这些发现支持在农场不同地点及整个供应链中部署多台手持式扫描仪,为在香荚兰生产中实施手持式NIR提供了一种符合行业特征、需求与约束条件的实用方案。未来工作应在多产地、多工艺数据集上扩展验证,并在田间条件下评估时间稳健性,包括仪器漂移和季节效应。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号