数据缩放策略(Unit Variance scaling及Pareto scaling)对基于气相色谱-质谱(GC-MS)的单麦芽威士忌(Single Malt)、调和威士忌(Blended Whisky)及美国波本威士忌(American Bourbon)分类中挥发性标志物筛选的影响
《Journal of Food Composition and Analysis》:Impact of Data Scaling Strategies on Volatile Marker Selection in GC-MS-Based Classification of Single Malt, Blended, and American Bourbon Whiskies
编辑推荐:
威士忌中挥发性化合物的气相色谱-质谱(GC-MS)峰面积动态范围极宽,导致高丰度化合物主导多元统计模型并掩盖微量呈香组分,因此数据缩放(Data Scaling)至关重要,其直接调控各变量对标志物筛选及分类结果的贡献。研究人员采用非靶向GC-MS结合单位方差(
威士忌中挥发性化合物的气相色谱-质谱(GC-MS)峰面积动态范围极宽,导致高丰度化合物主导多元统计模型并掩盖微量呈香组分,因此数据缩放(Data Scaling)至关重要,其直接调控各变量对标志物筛选及分类结果的贡献。研究人员采用非靶向GC-MS结合单位方差(Unit Variance, UV)缩放与Pareto缩放,考察其对三类威士忌(单一麦芽、调和及美国波本)挥发性谱图的影响。UV缩放使组间分离最大化,但对低丰度组分高度敏感;相反,Pareto缩放通过保留包括己酸乙酯、辛酸乙酯、癸酸乙酯(C10脂肪酸酯)、高级醇及脂肪酸在内的主导同源物固有方差,提供更贴近化学真实性的谱图特征。该方法经发酵特征标志物——己酸乙酯(ethyl caproate)、辛酸乙酯(ethyl caprylate)及癸酸乙酯(ethyl caprate)的鉴定得以验证。此外,标准品定性确认威士忌内酯(whisky lactones)在美国波本中显著富集,虽未在非靶向分析中检出。综上,复杂威士忌基质可靠解析需依据分析目的选择缩放方式,并将非靶向谱图分析与标准品定性相结合以捕获感官相关的痕量标志物。
本文对发表于《Journal of Food Composition and Analysis》的研究《Impact of Data Scaling Strategies on Volatile Marker Selection in GC-MS-Based Classification of Single Malt, Blended, and American Bourbon Whiskies》进行解读总结。
威士忌的感官特征由其酿造、发酵、蒸馏及陈酿过程中生成的挥发性香气化合物决定,气相色谱-质谱(GC-MS)结合正交偏最小二乘判别分析(Orthogonal Partial Least Squares Discriminant Analysis, OPLS-DA)是威士忌分类与标志物筛选的常用手段。由于GC-MS获得的挥发性化合物峰面积通常跨越3~4个数量级,少数高丰度化合物(如乙酯类、高级醇)会主导模型而使微量呈香组分被掩盖。数据预处理中的缩放策略直接决定各变量对潜变量的贡献及最终筛选出的差异标志物(Variable Importance in Projection, VIP),但不同缩放方式对威士忌挥发性标志物筛选的具体影响在蒸馏酒文献中尚缺乏系统评估。为此,研究人员以单一麦芽威士忌(Single Malt, SM, n=20)、调和威士忌(Blended Whisky, BL, n=12)及美国波本威士忌(American Bourbon, AB, n=11)为对象,比较单位方差(Unit Variance, UV)缩放与Pareto缩放在主成分分析(Principal Component Analysis, PCA)及OPLS-DA模型构建、组间分离度、异常值检测及VIP标志物稳定性方面的差异,明确缩放策略选择依据并结合标准品法定性痕量威士忌内酯,为威士忌挥发组学(Volatolomics)数据前处理提供方法学指导。
研究人员采用的主要关键技术方法如下:收集市售三类威士忌样本共43份(SM n=20,BL n=12,AB n=11),经顶空固相微萃取(Solid-Phase Microextraction, SPME Arrow, C-WR/PDMS纤维)提取挥发性化合物,以氘代1-戊醇-13C及壬酸甲酯为内标(Internal Standard, IS),DB-Wax毛细管柱GC-MS全扫描模式(m/z 33–550)检测;NIST库比对及标准品对照定性;峰面积以内标归一化后均中心化,分别施加UV缩放(除以标准差)和Pareto缩放(除以标准差平方根);采用SIMCA建立PCA、偏最小二乘判别分析(PLS-DA)及OPLS-DA模型,七折交叉验证评估R2X、R2Y、Q2,200次置换检验验证,VIP>1.0为候选标志物,并通过变量重要性稳定性评估(Variable Importance Stability Assessment, VISA)框架进行分层自助抽样(n=3000)检验标志物稳健性;威士忌内酯(cis-/trans-β-methyl-γ-octalactone)以市售标准品对照定性,GraphPad Prism行单因素方差分析及Tukey HSD事后检验(p<0.05)。
3.1. Untargeted volatile profiling of three whisky types
非靶向分析共鉴定66种挥发性化合物,分属脂质类(38)、有机含氧化合物(14)、有机酸及衍生物(8)、苯环类(5)及杂环类(1)。单一麦芽组总峰面积最高,其中癸酸乙酯(ethyl caprate)、辛酸乙酯(ethyl caprylate)、己酸乙酯(ethyl caproate)、乙醇及异戊醇占总峰面积69.0%~80.8%,在三类威士忌中均占主导。
3.2. PCA-based discrimination under different scaling methods
UV缩放下PCA前两主成分解释总方差38.1%(PC1 24.9%,PC2 13.2%),三类威士忌沿PC1和PC2明显分开,但UV缩放放大低丰度变量权重致数例单一麦芽样本(SM-01, SM-03, SM-08, SM-18)呈强离群。Pareto缩放下PCA解释总方差达60.8%(PC1 44.0%,PC2 16.8%),组间分离不如UV明显但因保留高丰度变量原始方差结构而减轻离群效应,上述强离群样本回归主群附近,QC样本仍较集中,表明Pareto缩放更平衡高、低强度挥发物贡献。
3.3. Outlier detection and model diagnostics
以DModX(距离模型距离)评估,UV缩放下4例超出临界阈值(DModX>1.5)且集中于SM组,反映UV对微量组分波动过度放大;Pareto缩放下超阈值样本减少(3例)且分布跨三类,DModX值整体更低更均匀,说明Pareto缩放对技术或生物噪声过放大具更强鲁棒性,最终所有样本保留入后续(O)PLS-DA。
3.4. Effect of scaling methods on OPLS-DA model and VIP-based variable selection
UV缩放OPLS-DA模型Q2=0.752–0.931,组间分离清晰,VIP>1.0的前20位变量中VISA确认56/60稳定,含乙酸乙酯(ethyl acetate)、9-十六碳烯酸乙酯(ethyl 9-hexadecenoate)、1-己醇(1-hexanol)及在各两两比较均稳的癸酸(n-decanoic acid),适合发现痕量差异标志物。Pareto缩放OPLS-DA模型R2X=0.465–0.656、Q2=0.489–0.797,VIP>1.0变量每对比较9–11个,顶端为中等链长乙酯(己酸乙酯、辛酸乙酯、癸酸乙酯)、异戊醇及异丁酸,VISA确认30个VIP变量中13个稳定(仅癸酸乙酯、辛酸乙酯在SM vs BL稳定,己酸乙酯在BL vs AB稳定,癸酸在所有两两比较稳定),凸显Pareto缩放优先保留具区分力且丰度足够的主导发酵产物,给出更贴合化学组成的标志物集。n-癸酸是唯一在两种缩放、全部三组两两比较中均通过VISA的稳定性标志物。
3.5. Identification of whisky lactones
非靶向自动峰检测未检出的威士忌内酯经标准品对照定性显示:波本组中trans-及cis-威士忌内酯均显著高于调和(p<0.0001)及单一麦芽(p<0.01或p<0.05),单一麦芽与调和间无显著差异,证实美国波本因新烤美国橡木桶陈酿富含此橡木来源成熟标志物,也说明痕量高感官活性物质需标准品辅助定性。
讨论部分指出,威士忌GC-MS挥发性数据具极宽动态范围,UV缩放赋予所有变量等方差权重从而最大化组分离并捕获低丰度差异物(如1-己醇可作麦芽大麦特征参考),但易放大仪器噪声使部分样本呈伪离群;Pareto缩放温和压缩高方差高丰度变量同时保留其原始结构,突出中等链乙酯及脂肪酸等主导发酵同源物,给出的标志物更具化学代表性但可能遗漏重要痕量代谢物。n-癸酸因酵母合成及橡木萃取累积之综合差异,成为不受缩放影响的稳健分类指标。标准品法定性补全了非靶向分析对痕量高感官效价化合物(威士忌内酯)的漏检。研究人员推荐依分析目标择缩放法——广泛发现标志物用UV,反映主导化学成分用Pareto,且非靶向谱图宜辅以标准品定性捕捉感官相关痕量标志物,该策略亦可供其他具宽浓度跨度香气活性挥发物的发酵酒精饮料研究借鉴。
结论部分翻译:本研究评估了UV与Pareto缩放对单一麦芽(SM)、调和(BL)及美国波本(AB)威士忌GC-MS挥发性谱图多元分析及标志物筛选的影响。结果表明数据缩放从根本上支配多元分析结果,直接影响组判别及所选挥发性标志物身份。UV缩放使组分离最大化但放大了样品特异性微量组分(如乙酸乙酯、9-十六碳烯酸乙酯及1-己醇)的贡献,后者未必代表整体代谢轮廓;相反,Pareto缩放在抑制噪声失真的同时保留了主要挥发性同源物的方差,将中等链长乙酯(癸酸乙酯、辛酸乙酯及己酸乙酯)恢复为顶级VIP标志物。这些发现凸显了灵敏度与稳健性间的权衡,表明应据具体分析目标选择缩放策略。对于具感官重要性的痕量标志物如trans-及cis-威士忌内酯,单纯非靶向谱图分析不足,需借助标准品(authentic reference standards)定性。因此,威士忌挥发组学(Volatolomics)的全面解析需使缩放策略与分析目的一致,并对感官相关痕量标志物结合非靶向谱图与标准品定性。此联合策略为威士忌挥发组学的数据预处理及标志物筛选提供实用指导,本研究演示的缩放选择方法亦可作其他香气活性物质具相似宽浓度范围的发酵酒精饮料研究者之参考。