《RSC Advances》:Prediction and visual analysis of flue-cured tobacco aroma types based on machine learning and feature derivation
编辑推荐:
本研究旨在探究烤烟(Flue-cured Tobacco, FCT)香气类型与其化学性质之间的关联,并评估机器学习(Machine Learning, ML)结合特征推导技术在烤烟产业中的适用性。研究人员共采集了619份代表三种香气类型(清甜香、蜜甜香、醇甜香
本研究旨在探究烤烟(Flue-cured Tobacco, FCT)香气类型与其化学性质之间的关联,并评估机器学习(Machine Learning, ML)结合特征推导技术在烤烟产业中的适用性。研究人员共采集了619份代表三种香气类型(清甜香、蜜甜香、醇甜香)的四川烤烟样本,以51项原始化学指标为基础开展特征推导,并通过可分离性分析、随机森林(Random Forest, RF)重要性排序及基于相关性分析的冗余特征剔除构建了三级关键指标筛选流程。通过对比多种机器学习模型,研究人员筛选出适配四川烤烟数据集的最优模型,并结合遗传算法(Genetic Algorithm, GA)完成参数优化,最终借助SHAP(SHapley Additive exPlanations)值实现模型决策机制的可视化解析。研究结果表明,经三级筛选后最终确定芦丁-丙二酸、芦丁、绿原酸等9项关键特征指标。随机森林算法为该数据集的最优模型,经参数优化后模型F1分数达88.3%,准确率为93.5%,大幅降低了检测成本并提升了模型的判别性能。此外,SHAP值解析框架清晰揭示了化学特征与香气类型的内在关联。该研究不仅提升了四川烤烟香气类型的分类效率,还明确了与香气性状相关的关键化学指标,为进一步通过靶向调控关键组分含量优化烤烟品质提供了量化支持。
《RSC Advances》发表的这项研究针对烤烟香气分类依赖感官评价、化学指标挖掘不足的行业痛点,以四川产区619份涵盖清甜香、蜜甜香、醇甜香三种类型的烤烟样本为研究对象,通过融合特征推导与可解释机器学习技术,构建了高精度、低成本的香气类型判别模型,并阐明了关键化学成分的贡献规律。
研究人员首先指出,现有研究多局限于原始化学指标与品质的直接关联分析,缺乏对衍生特征的深度挖掘,导致模型精度受限且机理阐释不足。为此,研究团队基于51项常规化学组分、生物碱、多酚等指标,通过加、减、除运算生成3927项复合特征,构建三级筛选体系——先通过可分离性指数(f>0.8)初筛具组间区分能力的特征,再利用随机森林算法提取重要性排名前10的特征,最后通过皮尔逊相关性分析(|r|>0.8)剔除冗余特征,最终锁定9项关键指标:芦丁、绿原酸、安那他品、总糖+蛋白、芦丁-丙二酸、总糖-淀粉、芦丁/草酸、总生物碱/安那他品、总生物碱/芦丁。
在模型构建阶段,研究人员对比了随机森林(RF)、K近邻(KNN)、决策树(DT)、逻辑回归(LR)、极端梯度提升(XGBoost)和偏最小二乘判别分析(PLS-DA)六种算法的性能,以F1分数为核心评价指标,确定随机森林为最优基模型,其初始F1分数为83.8%,准确率为90.5%。随后采用遗传算法(GA)对随机森林的超参数(n_estimators、max_depth等6项)进行全局优化,得到GA-RF模型,其在独立测试集上的F1分数提升至88.3%,准确率达93.5%,其中清甜香型的识别准确率最高(F1=97.5%),醇甜香型因样本量较少略低(F1=78.2%)。
研究结果部分,关键特征筛选显示,原始特征中芦丁、绿原酸等已具备一定区分度,而复合特征(如芦丁-丙二酸)的重要性显著提升。PCA分析表明,9项关键特征可解释84.1%的总方差,三类香气的置信椭圆在三维空间中呈部分分离状态,证实特征的有效性。SHAP值可视化解析进一步量化了各特征的贡献方向与阈值:芦丁-丙二酸是模型分类的核心驱动因子,当芦丁含量高于12.5 mg·g-1时,样品倾向被判定为清甜香型;绿原酸含量低于10.5 mg·g-1时,则更可能为醇甜香型。这一结果与四川不同生态区的光温条件差异相吻合——高原强光照促进多酚合成,对应清甜香型芦丁含量高;而秦巴山区弱光照导致多酚积累不足,对应醇甜香型绿原酸含量较低。
讨论部分指出,本研究的创新在于突破了传统仅依赖原始指标的局限,通过特征推导与三级筛选构建了低维高精模型,分类准确率较前期研究显著提升。同时,SHAP值的引入实现了“黑箱”模型的可视化解译,明确了化学成分对香气的非线性影响规律。研究局限性在于醇甜香型样本占比偏低(仅9.2%)导致分类精度稍逊,未来需扩大样本覆盖范围;此外,当前化学检测流程繁琐,后续可结合近红外光谱技术开发便携式检测设备,推动成果落地应用。
结论部分强调,该研究提出的“特征推导-三级筛选-GA优化-SHAP解析”技术路径,为烤烟香气类型的精准识别提供了高效工具,9项关键指标的确立也为定向调控烟叶品质、支撑中式卷烟原料精细化分类奠定了理论与数据基础。