《Frontiers in Plant Science》:Evolutionary algorithm-optimized feature fusion for accurate classification of shredded tobacco using multi-sensor data
编辑推荐:
本研究提出了一种新颖的进化算法特征融合框架,通过融合气相色谱-声表面波(GC-SAW)、电子鼻(E-nose)和傅里叶变换红外光谱(FTIR)三种传感模态数据,有效解决了单一传感器在复杂烟丝分类中的局限性。研究系统比较了七种降维方法,发现遗传算法(GA)能够从高维融合数据中智能筛选出紧凑且高判别性的特征子集,在50次独立测试中达到99.89%±0.79%的平均分类准确率,为复杂植物材料的精准分类提供了可靠方案。
引言
挥发性有机化合物(VOC)的精准快速判别在植物科学中至关重要。单一传感技术在处理复杂蒸汽混合物时存在局限:气相色谱-声表面波(GC-SAW)虽具高灵敏度但分析耗时;电子鼻(E-nose)可实现快速原位分析却存在重现性差和信号漂移问题;傅里叶变换红外光谱(FTIR)能提供分子结构指纹但对痕量气体分析灵敏度不足。本研究通过多模态数据融合策略,旨在突破单一技术的瓶颈。
材料与方法
实验采集成都烟草工厂3个品牌共90份烟丝样本(各30份),分别通过GC-SAW(60维特征)、电子鼻(128维特征)和FTIR(71维特征)进行分析。建立了三级融合框架:数据级融合直接拼接原始特征向量(90×259维);决策级融合采用加权投票整合三个传感器的支持向量机(SVM)基分类器结果;特征级融合系统比较遗传算法(GA)、线性判别分析(LDA)、偏最小二乘判别分析(PLS-DA)、主成分分析(PCA)、随机森林(RF)、t分布随机邻域嵌入(t-SNE)和深度神经网络(DNN)七种降维方法,最终通过SVM分类器进行评估。
结果与讨论
单一传感器分类中,FTIR表现最佳(100%准确率),GC-SAW为83.33%,电子鼻为74.44%。数据级融合因维度灾难(特征数259>>样本数90)导致准确率降至99.22%±2.75%。决策级融合准确率达97.78%±3.89%,但未能充分利用跨传感器关联信息。
特征级融合比较显示,遗传算法(GA)表现最优,筛选出108个特征(原特征的41.7%),平衡选取GC-SAW(31.7%)、电子鼻(40.6%)和FTIR(52.1%)特征,平均准确率99.89%±0.79%。关键特征分析表明:GA筛选的GC-SAW色谱峰(如Terpinene、丁酸等挥发性成分)、电子鼻传感器(如Sensor111、Sensor6等交叉敏感元件)和FTIR化学成分(天冬氨酸、生物碱、绿原酸等)具有明确化学意义,体现了多传感器信息的互补性。
其他降维方法中,PCA通过37个主成分(保留95.17%方差)达到99.44%±2.57%准确率,但特征可解释性弱;PLS-DA保留90.3%特征(准确率99.67%±2.36%),但模型复杂;t-SNE(92.78%±6.17%)和DNN(98.67%±3.65%)因样本量限制表现不佳。
结论
基于进化算法的特征级融合策略能够智能挖掘多传感器数据的互补信息,在保证高分类精度的同时增强模型可解释性和鲁棒性,为复杂植物材料分类提供了新范式。