在VUV吸收光谱的二元分子分类中，过采样和特征选择技术的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Molecular Spectroscopy》：Oversampling and feature selection techniques in binary molecular classification of VUV absorption spectra

【字体：大中小】 时间：2026年03月06日 来源：Journal of Molecular Spectroscopy 1.3

编辑推荐：

　　本研究结合机器学习与VUV吸收光谱法，通过SMOTE过采样、Tomek Links下采样及特征选择解决醛基光谱数据不平衡问题，发现能量范围6.5–8.5 eV时预测效果最佳，为燃烧中间体结构鉴定提供新方法。

约翰·T·艾伦 | 黛琳·A·摩尔 | 杰弗里·D·史密斯 | 布兰登·罗塔维拉

美国乔治亚大学化学系，雅典，GA 30602

摘要

将机器学习与真空紫外（VUV）吸收光谱测量相结合，可以预测分子结构。鉴于难以捉摸的燃烧中间体（如酮氢过氧化物）中存在羰基官能团，本研究利用VUV吸收光谱测量了5.167至9.500 eV范围内饱和醛类及其相应烷烃类似物的光谱，以扩展一个在醛类光谱方面存在不平衡的训练库。开发了机器学习模型来预测醛基的存在，采用了多种预处理技术，包括特征选择、过采样（合成少数过采样技术，SMOTE）和欠采样（Tomek Links）。这些技术被应用于基于装袋树的集成模型，并进行了留一法交叉验证。通过接收者操作特征曲线（ROC曲线）以及零假阳性时的真正例数（TP_FP=0）和接收者操作特征曲线下的部分面积来评估模型的预测能力。使用SMOTE结合Tomek Links训练的模型在性能上有所提升。还通过将光子能量范围限制在不同区间来研究分箱的影响，最准确的区间为6.5–7.0、6.5–7.8和6.5–8.5 eV。这三个区间都显示出类似的趋势，即过采样略微增加了真正例的数量。由于某些物种的光谱与其他醛类差异显著，四种物质——环丁烷醛、环丙烷醛、乙醛和甲醛——无法被任何模型准确预测。最大的改进来自于能量范围的限制，这表明在特定能量范围内可以更可靠地识别出特定类别的分子特征，同时过采样的使用有助于解决数据集中的不平衡问题。所得模型能够准确预测VUV吸收光谱中醛类的贡献，为机器学习从多官能团物种预测分子结构提供了初步方法。

引言

机器学习（ML）是一种可以应用于光谱学的技术，用于推断分子结构，包括特定官能团的存在[1]、[2]、[3]、[4]、[5]、[6]。ML通过学习大量光谱（称为训练集）中的光谱特征（如吸收峰）与光子能量之间的关系来进行预测。然后利用训练集来预测包含未知物种信号的目标光谱特征[1]。通常使用二元分类（或真/假模型）来实现这一技术[1]。 ML也越来越多地应用于燃烧研究[7]。真空紫外（VUV）吸收光谱是一种有效的燃烧中间体检测方法，因为它对电子跃迁（如σ → σ*）敏感，并能分辨出结构异构体和立体异构体。此外，VUV吸收光谱对官能团的存在及其相对位置非常敏感，因为这些官能团通过独特的跃迁、轨道混合和耦合在光谱中产生特征（图1）。然而，燃烧实验中产生的物种的明确检测依赖于先验参考测量数据，但由于某些物种的热不稳定性或合成问题，这些数据难以获得。例如，在喷射搅拌反应器实验[8]、[9]中测量到的结构包含羰基、醚基和过氧化物基团，它们的光谱贡献复杂交织在一起。因此，将ML方法应用于VUV吸收光谱对于确定难以捉摸的中间体结构具有重要意义[6]。要创建成功的ML模型，训练数据需要丰富且具有代表性。在目标数据稀缺的情况下，可能会出现数据不平衡的情况，即某一类别的样本数量远多于其他类别，从而导致偏见。在正类样本较少的二元模型中，模型倾向于预测更常见的负类[10]。当两个类别的数据有显著重叠时，这个问题会更加严重，使得模型难以区分它们[10]。除非与其他形式的光谱学方法结合使用，否则通常很难获得大量的VUV吸收光谱来构建大型训练库。例如，Manh等人[5]利用机器学习模型和深度学习模型获得了1397个VUV/UV吸收光谱，包括药物化合物、农药、工业化学品和萜类化合物以及烃类。使用傅里叶变换红外光谱（FTIR）和质谱（MS）获得的光谱数量更多。Enders等人[2]使用了NIST光谱数据库中的8728个气相红外光谱，从而能够训练更多物种的模型。同样，North等人[3]使用了NIST Webbook中的21,166个质谱。由于VUV吸收光谱的样本数量较少，需要实施预处理技术来应对不平衡问题。一种通过不平衡的二元数据集提高模型对较少见（“少数”）类别识别能力的方法是生成额外的少数类训练样本或移除多数类训练样本。生成样本以纠正类别不平衡的行为称为过采样，涉及复制少数类样本；而移除样本以减少类别间的数据重叠则称为欠采样[11]。除了过采样和欠采样外，还可以利用特征选择来处理数据集中的不平衡问题。通常，特征选择会确定相关特征并去除不相关的特征，从而减少模型训练所需的数据量[12]。在VUV吸收光谱中，特征选择用于识别对预测官能团或分子结构特征重要的光谱区域。本研究的目标是开发一个模型，以识别VUV吸收光谱中醛基的存在。选择醛类及其相应的烷烃类似物进行直接光谱测量，并将其纳入数据集以可视化醛类的特征区域。此外，醛类是酮氢过氧化物中的两种官能团之一（图2），这类分子在化学科学多个领域（如燃烧和大气化学）中都很重要，但由于合成难度，目前尚无明确的参考测量方法来识别这些物种。本研究采用分段方法来识别数据集中代表性较低的有机分子中的特定结构特征。本研究扩展了Doner等人[6]的分类器结果的解释和数据集，他们使用偏最小二乘判别分析（PLS-DA）、傅里叶变换PLS-DA、堆叠+PLS-DA以及两种类型的决策树分类器（随机森林和Extra Trees）定义了五种二元分类（烷烃、与氧共轭、非共轭烯烃、含氧和环状）。这里采用了装袋树集成回归模型，并对其进行训练，以识别含有醛类的VUV吸收光谱。由于扩展后的数据集中只有12%的光谱属于含醛类物种，因此使用了过采样（合成少数过采样技术（SMOTE）和欠采样（Tomek Links）以及特征选择来克服数据不平衡[12]、[13]、[14]。主成分分析（PCA）用于可视化数据集的特征空间，并评估特征选择的数据分离效果[15]。最后，通过接收者操作特征（ROC）分析来评估最终模型的性能，允许根据模型应用的需求调整模型的精度或准确性，从而在模型构建上提供灵活性[16]。在这种情况下，能够根据需要调整模型以优化某个指标（如准确性）是很有利的，因为需要识别燃烧实验中的未知光谱，其中结构异构体和立体异构体很常见[8]、[9]、[17]。本研究的工作大纲如下：第2节介绍了VUV吸收测量方法以及用于解决数据集不平衡的模型和预处理技术。第3节比较了过采样/欠采样、ROC分析和特征选择对装袋树集成回归模型的影响。第4节提供了构建模型以解决类似小型数据集中不平衡问题的一般建议。

方法

第2.1节简要概述了实验方法以及用于建模的醛类和烷烃。用于建模的分子完整列表见补充信息1（SI 1）。第2.2节提供了模型框架和用于分析结果的方法。第2.3节介绍了用于缓解数据集不平衡问题的各种技术。

结果

第3.1节概述了模型在整个光子能量范围内的性能，以及使用SMOTE和TL的效果。第3.2节描述了特征选择对模型性能的影响。第3.3节探讨了结合特征选择和过采样/欠采样技术的效果。

结论

开发了机器学习模型，用于预测5.167至9.500 eV范围内VUV吸收光谱中醛基的存在。选择基于回归的二元装袋树集成模型进行ROC分析。通过ROC分析，根据模型要求（例如对假阳性的容忍度）将每个样本的得分分配到某个类别。常见的过采样技术...

CRediT作者贡献声明

约翰·T·艾伦：撰写——原始草稿、方法论、正式分析。 黛琳·A·摩尔：撰写——原始草稿、方法论、正式分析。 杰弗里·D·史密斯：撰写——审稿与编辑、方法论、正式分析、概念化。 布兰登·罗塔维拉：撰写——审稿与编辑、方法论、正式分析、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

BR和GDS感谢国家科学基金会（NSF）化学测量与成像（CMI）项目在Grant No. 2304903下的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

方法

方法

结果

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行