一种基于大规模气相色谱-质谱数据集开发机器学习化学指纹模型的框架：在油污残留物分类中的应用

《Science of The Total Environment》：A framework for developing machine learning-based chemical fingerprinting models using large gas chromatograph-mass spectrometer datasets: Application to oil spill residues classification

【字体：大中小】 时间：2026年01月25日 来源：Science of The Total Environment 8

编辑推荐：

　　化学指纹分析油 spill 源头，传统方法依赖 GC-MS 提取特定生物标志物计算诊断比率，存在样本不足、方法不统一等问题。本研究提出直接基于 GC-MS 数据的机器学习框架，通过合成数据生成和集成模型解决小样本与设备差异，验证其能有效区分新鲜原油与 spill 残留并溯源。

Gerald F. John

美国阿拉巴马州奥本大学土木与环境工程系

摘要

化学指纹技术是环境法医学中的关键技术，用于油污调查，以确定油污残留物中油的来源和类型。传统方法依赖于在气相色谱-质谱（GC–MS）色谱图中检测单独的石油生物标志物，分析它们的分布，并计算由此得出的诊断比率。生物标志物分布和诊断比率的结合形成了每种油的独特化学指纹。来源油和油污残留物具有相似的指纹，从而可以确定油污的来源。生物标志物分布的差异导致油在色谱和质谱图中表现出不同的模式。本研究提出了一种基于机器学习（ML）的框架，直接从GC–MS数据中进行化学指纹分析，利用模式识别来消除对单个生物标志物识别或诊断比率计算的需求。该框架引入了几项方法创新，以解决分析限制问题。它仅在新鲜的、未风化的油数据上训练ML分类器，以克服风化样本的稀缺问题，并采用聚合集成模型结合多个分类器来提高不同样本类型的鲁棒性。实施了标准化的预处理程序进行数据格式转换，确保GC–MS仪器之间的兼容性。该框架使用新鲜未风化原油和油污残留物的GC–MS数据进行了评估，仅使用新鲜未风化原油训练的聚合模型在分类残留物和识别其来源油方面取得了最高的准确性。总体而言，本研究提出了一种基于ML的油污化学指纹分析新方法，为推进环境法医学调查提供了实用途径。

引言

化学指纹技术是调查油污的重要环境法医学工具。它有助于确定油的来源和类型（例如，原油或精炼油），评估油污物质是单一油还是混合物，并追踪环境中残留油的长期命运（Stout, 2016; Wang and Fingas, 2003）。它依赖于石油生物标志物的分布，这些化合物天然存在于原油中，并在精炼过程中转移到精炼产品中（John et al., 2025; Wang and Fingas, 2003; Yang et al., 2014）。藿烷和甾烷是油污调查中最常用的生物标志物，因为它们对大多数自然风化过程具有抵抗力（John et al., 2016; Mulabagal et al., 2013）。通过分析生物标志物的相对丰度，可以计算出诊断比率，这些比率共同形成了独特的化学指纹（John et al., 2025）。不同类型的原油和精炼产品中的生物标志物分布不同，导致不同的诊断比率，从而形成不同的化学指纹。重要的是，原始泄漏油和环境样本中的残留油之间的生物标志物分布是一致的，这意味着来源油和油污残留物具有相同的诊断比率和化学指纹（Aeppli et al., 2014; Arekhi et al., 2021）。

尽管化学指纹技术被广泛使用，但它也存在一些局限性。生物标志物分析通常使用GC–MS，这需要复杂的样品制备技术（Prince and Walters, 2022）。原油和精炼产品含有数千种化合物，但只有少数几种，主要是藿烷和甾烷，被常规用于化学指纹分析（Overton et al., 2016; Wang and Fingas, 2003; Wang et al., 2006）。许多化合物仍未被表征或被忽略。例如，图1显示了2010年深水地平线事故中泄漏的MC252原油中存在的藿烷和甾烷的GC–MS提取离子色谱图。在本研究中，MC252被标记为LSC1。如图1所示，只有色谱图中标记的藿烷和甾烷通常用于计算诊断比率，而其余的则被排除在外。藿烷的色谱峰通常分辨得很好，但甾烷的色谱峰往往不然（图1）。色谱峰也可能由于各种因素而发生保留时间偏移（Bartolomé et al., 2007）。因此，峰的识别在很大程度上依赖于分析师的经验（Wang et al., 2015）。

另一个主要问题是缺乏标准化协议。由于没有对生物标志物监测的监管要求，分析方法在各个实验室之间差异很大，导致方法不一致，有时成本高昂。生物标志物选择、定量技术和诊断比率的差异也会导致实验室间的变异性（Wang et al., 2006）。

机器学习（ML）方法，如主成分分析（PCA）（Song et al., 2019）和偏最小二乘法（PLS）（Pierce and Schale, 2011），传统上被用于化学指纹分析。在识别和量化单个生物标志物的色谱峰以估计其浓度后，计算诊断比率。然后将PCA和PLS应用于生物标志物浓度或诊断比率。这些技术有助于将相关样本聚类，并帮助识别来源油。然而，这些方法仍然依赖于对有限数量已知生物标志物的准确识别，往往忽略了可能包含有用信息的未表征化合物。

计算机技术的最新进展使得利用先进处理单元的强大ML算法得以创建。一些研究直接将ML技术应用于色谱数据。例如，Dávila-Santiago等人（2022）使用支持向量机（SVM）在超高效液相色谱-飞行时间高分辨率质谱（UHPLC-HRMS）数据上进行化学源追踪。Sun等人（2018）将PCA与线性判别分析（LDA）结合在GC–MS数据上，以区分不同类型的原油和燃料油。Reichenbach等人（2019）利用葡萄酒样本的二维GC–MS数据评估了各种ML算法的样本分类性能。

与传统方法不同，这些研究不依赖于识别样本中的特定分析物。相反，它们使用色谱和质谱数据作为模型训练和评估的输入特征。其基本概念是化学成分的变化在样本之间产生不同的色谱和质谱模式（Wang et al., 2016; Yang et al., 2014）。ML算法非常适合识别这些模式并用于分类。

为了说明这一点，图2显示了五种不同新鲜未风化原油（包括MC252原油LSC1）中藿烷（m/z为191）和甾烷（m/z为217）的提取离子色谱图。色谱图显示了藿烷和甾烷在各种原油中的不同峰分布和特征模式。因此，ML算法可以根据这些模式区分不同的原油。这些模式不仅能够区分原油，还能将油污残留物与其来源油匹配。

来自同一来源油的油污残留物表现出相似的色谱和质谱模式。图3显示了MC252原油（LSC1）的藿烷（m/z为191）和甾烷（m/z为217）的提取离子色谱图，LSC1是与DH事故相关的油块（TB16），以及另一个未知来源的油块（TB25）。MC252原油及其相关油块显示出高度匹配的峰分布，而无关的油块在藿烷和甾烷的色谱图上显示出明显不同的特征，表明来源不同。ML算法可以通过识别这些色谱和质谱模式的变化来类似地识别油污残留物的来源油。

这些发现表明，可以直接使用GC–MS数据进行油污调查中的化学指纹分析，而无需依赖浓度或诊断比率等处理后的信息。然而，上述研究中的模型是在样本组成相似的数据集上训练和测试的，这可能限制了它们在油污调查中的适用性。

为了使用GC–MS数据开发基于ML的油污调查化学指纹模型，必须解决几个实际挑战。油污残留物可能会持续多年，如1989年埃克森瓦尔迪兹号（Lindeberg et al., 2018）、1991年海湾战争（Arekhi et al., 2020）和2010年深水地平线（Arekhi et al., 2021）油污事件所示。这些油污残留物中的化学成分会随时间因风化而变化，在油污响应初期获取具有代表性的、经过环境风化的样本往往不切实际。在这种情况下，只有新鲜油，即泄漏后立即收集的未风化油，可用于ML算法训练以开发化学指纹模型。

另一个挑战是选择合适的ML算法。从ML算法开发的分类模型的性能取决于样本组成（Chen et al., 2021），没有一种算法适用于所有情况。

在传统的化学指纹分析中，通常首先使用基于藿烷的诊断比率，必要时再使用甾烷和其他生物标志物。然而，没有标准方法来确定哪种生物标志物或诊断比率最适合特定情况（Wang et al., 2006）。

数据格式和可用性也带来额外的挑战。不同的GC–MS仪器供应商使用专有格式（McGee et al., 2013），这使得数据提取在Python等编程环境中使用变得复杂。此外，获取高质量色谱数据既耗时又昂贵，限制了数据集的大小。由于ML算法需要大型、多样化的数据集才能具有泛化能力（Géron, 2022），因此克服这些限制至关重要。

需要一个结构化的框架来系统地一致地解决这些挑战，以便调整采样条件、算法选择和数据限制。本研究的目的是创建一个框架，使用GC–MS数据训练ML算法，以开发能够识别油污残留物中来源油的化学指纹模型。为了解决油污早期阶段风化样本可用性的限制，该框架设计为仅使用新鲜未风化原油的GC–MS数据进行ML算法训练。该框架还解决了其他挑战，包括数据集大小小、生物标志物组选择差异、算法性能在不同样本类型间的变化以及不同数据格式的使用。该框架使用与2010年深水地平线（DH）事故相关的新鲜原油和油污残留物的GC–MS数据进行了评估。

部分内容

新鲜原油和油污残留物

该研究包括五种新鲜未风化的原油样本：四种路易斯安那州甜原油（LSC1、LSC2、LSC3和LSC4）和一种西德克萨斯中间原油（WTI）。LSC1样本对应于2010年DH事故中泄漏的MC252原油。

此外，2010年至2016年间从阿拉巴马州的海滩收集了28个油污残留物样本。其中一些油污残留物的来源是2010年DH事故，而其他样本的来源未知（表1）

生物标志物比率

所有新鲜原油样本的藿烷和甾烷诊断比率显示在图S1中，并在表S2中总结。油污残留物样本的相应诊断比率也在表S2中呈现。图S2将选定油污残留物的藿烷和甾烷诊断比率与LSC1进行了比较。

如图S1所示，LSC2、LSC4和WTI的雷达图与LSC1明显不同，而LSC3在藿烷和甾烷比率上与LSC1非常相似。

传统化学指纹方法

评估了所有新鲜原油和油污残留物的藿烷和甾烷基诊断比率，以确定油污残留物是否来自与LSC1相同的来源。如雷达图（图S1、图S2）和表S2所示，尽管来源不同，LSC3的诊断模式与LSC1非常相似。在这种情况下，仅根据少数生物标志物开发的诊断比率可能不足以区分这两种原油。

结论

本研究提出了一个用于开发和评估油污调查中基于ML的化学指纹模型的框架。首先将新鲜原油和油污残留物的GC–MS数据转换为与Python编程语言兼容的格式。然后通过保留时间对齐、合成数据生成和特征工程处理数据。使用新鲜原油数据集，通过超参数调整了七个基础模型和六个集成分类器模型

AI工具使用声明

生成式AI工具ChatGPT被用于编辑计算机程序和写作过程，以提高手稿的可读性和语言表达。

CRediT作者贡献声明

Gerald F. John：写作——审阅与编辑，写作——初稿，可视化，监督，资源，方法论，调查，正式分析，数据管理，概念化。

利益冲突声明

作者声明以下财务利益/个人关系可能被视为潜在的利益冲突：Gerald F. John与奥本大学有雇佣关系。Gerald F. John有一项待批的专利。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了美国阿拉巴马州奥本大学土木与环境工程系的支持。作者感谢T. Prabhakar Clement博士（阿拉巴马大学）在文章审阅方面的帮助。作者还感谢Fang Yin博士（上海海事大学）和Yuling Han博士（吴Xi生物技术公司）分享了他们在研究生研究期间收集的GC–MS数据。作者也感谢与他们的富有洞察力的讨论。

摘要

引言