化学指纹技术是调查油污的重要环境法医学工具。它有助于确定油的来源和类型(例如,原油或精炼油),评估油污物质是单一油还是混合物,并追踪环境中残留油的长期命运(Stout, 2016; Wang and Fingas, 2003)。它依赖于石油生物标志物的分布,这些化合物天然存在于原油中,并在精炼过程中转移到精炼产品中(John et al., 2025; Wang and Fingas, 2003; Yang et al., 2014)。藿烷和甾烷是油污调查中最常用的生物标志物,因为它们对大多数自然风化过程具有抵抗力(John et al., 2016; Mulabagal et al., 2013)。通过分析生物标志物的相对丰度,可以计算出诊断比率,这些比率共同形成了独特的化学指纹(John et al., 2025)。不同类型的原油和精炼产品中的生物标志物分布不同,导致不同的诊断比率,从而形成不同的化学指纹。重要的是,原始泄漏油和环境样本中的残留油之间的生物标志物分布是一致的,这意味着来源油和油污残留物具有相同的诊断比率和化学指纹(Aeppli et al., 2014; Arekhi et al., 2021)。
尽管化学指纹技术被广泛使用,但它也存在一些局限性。生物标志物分析通常使用GC–MS,这需要复杂的样品制备技术(Prince and Walters, 2022)。原油和精炼产品含有数千种化合物,但只有少数几种,主要是藿烷和甾烷,被常规用于化学指纹分析(Overton et al., 2016; Wang and Fingas, 2003; Wang et al., 2006)。许多化合物仍未被表征或被忽略。例如,图1显示了2010年深水地平线事故中泄漏的MC252原油中存在的藿烷和甾烷的GC–MS提取离子色谱图。在本研究中,MC252被标记为LSC1。如图1所示,只有色谱图中标记的藿烷和甾烷通常用于计算诊断比率,而其余的则被排除在外。藿烷的色谱峰通常分辨得很好,但甾烷的色谱峰往往不然(图1)。色谱峰也可能由于各种因素而发生保留时间偏移(Bartolomé et al., 2007)。因此,峰的识别在很大程度上依赖于分析师的经验(Wang et al., 2015)。
另一个主要问题是缺乏标准化协议。由于没有对生物标志物监测的监管要求,分析方法在各个实验室之间差异很大,导致方法不一致,有时成本高昂。生物标志物选择、定量技术和诊断比率的差异也会导致实验室间的变异性(Wang et al., 2006)。
机器学习(ML)方法,如主成分分析(PCA)(Song et al., 2019)和偏最小二乘法(PLS)(Pierce and Schale, 2011),传统上被用于化学指纹分析。在识别和量化单个生物标志物的色谱峰以估计其浓度后,计算诊断比率。然后将PCA和PLS应用于生物标志物浓度或诊断比率。这些技术有助于将相关样本聚类,并帮助识别来源油。然而,这些方法仍然依赖于对有限数量已知生物标志物的准确识别,往往忽略了可能包含有用信息的未表征化合物。
计算机技术的最新进展使得利用先进处理单元的强大ML算法得以创建。一些研究直接将ML技术应用于色谱数据。例如,Dávila-Santiago等人(2022)使用支持向量机(SVM)在超高效液相色谱-飞行时间高分辨率质谱(UHPLC-HRMS)数据上进行化学源追踪。Sun等人(2018)将PCA与线性判别分析(LDA)结合在GC–MS数据上,以区分不同类型的原油和燃料油。Reichenbach等人(2019)利用葡萄酒样本的二维GC–MS数据评估了各种ML算法的样本分类性能。
与传统方法不同,这些研究不依赖于识别样本中的特定分析物。相反,它们使用色谱和质谱数据作为模型训练和评估的输入特征。其基本概念是化学成分的变化在样本之间产生不同的色谱和质谱模式(Wang et al., 2016; Yang et al., 2014)。ML算法非常适合识别这些模式并用于分类。
为了说明这一点,图2显示了五种不同新鲜未风化原油(包括MC252原油LSC1)中藿烷(m/z为191)和甾烷(m/z为217)的提取离子色谱图。色谱图显示了藿烷和甾烷在各种原油中的不同峰分布和特征模式。因此,ML算法可以根据这些模式区分不同的原油。这些模式不仅能够区分原油,还能将油污残留物与其来源油匹配。
来自同一来源油的油污残留物表现出相似的色谱和质谱模式。图3显示了MC252原油(LSC1)的藿烷(m/z为191)和甾烷(m/z为217)的提取离子色谱图,LSC1是与DH事故相关的油块(TB16),以及另一个未知来源的油块(TB25)。MC252原油及其相关油块显示出高度匹配的峰分布,而无关的油块在藿烷和甾烷的色谱图上显示出明显不同的特征,表明来源不同。ML算法可以通过识别这些色谱和质谱模式的变化来类似地识别油污残留物的来源油。
这些发现表明,可以直接使用GC–MS数据进行油污调查中的化学指纹分析,而无需依赖浓度或诊断比率等处理后的信息。然而,上述研究中的模型是在样本组成相似的数据集上训练和测试的,这可能限制了它们在油污调查中的适用性。
为了使用GC–MS数据开发基于ML的油污调查化学指纹模型,必须解决几个实际挑战。油污残留物可能会持续多年,如1989年埃克森瓦尔迪兹号(Lindeberg et al., 2018)、1991年海湾战争(Arekhi et al., 2020)和2010年深水地平线(Arekhi et al., 2021)油污事件所示。这些油污残留物中的化学成分会随时间因风化而变化,在油污响应初期获取具有代表性的、经过环境风化的样本往往不切实际。在这种情况下,只有新鲜油,即泄漏后立即收集的未风化油,可用于ML算法训练以开发化学指纹模型。
另一个挑战是选择合适的ML算法。从ML算法开发的分类模型的性能取决于样本组成(Chen et al., 2021),没有一种算法适用于所有情况。
在传统的化学指纹分析中,通常首先使用基于藿烷的诊断比率,必要时再使用甾烷和其他生物标志物。然而,没有标准方法来确定哪种生物标志物或诊断比率最适合特定情况(Wang et al., 2006)。
数据格式和可用性也带来额外的挑战。不同的GC–MS仪器供应商使用专有格式(McGee et al., 2013),这使得数据提取在Python等编程环境中使用变得复杂。此外,获取高质量色谱数据既耗时又昂贵,限制了数据集的大小。由于ML算法需要大型、多样化的数据集才能具有泛化能力(Géron, 2022),因此克服这些限制至关重要。
需要一个结构化的框架来系统地一致地解决这些挑战,以便调整采样条件、算法选择和数据限制。本研究的目的是创建一个框架,使用GC–MS数据训练ML算法,以开发能够识别油污残留物中来源油的化学指纹模型。为了解决油污早期阶段风化样本可用性的限制,该框架设计为仅使用新鲜未风化原油的GC–MS数据进行ML算法训练。该框架还解决了其他挑战,包括数据集大小小、生物标志物组选择差异、算法性能在不同样本类型间的变化以及不同数据格式的使用。该框架使用与2010年深水地平线(DH)事故相关的新鲜原油和油污残留物的GC–MS数据进行了评估。