融合多环境因子与可解释支持向量机模型，精准量化包气带LNAPL污染浓度

《Ecotoxicology and Environmental Safety》：Quantitative characterization of LNAPL contaminant concentrations in the vadose zone by integrating environmental factors and interpretable support vector machine models

【字体：大中小】 时间：2026年03月07日 来源：Ecotoxicology and Environmental Safety 6.1

编辑推荐：

　　为精准量化包气带中轻非水相液体（LNAPL）的污染浓度分布，北京师范大学研究人员基于沙箱实验，系统分析了关键环境因子与柴油污染物迁移的响应关系，并构建了集成支持向量机（SVM）与SHAP（SHapley Additive exPlanations）解释方法的污染浓度计算模型。该模型展现出优异的泛化性能（R2 > 0.90），能够准确预测泄漏动态并量化各环境因子的相对贡献，其中体积含水率（θ）是影响最大的因子，为发展基于环境因子的土壤LNAPL污染实时风险评估方法提供了理论与模型支持。

随着社会经济发展，全球对石油这一战略资源的需求持续增长，但也加剧了环境风险。据估计，全球每年有大量石油污染物（约1×10¹²公斤）释放到地下环境中。石油中的水不混溶有机物被称为非水相液体（NAPLs），其中密度比水轻的称为轻非水相液体（LNAPLs），包括原油、柴油、苯、甲苯、二甲苯等。这些污染物密度低于水且溶解度极低，一旦进入地下水系统，便会形成长期的地下储库，造成持久性污染，威胁当地饮用水安全。因此，阐明LNAPLs在地下介质中的迁移和衰减过程至关重要。

为了准确监测和评估LNAPL污染，研究者们采用了多种方法，包括物理模拟（如一维土柱或二维沙箱实验）和数学模型。然而，现有研究在时空范围上存在局限，且需要大量测定污染物理化性质和水文地质参数。与此同时，污染物释放会扰动当地的土壤环境条件，导致体积含水率（θ）、电导率（EC）、pH、氧化还原电位（ORP）等环境因子发生协同变化，并与污染物的迁移和再分布存在耦合关系。传统统计方法在处理这类非线性、非平稳的复杂关系时存在不足。机器学习方法，特别是支持向量机（SVM），凭借其在处理小样本数据和复杂非线性特征方面的双重优势，展现出解决此类问题的潜力。但机器学习模型常被视为“黑箱”，其输入变量与输出结果之间的机理解释不清，影响了预测结果的可靠性与实际应用价值。为了解决上述问题，北京师范大学的研究团队开展了一项创新性研究，旨在开发一种基于多环境因子、可解释的LNAPL污染浓度定量表征新方法，其成果发表在《Ecotoxicology and Environmental Safety》上。

本研究主要应用了以下关键技术方法：首先，通过二维沙箱实验模拟柴油在细砂包气带中的泄漏过程，在44个土壤取样口同步原位监测获取了总石油烃（TPH）浓度及θ、EC、pH、ORP等环境因子数据，共计968组。其次，利用Spearman相关系数分析环境因子与TPH浓度的相关性。然后，以环境因子和时空信息（X, Y, t）为输入，TPH浓度为输出，构建了基于SVM算法的浓度计算模型，并通过网格搜索和交叉验证确定最优超参数。最后，采用基于博弈论的SHapley Additive exPlanations（SHAP）方法对SVM模型进行解释，量化各输入变量对预测结果的贡献。

1. 细砂介质包气带中LNAPL的迁移行为

通过克里金插值对实验监测数据进行可视化，研究人员将LNAPL在细砂包气带中的迁移过程划分为三个阶段：污染物释放阶段（0-4.0天），污染物在重力作用下向下活塞式迁移，并在毛细带发生明显的侧向运移；污染物快速再分布阶段（4.0-22.0天），泄漏停止后，截留的自由相污染物在重力和毛细力作用下重新分布，污染范围持续扩大，并在水位以上20.0–40.0 cm的毛细带高滞留区显著积累；污染物持续衰减阶段（22.0-67.0天），污染物在微生物降解等作用下总体浓度呈下降趋势，但毛细带高滞留区仍维持较高浓度。

2. 环境因子对包气带LNAPL迁移衰减的响应

LNAPL的迁移显著改变了包气带中的关键环境因子。θ因孔隙水被LNAPL驱替而普遍降低，尤其在毛细带上部（第5-6层）降低显著。EC的变化受水分和污染物迁移共同调节，在θ不为零的中下部区域呈现下降趋势。ORP在整个实验期间持续降低，在氧气消耗强烈的毛细带降低尤为明显。pH同样呈下降趋势，空间分异与ORP相似，这与介质颗粒与污染物的反应及微生物降解产生酸性物质有关。Spearman相关性分析表明，各环境因子与TPH浓度的相关性在垂直方向上存在显著差异，且单一环境因子与TPH浓度存在一对多的非线性关系，无法仅凭单一因子可靠地反演TPH浓度。

3. 通过SVM模型定量表征LNAPL污染物浓度

研究人员构建了集成多环境因子的SVM浓度计算模型。模型在训练集、验证集和测试集上均表现出优异的性能（R2 > 0.90），点据密集分布在y = x ± 5000 mg·kg^-1的误差带内，表明模型具有高精度和良好的泛化能力。模型成功可视化了LNAPL污染羽的时空分布，模拟结果与实测高度一致，并能对97.0天和127.0天的污染状态进行有效预测，平均绝对预测误差分别为13.78%和23.01%。

4. 基于SHAP方法的输入变量特征重要性评估

SHAP分析量化了各输入变量对SVM模型预测TPH浓度的贡献。重要性排序为：垂直坐标Y（19.6%）> 体积含水率θ（18.3%）> ORP（15.0%）> 时间t（13.7%）> EC（13.23%）> pH（12.2%）> 水平坐标X（7.8%）。垂直坐标Y的重要性源于重力驱动的垂向迁移导致浓度随高度显著分异；θ则与LNAPL入侵触发的“固-水-油-气”四相驱替机制相关。特征依赖图进一步揭示了输入变量与模型输出之间的非线性关系。例如，在毛细带强滞留区，θ和EC的SHAP值主要为负且绝对值较大，表明模型严重依赖这些因子的低值来预测该区的高TPH浓度；而在包气带上部，ORP是预测TPH浓度的关键指标；在上部毛细带（pH=6.0–6.5），pH对模型预测有强影响。时空变量Y和t在整个分析中 consistently 表现出高SHAP值，证实它们是模型进行TPH浓度预测所依赖的基本框架变量。

研究结论与重要意义

本研究的核心结论是，毛细阻滞效应是控制细砂包气带中LNAPL迁移动态的核心机制，它驱动了污染物在潜水面以上20–40 cm强滞留区内的侧向扩散与积累。环境因子对LNAPL迁移过程呈协同响应，但单一环境因子与TPH浓度的关系存在显著空间异质性和一对多现象，无法独立用于可靠反演。集成多环境因子和时空信息的SVM模型能够高精度地表征LNAPL的迁移分布，模型性能优异。SHAP解释分析进一步确认，垂直坐标Y和θ是模型中最重要的预测变量，θ和EC在毛细带强滞留区的预测中占主导，而pH和ORP在包气带上部和毛细带上部区域影响显著。

这项研究的意义在于，它超越了传统的“黑箱”机器学习应用，通过将SVM的高精度预测能力与SHAP的机理解释能力深度耦合，形成了一个“预测-贡献量化-机理解释”的完整闭环。该框架不仅阐明了易监测的原位环境因子对污染预测的贡献，在监测数据与污染物空间模式之间建立了透明联系，而且最终输出了关于主导环境因子、其影响方向和敏感区间的清晰、可解释的结论。这为发展基于环境因子的土壤LNAPL污染实时、原位风险评估方法提供了创新的理论支持和可操作的建模框架。尽管当前模型基于均质介质的室内实验构建，直接外推到复杂的野外场地存在不确定性，但本研究提出的方法论和工作流程，为后续整合野外多源监测数据、引入表征地下非均质性的特征（如渗透系数场、岩性结构）、以及应用迁移学习（Transfer Learning）或物理信息神经网络（Physics-Informed Neural Networks, PINN）等自适应优化策略奠定了坚实基础，有望发展成为支撑LNAPL污染场地实时诊断与动态管理的核心技术工具。

热点排行

新闻专题