《Ecotoxicology and Environmental Safety》:Quantitative characterization of LNAPL contaminant concentrations in the vadose zone by integrating environmental factors and interpretable support vector machine models
编辑推荐:
为精准量化包气带中轻非水相液体(LNAPL)的污染浓度分布,北京师范大学研究人员基于沙箱实验,系统分析了关键环境因子与柴油污染物迁移的响应关系,并构建了集成支持向量机(SVM)与SHAP(SHapley Additive exPlanations)解释方法的污染浓度计算模型。该模型展现出优异的泛化性能(R2 > 0.90),能够准确预测泄漏动态并量化各环境因子的相对贡献,其中体积含水率(θ)是影响最大的因子,为发展基于环境因子的土壤LNAPL污染实时风险评估方法提供了理论与模型支持。
随着社会经济发展,全球对石油这一战略资源的需求持续增长,但也加剧了环境风险。据估计,全球每年有大量石油污染物(约1×1012公斤)释放到地下环境中。石油中的水不混溶有机物被称为非水相液体(NAPLs),其中密度比水轻的称为轻非水相液体(LNAPLs),包括原油、柴油、苯、甲苯、二甲苯等。这些污染物密度低于水且溶解度极低,一旦进入地下水系统,便会形成长期的地下储库,造成持久性污染,威胁当地饮用水安全。因此,阐明LNAPLs在地下介质中的迁移和衰减过程至关重要。
为了准确监测和评估LNAPL污染,研究者们采用了多种方法,包括物理模拟(如一维土柱或二维沙箱实验)和数学模型。然而,现有研究在时空范围上存在局限,且需要大量测定污染物理化性质和水文地质参数。与此同时,污染物释放会扰动当地的土壤环境条件,导致体积含水率(θ)、电导率(EC)、pH、氧化还原电位(ORP)等环境因子发生协同变化,并与污染物的迁移和再分布存在耦合关系。传统统计方法在处理这类非线性、非平稳的复杂关系时存在不足。机器学习方法,特别是支持向量机(SVM),凭借其在处理小样本数据和复杂非线性特征方面的双重优势,展现出解决此类问题的潜力。但机器学习模型常被视为“黑箱”,其输入变量与输出结果之间的机理解释不清,影响了预测结果的可靠性与实际应用价值。为了解决上述问题,北京师范大学的研究团队开展了一项创新性研究,旨在开发一种基于多环境因子、可解释的LNAPL污染浓度定量表征新方法,其成果发表在《Ecotoxicology and Environmental Safety》上。
本研究主要应用了以下关键技术方法:首先,通过二维沙箱实验模拟柴油在细砂包气带中的泄漏过程,在44个土壤取样口同步原位监测获取了总石油烃(TPH)浓度及θ、EC、pH、ORP等环境因子数据,共计968组。其次,利用Spearman相关系数分析环境因子与TPH浓度的相关性。然后,以环境因子和时空信息(X, Y, t)为输入,TPH浓度为输出,构建了基于SVM算法的浓度计算模型,并通过网格搜索和交叉验证确定最优超参数。最后,采用基于博弈论的SHapley Additive exPlanations(SHAP)方法对SVM模型进行解释,量化各输入变量对预测结果的贡献。
1. 细砂介质包气带中LNAPL的迁移行为
通过克里金插值对实验监测数据进行可视化,研究人员将LNAPL在细砂包气带中的迁移过程划分为三个阶段:污染物释放阶段(0-4.0天),污染物在重力作用下向下活塞式迁移,并在毛细带发生明显的侧向运移;污染物快速再分布阶段(4.0-22.0天),泄漏停止后,截留的自由相污染物在重力和毛细力作用下重新分布,污染范围持续扩大,并在水位以上20.0–40.0 cm的毛细带高滞留区显著积累;污染物持续衰减阶段(22.0-67.0天),污染物在微生物降解等作用下总体浓度呈下降趋势,但毛细带高滞留区仍维持较高浓度。
2. 环境因子对包气带LNAPL迁移衰减的响应
LNAPL的迁移显著改变了包气带中的关键环境因子。θ因孔隙水被LNAPL驱替而普遍降低,尤其在毛细带上部(第5-6层)降低显著。EC的变化受水分和污染物迁移共同调节,在θ不为零的中下部区域呈现下降趋势。ORP在整个实验期间持续降低,在氧气消耗强烈的毛细带降低尤为明显。pH同样呈下降趋势,空间分异与ORP相似,这与介质颗粒与污染物的反应及微生物降解产生酸性物质有关。Spearman相关性分析表明,各环境因子与TPH浓度的相关性在垂直方向上存在显著差异,且单一环境因子与TPH浓度存在一对多的非线性关系,无法仅凭单一因子可靠地反演TPH浓度。
3. 通过SVM模型定量表征LNAPL污染物浓度
研究人员构建了集成多环境因子的SVM浓度计算模型。模型在训练集、验证集和测试集上均表现出优异的性能(R2 > 0.90),点据密集分布在y = x ± 5000 mg·kg-1的误差带内,表明模型具有高精度和良好的泛化能力。模型成功可视化了LNAPL污染羽的时空分布,模拟结果与实测高度一致,并能对97.0天和127.0天的污染状态进行有效预测,平均绝对预测误差分别为13.78%和23.01%。
4. 基于SHAP方法的输入变量特征重要性评估
SHAP分析量化了各输入变量对SVM模型预测TPH浓度的贡献。重要性排序为:垂直坐标Y(19.6%)> 体积含水率θ(18.3%)> ORP(15.0%)> 时间t(13.7%)> EC(13.23%)> pH(12.2%)> 水平坐标X(7.8%)。垂直坐标Y的重要性源于重力驱动的垂向迁移导致浓度随高度显著分异;θ则与LNAPL入侵触发的“固-水-油-气”四相驱替机制相关。特征依赖图进一步揭示了输入变量与模型输出之间的非线性关系。例如,在毛细带强滞留区,θ和EC的SHAP值主要为负且绝对值较大,表明模型严重依赖这些因子的低值来预测该区的高TPH浓度;而在包气带上部,ORP是预测TPH浓度的关键指标;在上部毛细带(pH=6.0–6.5),pH对模型预测有强影响。时空变量Y和t在整个分析中 consistently 表现出高SHAP值,证实它们是模型进行TPH浓度预测所依赖的基本框架变量。
研究结论与重要意义
本研究的核心结论是,毛细阻滞效应是控制细砂包气带中LNAPL迁移动态的核心机制,它驱动了污染物在潜水面以上20–40 cm强滞留区内的侧向扩散与积累。环境因子对LNAPL迁移过程呈协同响应,但单一环境因子与TPH浓度的关系存在显著空间异质性和一对多现象,无法独立用于可靠反演。集成多环境因子和时空信息的SVM模型能够高精度地表征LNAPL的迁移分布,模型性能优异。SHAP解释分析进一步确认,垂直坐标Y和θ是模型中最重要的预测变量,θ和EC在毛细带强滞留区的预测中占主导,而pH和ORP在包气带上部和毛细带上部区域影响显著。
这项研究的意义在于,它超越了传统的“黑箱”机器学习应用,通过将SVM的高精度预测能力与SHAP的机理解释能力深度耦合,形成了一个“预测-贡献量化-机理解释”的完整闭环。该框架不仅阐明了易监测的原位环境因子对污染预测的贡献,在监测数据与污染物空间模式之间建立了透明联系,而且最终输出了关于主导环境因子、其影响方向和敏感区间的清晰、可解释的结论。这为发展基于环境因子的土壤LNAPL污染实时、原位风险评估方法提供了创新的理论支持和可操作的建模框架。尽管当前模型基于均质介质的室内实验构建,直接外推到复杂的野外场地存在不确定性,但本研究提出的方法论和工作流程,为后续整合野外多源监测数据、引入表征地下非均质性的特征(如渗透系数场、岩性结构)、以及应用迁移学习(Transfer Learning)或物理信息神经网络(Physics-Informed Neural Networks, PINN)等自适应优化策略奠定了坚实基础,有望发展成为支撑LNAPL污染场地实时诊断与动态管理的核心技术工具。