《Journal of Hydrology》:Enhancing Bayesian model averaging ensemble model performance via feature partitioning and set pair analysis for freshwater-saltwater interface prediction
编辑推荐:
动态权重生成方法提升地下水盐淡水界面预测精度研究,提出FP-SPA-BMA集成框架,通过特征分区与集合对分析实现自适应权重分配,在江苏如东试验场验证中R2达0.927,CWC值0.54m,空间可转移性显著。
郑阳 姜 | 海阳 陈 | 子辰 谢 | 恩平 周 | 全平 周 | 云丽 | 薛轩宇 | 张世军
中国地质调查局南京中心,江苏省南京市,210016
摘要
准确预测淡盐水界面(FSIEs)的上游和下游高度对于沿海地下水的可持续管理至关重要。尽管贝叶斯模型平均(BMA)集成学习方法被广泛用于提高预测精度,但其性能往往受到先验权重设置的限制,这些权重设置不仅基于经验或主观判断,而且本质上是静态的,因此无法适应变化的水文条件。为了克服这一限制,本研究提出了一种新的框架,结合了特征分割(FP)和集合对分析(SPA),为BMA生成动态的、数据驱动的先验权重。该方法首先开发了四个基础模型:极端梯度提升(XGB)、卷积神经网络(CNN)、随机森林(RF)和支持向量机(SVM)。随后,通过Shapley加性解释(SHAP)分析确定地下水电导率(GWC)是划分数据集为不同区域的关键特征。在每个区域内,应用SPA生成准确的先验权重,使BMA组件能够根据不同的水文条件进行自适应加权。在独立的测试集上,所提出的FP-SPA-BMA集成模型表现出优越的性能,核心井的上游和下游FSIEs的决定系数(R2)分别为0.947和0.927,基于覆盖宽度准则(CWC)的值低至0.57米和0.54米。在验证井上的成功应用进一步证明了该框架的空间可转移性。本研究表明,FP-SPA框架为BMA中的先验权重问题提供了一个稳健且可转移的解决方案,显著提高了FSIE预测的可靠性。
引言
沿海含水层中的淡盐水界面通常是淡水和咸水混合的过渡区。它反映了土壤盐碱化的过程,决定了饮用水资源的可用性,并影响沿海生态系统的健康(Werner等人,2013a;Paldor和Michael,2021)。因此,准确预测淡盐水界面(FSIEs)的上游和下游高度对于早期检测海水入侵和沿海地下水的可持续管理至关重要(Kim等人,2006;Werner等人,2013b;Zhang等人,2024)。然而,传统的FSIE监测技术,无论是接触式还是非接触式,都面临着高运营成本、劳动强度大以及时空分辨率或精度不足的持续挑战(Kim等人,2016;Jasechko等人,2020;Palacios等人,2020)。这一困境凸显了迫切需要成本效益高且高保真的预测监测方法。
机器学习(ML)模型提供了一个强大的替代方案。凭借其从数据中解析复杂非线性关系的能力,ML模型能够有效捕捉水文地质驱动因素(如潮汐、降雨补给和蒸发)与FSIE动态之间的耦合模式。此外,一旦训练完成并部署,ML模型可以通过自我记录的监测数据实现成本效益高的预测,无需持续进行昂贵的直接FSIE测量(Yoon等人,2017)。诸如极端梯度提升(XGB)、卷积神经网络(CNN)、随机森林(RF)和支持向量机(SVM)等算法在地下水相关预测任务中显示出巨大潜力(Vafadar等人,2023;Tian等人,2024;Chang等人,2025)。然而,鉴于地下水系统的复杂性,任何单一的ML模型都可能提供不完整或有偏的表征,无法全面描述其动态和不确定性(Eldin Elzain等人,2024;Zhu等人,2025)。这一限制强调了需要集成方法,如贝叶斯模型平均(BMA)。通过概率组合多个模型的输出,BMA可以弥补单个模型的结构缺陷,从而提高预测的稳健性和准确性(Raftery等人,2005;Wu等人,2022;Moknatian和Mukundan,2023;Mahmoud等人,2025)。
然而,现有的BMA用于FSIE预测存在两个主要限制(Hoeting等人,1999;Lu等人,2021)。首先,它依赖于通常基于经验或主观判断的先验权重,导致预测精度较低。其次,这些权重本质上是静态的,无法适应变化的水文条件。这种有缺陷的先验权重从根本上误导了BMA的加权过程,使其无法有效整合基础模型的互补优势。这导致权重分布不佳,最终影响了集成模型的整体预测精度。为了解决这些限制,本研究提出了一种新的框架,结合了特征分割(FP)和集合对分析(SPA),为BMA生成动态的、数据驱动的先验权重。这种协同整合旨在克服传统BMA的固有缺陷。具体而言,FP通过将非平稳的水文连续体明确分层为具有物理意义的区域,解决了“静态”限制。这使得集成框架能够感知变化的环境背景,并相应地切换自适应加权方案(Kumar和Yadav,2023)。同时,SPA通过提供严格的数学计算来量化模型可靠性,解决了“主观”挑战。通过分析每个分区内预测数据对与观测数据对之间的“身份-差异-相反”关系,SPA将原始预测性能客观转化为精确的先验权重,确保加权过程完全由数据驱动的证据而非经验假设控制(Feng等人,2014;Wang等人,2017;Su等人,2020;Xiang等人,2021)。
本研究的主要目标是:(1)开发所提出的FP-SPA-BMA框架,并系统评估其在提供高精度预测和可靠不确定性量化方面的性能;(2)通过消融研究评估FP-SPA机制在生成动态、数据驱动的先验权重方面的有效性,具体比较FP-SPA-BMA、SPA-BMA、BMA以及四个单独的基础模型(XGB、CNN、RF和SVM)的性能;(3)通过分析其在典型水文事件下的预测与水文原理的一致性来验证模型的合理性;(4)通过在独立的验证井上实施和验证该框架来展示其空间可转移性和泛化能力。
研究区域和数据收集
实验场地位于中国江苏省如东县的沿海填海区(图1)。该地区是从淤泥海岸填海而成的典型地形,地势低平,海拔通常在2到5米之间。由于季风降水、强烈蒸发和频繁的潮汐波动,该地区的地下水位较浅,矿化程度较高。活跃的水盐运输导致该地区
结果与讨论
以下分析(3.1 数据预处理,3.1.1 原始数据集构建和异常值分析,3.1.2 时间延迟校正,3.1.3 特征选择分析,3.2 模型调优和评估,3.2.1 基础模型的超参数调优和性能评估,3.2.2 基础模型的SHAP分析,3.2.3 FP-SPA-BMA集成方法的性能评估,3.3 模型预测性能的比较分析,3.4 水文合理性评估)集中在
结论
本研究开发并验证了一种新的集成机器学习框架FP-SPA-BMA,以克服传统BMA中静态和主观先验权重的关键限制。通过将物理信息丰富的FP方案与数据驱动的SPA相结合,我们的方法使BMA框架能够适应变化的水文地质条件。所提出的框架显著优于单个模型和传统的BMA集成模型,实现了更高的预测精度
作者贡献声明
郑阳 姜:撰写——原始草稿,可视化,验证,方法论,调查,形式分析,数据管理,概念化。海阳 陈:撰写——审阅与编辑,可视化,数据管理。子辰 谢:撰写——审阅与编辑,方法论,调查。恩平 周:资金获取。云丽:资金获取。薛轩宇:撰写——审阅与编辑。张世军:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了中国地质大学(北京)地下水循环与环境演化重点实验室(2023-002)和中国地质调查局(DD20221728)的支持。作者感谢Mingyue Zhu对插图的建议,以及编辑(Renato Morbidelli教授)、副编辑和六位匿名审稿人的宝贵意见,这些意见显著改进了本工作。
代码可用性
生成的代码