HieraBoost-Q:利用基于SHAP(Shapley Additive Explanation)的机制洞察,从多站点电导率数据中实现可解释的喀斯特地区径流预测

《Journal of Hydrology》:HieraBoost-Q: interpretable karst discharge prediction from multi-site electrical conductivity with SHAP-based mechanism insights

【字体: 时间:2026年02月20日 来源:Journal of Hydrology 6.3

编辑推荐:

  本研究提出喀斯特流域径流预测的混合建模框架HieraBoost-Q,通过整合多站点电导率数据、分层XGBoost模型和SHAP解释机制,有效降低模型系统偏差,在西南中国某喀斯特流域验证中,将RMSE从9.767降至3.603 L s-1,R2提升至0.987,并揭示了降雨与电导率信号的非线性动态响应关系。

  
朱欣霞|牛杰|朱庆民|黄芬|邱涵|刘东东|吴攀|胡比尔·X.
济南大学水利与环境学院,中国济南250022

摘要

在喀斯特流域中,由于导水管-裂缝-基质系统的显著异质性以及补给过程的明显时空变异性,径流预测仍然是一个主要挑战。本研究提出了一种可解释且具有偏差意识的混合框架HieraBoost-Q,该框架结合了多站点电导率(EC)数据、分层XGBoost建模和基于SHAP的解释方法,以提高径流预测的准确性并阐明补给机制。将HieraBoost-Q应用于中国西南部的一个喀斯特流域,通过四阶段偏差校正流程,其性能显著优于原始的XGBoost预测器:均方根误差(RMSE)从9.767降低到3.603 L s?1,R2从0.907提高到0.987,并且在低流量条件下仍能稳健地捕捉到延迟和微弱的信号。SHAP分析显示,上游具有强水力连通性的钻孔对预测结果起主导作用,而降雨对EC贡献具有非线性的、状态依赖的调节作用,形成了即时(<1小时)和延迟(10–12小时)信号的双重响应结构。交互效应进一步表明,降雨强度可以在不同事件阶段触发特征贡献的反转。与仅使用降雨数据相比,多站点EC数据能够提供更早且更稳定的事件尺度前兆,有助于预警阈值的设计和运营决策。总体而言,结果表明高频EC数据可以作为低成本、可扩展的替代指标,共同捕捉快速和缓慢的补给动态。因此,HieraBoost-Q增强了复杂喀斯特含水层系统的径流预测能力,为洪水预警、水资源管理和喀斯特水文学研究提供了实用工具。

引言

喀斯特含水层为全球约20–25%的人口提供水资源(Ford和Williams,2013;Hartmann等人,2014),在气候适应、生态系统稳定性和饮用水安全方面发挥着不可替代的作用。它们的典型水文地质特征包括多孔岩石基质、裂缝、断层以及嵌入含水层中的溶解通道(Martin等人,2016;Luo等人,2023),通常被描述为双孔隙介质(Li等人,2016)。在这种背景下,准确的径流预测对于洪水缓解和水资源管理尤为重要。然而,由于地质结构的高度异质性和水力条件的复杂性,喀斯特流域的水文过程表现出明显的不确定性和非线性,这大大增加了建模的难度(Guo等人,2023;Koit等人,2020)。
为了解决这些挑战,水文建模方法不断演变,形成了三大类:概念模型、基于物理的模型和数据驱动模型(Jeannin等人,2021;Fang和Shao,2022;Lian等人,2023;Solanki等人,2024;Wang等人,2024)。概念模型通过简化公式来近似水文循环(Wagener等人,2001;Tarek等人,2020;Sezen和?raj,2024;Zhou等人,2019),但对流域特征和气候条件敏感,这常常限制了它们的预测准确性(Poncelet等人,2017;Lin等人,2023)。相比之下,基于物理的模型应用数学方程来表示内部过程,并能考虑降雨和参数的空间变异性(Li等人,2019;Li和Willems,2020),但在复杂流域中的应用需要大量数据和专业知识。随着数据的积累和算法的发展,数据驱动模型如XGBoost和LSTM逐渐成为强大的替代方案。这些模型通过处理高度非线性问题的能力,经常被证明在径流模拟中优于传统方法(Kratzert等人,2018;Husic等人,2022;Xu等人,2022;Ding等人,2025)。这一趋势推动了水文建模从纯过程导向范式向数据驱动和混合方法的并行框架转变。
尽管深度学习模型实现了显著的预测准确性,但其黑盒性质限制了对水文机制的解释和验证(Adnan等人,2019;Kao等人,2020)。近年来,可解释的人工智能方法(如SHAP)被广泛引入水文建模中,以支持特征归因和物理一致性分析(Lundberg和Lee,2017;Bi等人,2020;Lees等人,2022;Jing等人,2023)。XGBoost结合SHAP不仅提供了高预测性能,还能够在全局和局部层面量化模型决策(Li等人,2025;Ding等人,2025)。尽管有这些进展,但在具有强异质性和显著非稳定性的喀斯特环境中,可解释模型的稳健性和可靠性仍然有限(Kratzert等人,2019;Sit等人,2020)。在低流量和洪水高峰期,系统偏差尤为明显,主要是由于非线性的导水管响应和突然的连通性,这使模型结构变得复杂(Frame等人,2022;Feng等人,2023)。
除了时间复杂性外,空间异质性同样重要。裂缝和断层系统强烈控制着降雨的垂直和水平传输效率(Tague和Grant,2004)。在土壤覆盖稀疏的喀斯特地区,降水可以直接通过裂缝和通道渗透到地下,导致地表径流极少(Peng和Wang,2012;White,2002)。在区域范围内,地下水通常通过通道系统汇集并在泉眼中排放(Malagò等人,2016),使得泉眼排放成为含水层储水动态的可靠代理(Hu等人,2008)。许多研究表明,泉眼排放对降雨变化敏感,这种关系在不同气候条件下都得到了验证(Chen等人,2004;Hartmann等人,2012;De Rooij等人,2013;Huo等人,2016)。
在补给-排放过程中,降水通常表现出较低的电导率(EC)。进入喀斯特含水层系统后,它与具有不同停留时间的基质水、裂缝水和通道水混合,导致EC值出现显著波动(Penna等人,2016;Engel等人,2018)。这些变化反映了不同流动路径的相对贡献,有助于理解裂缝-通道结构的发展(Wang等人,2020;Guo等人,2022)。例如,Birk等人(2004)通过结合分析泉眼EC和温度揭示了局部流出特征。由于EC对混合和稀释的即时响应,它逐渐被认作喀斯特系统中地下流动状态的动态代理(Ravbar等人,2011)。更重要的是,高频监测显示,EC与泉眼排放之间的时间相关性通常比排放与降雨之间的相关性更强,突显了EC在捕捉水动力过程中的诊断价值(Li等人,2017)。
尽管EC数据具有诊断潜力,并且引入了可解释的机器学习方法,但喀斯特含水层的极端异质性和非稳定性仍然导致现有模型在关键水文时期出现显著的系统偏差。基于此,我们开发了一种可解释且具有偏差意识的混合建模框架HieraBoost-Q,该框架使用多站点EC观测作为状态代理,结合分层XGBoost和SHAP解释,并应用多阶段偏差校正来增强模型的稳健性。该方法应用于中国西南部的毛村喀斯特流域,具有三个主要目标:(1)显著提高地下河出口径流的预测准确性,并且关键的是,利用具有偏差意识的架构来减轻和消除喀斯特系统在低流量和洪水高峰期表现出的结构系统偏差;(2)利用多站点EC信号的时空动态,通过SHAP解释定量分析和阐明不同流动路径对径流动态的贡献模式;(3)建立一个可解释的定量诊断方法,为在数据驱动框架内阐明和验证喀斯特含水层的复杂补给-排放机制提供新的途径。

研究区域和数据

毛村地下河流域位于中国广西省,距离桂林市东南约28公里,面积约为11.24平方公里,其中7.83平方公里为喀斯特地形,3.41平方公里为非喀斯特地形。毛村地下河流系统是一个完整的水文地质单元,形成于桂林市的峰簇-洼地区域(图1a)。毛村地下河流系统具有亚热带季风气候,四季分明,降水量丰富,热量充足。

不同水文条件下的预测性能

表2总结了XP在不同水文条件下的性能。在全球范围内,通过逐步校准,模型的性能显著提高:RMSE从9.767降低到3.603 L s?1,R2从0.907提高到0.987,MAPE从71.1%降低到3.1%。与传统基于降雨的模型不同,XP利用EC信号实现了快速和缓慢径流过程的连续表示。
在非喀斯特流域进行的研究中,该模型的性能

结论

复合的导水管-裂缝-基质系统以及复杂的地形共同塑造了喀斯特流域中高度异质的水文响应。本研究介绍了HieraBoost-Q框架,该框架使用多站点EC作为可观测的状态代理,并结合分层XGBoost和SHAP解释方法,实现了高精度的、可解释的出口径流模拟。这为揭示补给-排放机制的时空共同演化提供了定量途径。

未引用的参考文献

Barfield等人,2004;Cano-Paoli等人,2019;Chang等人,2021;Engel等人,2019;Feng和Niu,2021;Ford和Williams,2007;Guo等人,2024;Kai等人,2021;Karki等人,2023;Li等人,2024;Lundberg和Lee,xxxx;Man等人,2023;Massei等人,2003;Reichstein等人,2019;Scientific Investigations Report,2007;Sezen等人,2019;Solanki等人,2025。

CRediT作者贡献声明

朱欣霞:撰写 – 审稿与编辑,撰写 – 原稿,验证,方法论,数据分析,概念化。牛杰:撰写 – 审稿与编辑,验证,监督,资金获取。朱庆民:撰写 – 审稿与编辑,数据分析。黄芬:调查,数据分析。邱涵:撰写 – 审稿与编辑,验证。刘东东:监督,资金获取。吴攀:监督,资金获取。胡比尔·X.

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究得到了国家自然科学基金重点项目 [42430712]、国家自然科学基金 [41972244]、贵州省科学技术厅项目(2022年喀斯特地区地下水污染防控技术系统)、贵州省高层次人才培训计划GCC[2023]045)以及贵州省科技支持项目(Qiankehe Support[2024] General)的资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号