《Journal of Hydrology》:Interpretable Budyko-constrained machine learning framework for monthly runoff attribution in U.S. CAMELS basins
编辑推荐:
理解气候变化与人类活动对流域径流的影响是流域管理的关键。本研究提出Budyko-ML框架,整合物理约束与机器学习,通过引入雪水当量与土壤储水动态改进Budyko方程,结合K-means聚类降低空间异质性,利用SHAP和GAM量化气候与人类驱动贡献,揭示非线性阈值效应。摘要部分共105字。
杨子豪|董倩瑾|张旭|方龙章|朱曦|陈库军|爱德华多·马里奥·门迪翁多
中国武汉大学水资源工程与管理国家重点实验室,430072武汉
摘要
理解气候变化和人类活动对径流变化的影响对于适应性流域管理至关重要。然而,许多Budyko方程忽略了积雪融化和土壤水分储存等关键因素。为了解决这一问题,我们开发了一个基于Budyko方程的机器学习框架(Budyko-ML),该框架结合了物理一致性和数据驱动的灵活性。该框架扩展了Budyko方程,以考虑雪水当量(ΔSWE)和土壤水分储存(ΔS)的变化。为了减少空间异质性,使用K-means聚类方法将相似的流域分组。然后应用该框架来归因径流变化,并利用Shapley Additive exPlanations(SHAP)量化气候和人为驱动因素的贡献。广义加性模型(GAM)揭示了关键变量的非线性阈值。研究结果表明,Budyko约束提高了归因的稳定性,与纯数据驱动模型相比,Nash-Sutcliffe效率(NSE)提高了30%。大多数流域的径流量有所下降,主要受气候变化驱动,潜在蒸散量(PET)被认为是主导因素。GAM分析表明,随着平均温度和干旱程度的增加,PET和有效降水量对径流变化的影响阈值降低。该框架提供了一种物理上可解释的、空间上适应性强的方法,用于诊断非平稳条件下的径流变化。
引言
全球气候变化和人类活动正在深刻改变流域水文状况,导致不同地区和子流域的径流在时空上出现显著异质性(Guo等人,2023年;Ni等人,2022年;Zuo等人,2022年)。降水、温度和潜在蒸散量的变化,以及土地利用变化、水库运营和取水行为共同影响了径流模式。这些因素使得径流变化复杂、非线性,并且难以在短期和长期尺度上进行预测(Banda等人,2022年;Saher等人,2021年;Singh等人,2024年;Tian等人,2025年;Zhang等人,2024年)。这些变化不仅影响整体水资源可用性,还加剧了洪水和干旱等水文极端事件,给区域水资源管理和地方决策带来了重大挑战(de Oliveira-Júnior等人,2025年;Kleidon,2024年;Malede等人,2025年)。此外,气候和人为驱动因素的相对重要性在空间和时间上有所不同(Yi等人,2024年;Zhu等人,2023年),进一步增加了管理的复杂性。因此,理解和量化这些驱动因素对径流变异性的贡献对于可持续水资源分配、风险缓解和生态系统保护至关重要。
现有的径流归因方法大致可以分为三类。第一类是统计方法,包括回归和神经网络模型,它们基于经验关系推断驱动因素的贡献(Wang等人,2024年;Zhang等人,2020b)。虽然这些方法能够捕捉复杂模式,但它们依赖于观测到的相关性,限制了其物理可解释性。第二类是基于过程的水文模型,如SWAT和VIC,它们明确模拟水分平衡并区分气候和人为影响(Liu等人,2022年;Qiao等人,2023年;Subbarayan等人,2025年)。这些模型需要广泛的校准和高质量的输入数据,这降低了它们在数据稀缺地区的适用性。第三类是基于Budyko方程的方法,它们使用少量具有物理意义的参数将径流分为气候和人为贡献(Mo等人,2024年;Zheng等人,2021年)。尽管这些模型在流域尺度上得到广泛应用,但它们受到长期平均条件的限制,通常忽略了积雪融化和土壤水分储存动态,限制了它们捕捉季节性和月度径流变化的能力(Hou等人,2022年;Wang等人,2023年)。
机器学习(ML)通过捕捉水文驱动因素之间的非线性和高维关系来改进径流模拟,因此在水文建模和预测中得到广泛应用(Laimighofer等人,2021年;Oka等人,2025年;Sarhadi等人,2016年)。然而,传统的ML方法往往缺乏物理可解释性,通常被视为“黑箱”模型,限制了它们揭示潜在水文机制的能力。最近的进展,如Shapley Additive Explanations(SHAP)和广义加性模型(GAM),提供了量化单个驱动因素贡献的新工具,并揭示了非线性响应和阈值行为(Cao和Ying,2025年;Ding等人,2025年)。这些进展提高了基于ML的水文分析的可解释性。尽管有这些改进,许多研究仍然忽略了流域特征的空间和季节性异质性,倾向于将观测数据汇总到一个模型中。因此,得出的解释通常只代表总体趋势,无法捕捉不同子流域或时间段的径流响应差异。这一限制降低了ML方法在细尺度水文过程分析和针对性水资源管理中的价值。无监督学习通过根据观测数据的内在水文和气候特征对其进行分组,为解决这一问题提供了有希望的途径(Kim等人,2025年;Zhang等人,2025年)。通过在没有标记数据的情况下识别潜在的空间或季节性模式,无监督聚类可以划分出更加均匀的水文单元,减少区域异质性的影响,并提高后续基于ML的归因分析的可解释性和稳健性。
本研究有三个关键贡献:(1)它通过纳入雪水当量(ΔSWE)和土壤水分储存(ΔS)的季节性变化,扩展了传统的Budyko方程,从而在月度尺度上更准确地表示动态水文过程。(2)它提出了一个基于数据的Budyko-ML框架,并结合了物理约束,应用于美国CAMELS数据集。该框架提供了准确且可解释的月度径流变化归因,证明了其在具有不同气候和人为影响的多个流域中的稳健性和适应性。(3)它将SHAP、GAM和聚类集成到一个新的方法中,增强了基于机器学习的水文分析的可解释性,揭示了径流动态中的非线性相互作用和阈值响应。总体而言,Budyko-ML框架为分析径流变化和支持非平稳环境条件下的适应性水资源管理提供了一个稳健且可转移的工具。它为了解不同水文气候条件下的流域敏感性和调节机制提供了新的见解。
本文的其余部分结构如下:第2节描述研究区域、数据和方法。第3节展示结果。第4节讨论主要发现和意义。第5节总结研究。
章节片段
CAMELS数据集
本研究基于Catchment Attributes and Meteorology for Large-sample Studies(CAMELS)数据集(图1)进行分析。。CAMELS提供了关于地形、气候、水文、土地覆盖、土壤和地质的全面数据,涵盖了美国本土的671个流域。这些流域的流域面积从4平方公里到25,000平方公里不等(Addor等人,2017年)。该数据集包括35年(1980-2014年)的连续每日气象和径流记录。径流数据来源于
径流模拟分析
Budyko方程的参数使用五年移动窗口方法进行了校准(Sun等人,2023年)。表1展示了四种Budyko方程在不同有效降水量方案下的NSE。图3显示了Choudhury–Yang模型的模拟结果。表2显示了Choudhury–Yang模型的NSE百分位数。当仅使用原始降水量时,在大西洋沿岸的少数流域观察到了满意的拟合效果,那里降雨量丰富,
季节性归因
为了获得更全面的理解,径流归因在季节性尺度上进行了重新分析(图11)。与月度尺度归因相比,季节性尺度分析表明,人类活动有时对径流变异性的贡献大于气候因素。这主要是因为季节性聚合平滑了气象条件的短期波动,减弱了极端降水或温度事件的直接影响。
结论
本研究提出并验证了一个将Budyko理论约束整合到机器学习中的径流变化归因框架,增强了数据驱动的预测能力,同时保持了物理一致性。主要发现如下:
- 1.
月度模拟准确性的提高:纳入雪水当量(ΔSWE)和土壤水分(ΔS)的变化显著提高了Budyko类型方程的月度模拟准确性。这突显了季节性积雪融化
CRediT作者贡献声明
杨子豪:撰写——原始草稿、方法论、概念化。董倩瑾:撰写——审阅与编辑、验证、调查、资金获取、概念化。张旭:撰写——审阅与编辑、验证。方龙章:可视化。朱曦:数据管理。陈库军:数据管理。爱德华多·马里奥·门迪翁多:可视化。
资助
本研究得到了国家自然科学基金(编号:52279024和52261145744)的支持。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:董倩瑾报告称获得了国家自然科学基金的支持。如果还有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。