《Journal of Hydrology》:An improved Hydrology-Informed attention LSTM(HIA-LSTM) model for runoff simulation with seasonal snowmelt
编辑推荐:
准确模拟青藏高原冰川流域的径流是关键挑战,本研究提出融合物理先验的HIA-LSTM模型,通过时间掩码、对数衰减和温度门控机制捕捉快流、慢流和雪融过程,在六大流域验证中KGE达0.888,较标准LSTM提升0.246,尤其在Amu Darya流域表现突出。
Muwu Ling|Yashuo Guan|Yanqing Lian|Xiaonan Sun|Yongliang Gao|Yuling Ren
长江保护与发展研究所,河海大学,南京 210098,中国
摘要
在青藏高原(TP)的高山流域进行准确的径流模拟对于水资源管理和气候变化影响评估至关重要,但由于复杂的冰冻圈过程以及降水、融雪和冰川融化之间的强非线性相互作用,这一任务仍然具有挑战性。为了解决传统“黑箱”深度学习模型的局限性,本研究提出了一种基于水文信息的注意力LSTM(HIA-LSTM)模型,该模型将物理归纳偏见直接嵌入神经网络架构中。该模型采用专门的注意力头节点来捕捉快速流动、缓慢流动和融雪动态,并结合时间掩蔽、对数衰减和基于温度的门控机制,以确保生成的径流在物理上是一致的。HIA-LSTM在六个不同水文特征的源头流域进行了评估,这些流域涵盖了从季风主导的长江源头到西风驱动的阿姆河(ADR-KK)等多种情况。结果表明,HIA-LSTM的性能优于标准LSTM、注意力LSTM和多头注意力LSTM,在测试期间平均KGE(Kaufman-Griechek指数)为0.888,NSE(Nash-Sutcliffe指数)为0.892。在ADR-KK流域,KGE从LSTM的0.626显著提高到了0.872,这突显了该模型捕捉融雪驱动径流的能力。此外,该模型还显著减少了低流量估计的偏差,并改善了高流量峰值的模拟效果,同时在季节转换期间保持了稳定的性能。注意力权重的分析证实了模型功能与物理过程的明确对应关系,从而提高了在复杂条件下的可解释性和可靠性。本研究提出的方法有效结合了数据驱动和基于过程的建模方法,为具有复杂水文过程(包括季节性融雪)的高山流域的日径流模拟提供了一个稳健且物理上一致的框架。
引言
径流模拟,特别是对于青藏高原(TP)上亚洲水塔(AWT)源头的高山流域而言,对于理解气候变化影响、水资源管理、洪水预警和生态保护具有极其重要的意义(Yao等人,2012年)。青藏高原是十余条主要亚洲河流的源头,对下游数十亿人的生计产生了深远影响。然而,作为“第三极”,这一地区对全球气候变化非常敏感(Kuang和Jiao,2016年),其水文过程具有异质性和极端复杂性。径流的产生受到多种非线性因素的耦合影响,包括冰川融化、季节性融雪、永久冻土活动以及西风和季风之间的相互作用。特别是融雪的间歇性和阈值驱动特性引入了强烈的非线性,给传统建模框架带来了重大挑战(Cui等人,2023年)。
传统的基于物理的水文模型(PBMs)试图通过一系列数学方程来明确描述这些复杂过程(Devia等人,2015年)。然而,构建这些物理模型通常需要更复杂的地面数据,且其物理参数的确定同样具有挑战性(Althoff和Rodrigues,2021年;Chen等人,2011年;Paul等人,2021年;Westerberg等人,2016年;Yuval等人,2021年;Zhu等人,2020年)。相比之下,深度学习(DL)模型,以长短期记忆(LSTM)网络为代表(Hochreiter和Schmidhuber,1997年),在径流模拟方面取得了显著的成功,因为它们具有强大的非线性映射和序列信息捕获能力(Kratzert等人,2018年)。在准确驱动数据和地面参数稀缺的流域中,LSTM作为一种“无模型”方法,可以从数据中学习复杂的未知响应关系,在许多研究中其模拟精度超过了传统PBMs(Amini等人,2024年;Feng等人,2020年;Gauch等人,2021年;Hou等人,2025年;Kim等人,2022年;Ouyang等人,2021年),甚至在未设测站的流域中也用于确定水文模型参数(Ma等人,2021年;Wu等人,2023年)。
尽管取得了这些显著的成功,但标准LSTMs经常因其“黑箱”性质而受到批评(Feng等人,2022年;Lu等人,2021年;Nearing等人,2021年)。标准LSTMs缺乏明确的物理约束,可能会导致捕捉到虚假的相关性——例如,仅根据温度就模拟出夏季的高流量,而未能反映冬季积雪与春季洪水之间的内在物理滞后。这种缺乏基于过程的真实性使得它们在推断未来非稳态气候时的可靠性受到质疑,因为在这些情况下历史输入-输出相关性可能会发生变化(Feng等人,2022年;Wi和Steinschneider,2022年)。在高山水文学中,这种固有的不透明性尤为突出,因为在高山流域中,模型可能只是学习了温度和流量之间的表面相关性(例如,夏季高温对应高流量),但未能真正理解积雪积累(冬季低温)与融雪径流(春季温度上升)之间的物理滞后(Anderson和Radi?,2022年)。Liu等人(2020年)对不同滞后期的研究表明,时间滞后选择的影响可能大于不同深度学习模型之间的差异。这让人对模型在面对气候变化引起的非稳态情景(例如,变暖速率或降水形式的变化)时的预测可靠性产生怀疑(Nearing等人,2021年;Reichstein等人,2019年)。
为了解决这一“黑箱”问题,物理信息深度学习(PIDL)已成为一个研究热点(Ng等人,2023年;Shen,2018年)。现有方法大致分为两类:1)“软约束”:修改损失函数以惩罚违反物理定律的行为(例如,水分平衡)(Konapala等人,2020年),使用DL来校正PBMs的残差(Achite等人,2022年),或将PBMs的模拟输出(如蒸散量或积雪量)作为DL的输入特征(Jiang等人,2020年;Wi和Steinschneider,2022年;Zhong等人,2023年)。例如,Zhong(2023年)采用了一种概念性水文模型结构,其中神经网络层将模型参数映射出来,通过概念模型将原始气象输入转换为具有水文意义的输入序列。然后这些转换后的序列被连接起来并通过额外的神经网络层进行处理,以生成最终预测。然而,这种方法提供的约束较弱,且PBMs输出的不确定性有时会降低DL的性能(Wi和Steinschneider,2022年);2)“硬约束”:在模型架构本身内强制执行物理守恒(例如,质量守恒),例如质量守恒LSTM(MC-LSTM),它采用了一种扩展的路径策略来严格保证水分平衡(Hoedt等人,2021年;Wang等人,2025年)。然而,面对现实世界的流域时,硬约束可能过于僵化。例如,严格的质量守恒无法考虑数据中未包含的输入(例如,冰川融化、地下水补给)或数据本身的系统偏差(例如,高原上降水观测的严重低估),这可能导致性能下降(Frame等人,2023年;Frame等人,2022年;Wang等人,2025年;Zhong等人,2024年)。前者不会妥协现有的自由度,为模型提供了更多的可能性,而后者虽然牺牲了自由度,但能产生更严格的结果。
在探索PIDL的新途径时,注意力机制(Vaswani等人,2017年)提供了一个有前景的中间路径。从概念上讲,注意力权重的分布与水文学中的单位流量图具有数学上的相似性,使其天生擅长识别关键的滞后时间和捕捉非均匀的时空依赖性(Dai等人,2023年;Girihagama等人,2022年;Longyang等人,2024年;Ren等人,2025年;Yuan和Yan,2026年;Zhang等人,2025年)。除了时间注意力外,最近的水文建模研究还结合了空间注意力来捕捉流域的分布式贡献(Longyang等人,2024年)和特征注意力来动态识别多个输入中的主要气象驱动因素(Han等人,2023年)。然而,当前在水文学中应用注意力主要局限于标准架构(例如,Dai(2023年)在En-De结构中使用它)或事后分析(Samek等人,2021年)。此外,标准Transformer架构在降雨-径流建模任务中的表现往往不如无注意力的LSTMs(Liu等人,2024年),这可能是由于数据不足或缺乏循环性。将水文物理先验(如快速流动和基流的明显响应时间)主动整合到注意力机制的结构设计中,仍然是一个未充分探索的领域。设计“结构化偏见”以迫使注意力机制遵循物理定律(例如,为融雪设置单独的通道)是模拟高山流域复杂冰冻圈水文学的一个关键缺口。这种“物理导向的注意力”深度学习方法,特别是在高山流域复杂的冰冻圈水文学背景下,仍处于探索的早期阶段。
为了填补这一空白,本研究提出了一种适用于季节性融雪流域的水文信息注意力LSTM(HIA-LSTM)架构。该框架结合了软约束和硬约束方法的优势,将水文先验知识作为归纳偏见嵌入神经网络架构中。具体来说,它采用了一种固定的结构设计,同时允许某些参数可学习,为模型提供了一定的灵活性。我们设计了一种由不同物理特征引导的多头注意力机制:用于快速流动响应的时间掩蔽、用于长期缓慢流动衰减的对数衰减偏见,以及用于调节融雪路径的温度阈值激活。所提出的架构明确地将水文机制纳入其设计中,将领域知识直接嵌入模型结构中。为了验证所提出的架构,该模型在青藏高原的六个水文站进行了测试。
研究区域
青藏高原(TP)被誉为“亚洲水塔”(Xu等人,2022年)和“第三极”,是多条主要亚洲河流的源头,包括长江、黄河、恒河和阿姆河。该地区面积约为3.08×10?平方公里,平均海拔超过4000米(Yili,2019年),其复杂的高海拔地形对区域气候产生了显著的热力和动态影响(Yao等人,2012年)。这一地区孕育了独特的水文气象现象。
水文信息注意力LSTM(HIA-LSTM)
本研究提出的水文信息注意力LSTM(HIA-LSTM)旨在解决深度学习水文模拟中物理过程不可见的问题。基于“降水-径流”的物理因果链,该模型将神经网络的计算过程重构为一个包含滞后识别和流量调节的物理级联结构(图2)。
总体统计比较
本节旨在全面评估所提出的HIA-LSTM模型在研究区域的日径流模拟性能。将其性能与三个物理无关的参考模型进行比较:标准LSTM、Att-LSTM和MHA-LSTM。
根据表2和图3中的测试期间统计数据,所提出的HIA-LSTM模型在所有研究流域中表现出优越的整体性能。在综合准确性方面,HIA-LSTM取得了
结论
本研究提出了一种新的水文信息注意力LSTM(HIA-LSTM)框架,用于青藏高原高山、受雪和冰川影响的流域的日径流模拟。通过将物理归纳偏见直接嵌入注意力机制中,该模型有效地捕捉了快速流动、缓慢流动和融雪过程的独特动态,解决了传统基于LSTM方法的“黑箱”局限性。主要发现总结如下:
HIA-LSTM
CRediT作者贡献声明
Muwu Ling:撰写——原始草稿、可视化、验证、方法论、正式分析、数据整理、概念化。Yashuo Guan:可视化、数据整理。Yanqing Lian:撰写——审稿与编辑、监督、资源管理、项目协调、资金获取。Xiaonan Sun:数据整理。Yongliang Gao:可视化、数据整理。Yuling Ren:数据整理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本研究得到了中国西藏自治区科学技术项目(XZ202501ZY0004)和中国中央高校基本科研业务费(B240201016)的支持。