基于物理知识的机器学习方法,结合嵌入式沉积物等级曲线约束,用于高保真度的多时间延迟悬浮沉积物浓度预测

《Journal of Hydrology》:Physics-informed machine learning with embedded sediment rating curve constraints for high-fidelity multi-lead-time forecast of suspended sediment concentration

【字体: 时间:2026年03月15日 来源:Journal of Hydrology 6.3

编辑推荐:

  悬浮物浓度预测模型通过物理信息增强机器学习框架结合阈值分割方程,在密西西比河下游实现R2达0.986的高精度预测,有效捕捉非平稳水文过程中的极端事件与滞后效应,验证物理约束的有效性。

  
优素福·赫马特扎德(Yousef Hemmatzadeh)、萨德拉·沙德卡尼(Sadra Shadkani)、阿里·侯赛因扎德·达利尔(Ali Hosseinzadeh Dalir)、塞皮德·卡里米(Sepideh Karimi)、贾拉尔·希里(Jalal Shiri)和阿里·萨贝尔(Ali Saber)
伊朗大不里士大学农业学院水利工程系

摘要

悬浮沉积物浓度(SSC)对河流形态动力学、沉积物输送和生态健康具有关键影响。其预测受到由水文变化和多尺度相互作用驱动的非线性、非平稳动态的阻碍。传统模型往往无法捕捉这些复杂性,因此需要采用基于物理原理的适应性方法。本研究开发了一种基于物理原理的机器学习框架,将该框架中的经验沉积物等级曲线作为可微分正则化项嵌入到MLP-SGD和XGBoost损失函数中。测试了两种公式:一种是费尔南德斯(Fernández)等人(2018年)提出的单状态方程,另一种是基于阈值的分段曲线。通过对上密西西比河下游切斯特(Chester,CH)和底比斯(Thebes,TH)站1982-2022年的日流量(Q)和SSC数据进行分析,结果表明,先进的基于物理原理的极端梯度提升树模型(APhyXGBoost-6)在R2值上分别达到了0.981(切斯特)和0.986(底比斯),比传统的XGBoost模型高出15.5-16.1%,并且散布指数降低了66%以上。该模型能够准确再现极端SSC事件和重尾分布,并在长达14天的预测期内保持预测能力。在高流量条件下,当经验等级曲线失效时(NSE < -16),APhyXGBoost-6仍能保持高精度(R2 > 0.95)。这一成果表明,将基于物理原理的方法融入数据驱动模型中可以有效提升复杂河流系统中的SSC预测能力。

引言

悬浮沉积物浓度(SSC)是一个重要的水文-沉积变量,它决定了河流形态、沉积物输送效率、生态完整性以及水利基础设施的运行韧性。准确估算SSC对于河流工程、洪水风险缓解、水库沉积物控制、污染物传输建模和环境保护至关重要(Khankhoje等人,2025年;Van Hamel等人,2025年;Yang等人,2009年)。然而,SSC的动态受到水力、水文和沉积学过程的复杂非线性相互作用的影响,这些过程在空间和时间尺度上存在差异,使得沉积物输送本质上具有非平稳性,难以用确定性模型进行预测(Song等人,2024年;Zhang等人,2025年;Zhao等人,2024年)。
已经提出了许多经验沉积物等级曲线来关联SSC和河流流量(Q),其中大多数基于受控实验室实验或特定地点的现场校准(Van等人,2023年;Yang等人,2009年)。尽管这些方程计算效率高且应用广泛,但它们存在显著局限性:它们假设数据具有平稳性,忽略了滞后现象,无法捕捉由阈值驱动的沉积物输送机制,并且在不同流量状态或流域间的适用性较差(Haddadchi等人,2012年;Slabon和Hoffmann,2024年)。即使是经过现场校准的方程,例如费尔南德斯等人(2018年)为上密西西比河下游部分推导的方程(公式(1)),虽然能反映长期统计平衡状态,但在瞬态、高流量或非稳态条件下表现不佳。这些局限性使得这些方程不适用于实际预测,尤其是在多天预测期或极端水文事件期间。
相比之下,数据驱动的机器学习(ML)模型,包括人工神经网络(ANNs)(Bhattacharya和Solomatine,2005年)、神经模糊推理系统(ANFIS)(Sedighkia等人,2024年)以及最近出现的深度学习(DL)架构,如长短期记忆网络(LSTMs)(Kaveh等人,2021年)和梯度提升树(XGBoost)(AlDahoul等人,2021年),在无需明确机械假设的情况下能够捕捉非线性、滞后和依赖于流量状态的复杂关系,从而展现出更强的预测能力。例如,Kaveh等人(2021年)发现LSTM在日SSC预测方面优于ANFIS和前馈神经网络;AlDahoul等人(2021年)证实LSTM在沉积物负荷预测任务中优于多层感知器(MLP)、XGBoost和线性回归。
然而,这些模型仍存在一个根本性局限:它们完全不依赖于物理原理进行优化,仅关注最小化均方误差或均绝对误差等统计指标,因此经常产生违反沉积物连续性的输出、产生非物理的滞后现象,或在训练数据范围之外进行不合理的外推(Karpatne等人,2017年;Raissi等人,2019年)。这种“黑箱”行为影响了模型的可解释性,限制了模型的泛化能力,并在物理合理性至关重要的情况下降低了从业者的信任度(Mir等人,2024年;Shen等人,2012年)。
最近基于物理原理的机器学习(PIML)的发展试图通过将领域知识直接嵌入模型架构中来弥合数据驱动灵活性与物理一致性之间的差距,无论是通过控制方程(Raissi等人,2019年)还是理论指导的正则化方法(Karpatne等人,2017年)。然而,在沉积物输送建模领域,仍存在一个关键的方法论空白:尽管经验沉积物等级曲线被广泛用作操作工具,但尚未有研究将其作为可微分的、基于物理的约束条件纳入深度学习或梯度提升框架中。这是一个被忽视的机会:这些基于经验的关系不应被视为静态或过于简化的,而应作为基于物理的正则化项,引导数据驱动模型朝向水动力学的合理行为,同时不牺牲其学习复杂非平稳动态的能力。
为解决这一难题,本研究提出了四项方法创新,以改进大型河流系统中的SSC预测。首先,我们在费尔南德斯(2018年)的工作基础上进行了扩展,他们使用圣路易斯(St. Louis,MO)的数据推导出了一种单状态幂律等级曲线,该站点位于切斯特和底比斯上游,不受俄亥俄河主要冲刷负荷的影响。鉴于该方程无法反映俄亥俄河汇流点下游的沉积物状态,我们开发了一种新的基于阈值的分段等级曲线,专门针对切斯特和底比斯站点进行了校准。这种新公式保留了费尔南德斯(2018年)的功能形式,但使用站点获取的阈值将流量范围划分为三个具有物理意义的阶段,从而捕捉到了单一幂律无法表示的流量依赖的沉积物供应和输送效率变化。
其次,我们评估了模型在多步预测时间范围(1-30天)内的性能,这一时间尺度在基于ML的沉积物研究中很少被研究,以量化性能下降情况,并确定物理约束条件提供最大效益的操作可行预测窗口。第三,我们实施了一种非对称的损失加权方案,优先考虑高幅度SSC事件,从而纠正了传统对称损失的中值偏差,确保模型对极端高影响条件的敏感性。第四,我们将实时流量状态分类(低、过渡、高)纳入推理流程,使模型能够动态适应非平稳水文状态,这是静态、一刀切架构所不具备的能力。
这些创新在上密西西比河下游进行了测试,该河流具有全球重要性,沉积物丰富且易发生洪水。我们使用了美国地质调查局(USGS)在切斯特和底比斯站收集的长期日流量和SSC记录。通过将经验推导但静态受限的等级曲线转化为动态的、优化级别的约束条件,本研究建立了一个可泛化的、模块化的PIML框架,实现了统计准确性和物理真实性的结合。这种方法可以很容易地应用于其他存在经验关系但在瞬态、极端或非平稳条件下失效的环境预测问题。

研究区域和数据收集

密西西比河是北美洲第二长的河流系统,发源于明尼苏达州北部的伊塔斯卡湖(Lake Itasca),流经美国中部,最终注入墨西哥湾。其主要河道长度约为3781公里,是该大陆最大流域的重要组成部分。尽管密苏里河(Missouri River)的长度比密西西比河长约160公里,但综合考虑密西西比河-密苏里河系统通常被认为是...

基于物理原理的ML架构在SSC预测中的性能分析

评估了六种ML架构(随机森林、MLP、XGBoost、MLP-SGD、PhyMLP-SGD和APhyXGBoost)在上密西西比河下游切斯特(CH)和底比斯(TH)站进行日SSC预测的能力。模型在六种输入配置(配置1-6)下进行了测试,每种配置逐步增加了额外的时间信息,以分离沉积物前期记忆和实时流量驱动的贡献(表2)。

通过滞后动态验证模型:捕捉切斯特和底比斯重大洪水事件中的非平稳沉积物输送

图6通过结合SSC-Q轨迹热图和方向箭头的新型可视化框架,全面验证了APhyXGBoost-6模型复制非平稳沉积物输送动态的能力。对于每次洪水事件(CH-2013、CH-2017、CH-2019、TH-2016、TH-2017和TH-2019),分析重点关注了三个关键维度:(1)计算出的滞后指数(HI),该指数量化了顺时针(供应受限)或...

结论

本研究开发了一种基于物理原理的机器学习(PIML)框架,用于上密西西比河下游的日悬浮沉积物浓度(SSC)预测,将经验沉积物等级曲线作为软物理约束条件嵌入到梯度提升和神经网络架构中。测试了两种公式:一种是费尔南德斯(2018年)提出的单状态幂律方程,另一种是本研究提出的基于阈值的分段方程(公式(17)。

模型代码的可用性

APhyXGBoost和PhyMLP-SGD模型的代码以及实现细节、数据预处理脚本和教程手册可在以下链接获取:https://github.com/Sshadkani/APhyXGBoost-PhyMLP-SGD-SSC-Hemmatzadeh-et-al.-2026-

CRediT作者贡献声明

优素福·赫马特扎德(Yousef Hemmatzadeh):撰写 – 审稿与编辑、初稿撰写、验证、软件开发、资源准备、方法论设计、调查分析、数据整理、概念构建。萨德拉·沙德卡尼(Sadra Shadkani):撰写 – 审稿与编辑、软件开发、方法论设计、数据整理、概念构建。阿里·侯赛因扎德·达利尔(Ali Hosseinzadeh Dalir):撰写 – 审稿与编辑、初稿撰写、可视化设计、监督工作、软件开发、方法论设计、调查分析、概念构建。塞皮德·卡里米(Sepideh Karimi):

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

作者衷心感谢美国地质调查局(USGS)提供上密西西比河下游切斯特和底比斯站的日流量和悬浮沉积物浓度数据。特别感谢大不里士大学水利工程系以及温莎大学(University of Windsor)的大湖环境研究所(GLIER)在研究过程中的技术支持和智力支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号