创新的优化驱动机器学习模型,用于小时流量预测

《Knowledge-Based Systems》:Innovative Optimization-Driven Machine Learning Models for Hourly Streamflow Forecasting

【字体: 时间:2026年02月04日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  短时径流预测研究采用MLP与GB融合的优化模型,结合人工蜜獾与人工兔算法提升精度,在华盛顿州Chehalis河流域2011-2023年数据验证中,HBA-MLP M5模型1-6小时预报RMSE为1.87-7.58,R2达0.99-1.0,优于国家水模型(NWM),尤其在极端径流事件中表现突出。

  
Peiman Parisouj|Changhyun Jun|Sayed M. Bateni|Shunlin Liang
中昂大学智能城市系,首尔,韩国

摘要

本研究提出了一种新的短期流量预测框架,该框架将多层感知器(MLP)和梯度提升(GB)模型与人工兔子优化(ARO)以及蜜獾算法(HBA)相结合。这一框架通过提供一种比复杂物理模型更可靠的替代方案,满足了精确洪水预测的迫切需求。该方法应用到了美国易发生洪水的Chehalis流域,使用了2011-2023年的水文气象数据,包括降水量、温度、湿度、风速和流量。研究通过测试两种模型配置系统地评估了输入数据的质量和数量的影响:基础模型(M1和M2)使用较简单的输入数据,而升级模型(M3、M4和M5)则使用更复杂的特征。优化后的HBA-MLP混合模型在1-6小时内的流量预测中,均方根误差(RMSE)值为1.87-7.58,2019-2023年测试数据中的均方根误差(RMSE)范围为0.99-1.0。平均而言,使用M5输入数据的MLP模型相比GB模型,RMSE降低了58%,平均绝对误差(MAE)降低了22.6%。HBA-MLP M5模型在预测极端流量事件方面表现优异,解决了水文预测中的一个关键挑战。此外,所提出的框架优于国家水模型(NWM),尤其是在高流量时期,使其更适合实时洪水预测。总体而言,本研究展示了如何通过将机器学习模型与优化技术相结合来提高洪水预测系统的准确性和可靠性,从而为类似流域的有效洪水缓解策略提供支持。

引言

准确的短期流量预测对于有效的洪水管理至关重要,能够及时准备和响应,以减轻突发洪水事件和强降雨的影响[4,7,33,34,36,53,54]。然而,现有预测模型的有效性往往受到其对高质量数据、复杂结构和特定参数依赖的限制,导致预测性能、鲁棒性和可转移性的不确定性增加。这种不确定性经常被忽视,尤其是在使用不同的输入变量或将模型应用于具有不同水文条件的地区时。此外,这些模型的复杂性和数据依赖性可能导致性能不一致,尤其是在预测范围延长时。这些局限性突显了需要开发不仅使用精确时间步长,还结合全面评估和优化预测因子的流量预测模型的迫切需求,以提高其在不同水文场景下的可靠性和泛化能力。
除了基于物理的模型(通常涉及大量变量)外,机器学习模型由于其灵活性、速度和更高的准确性潜力而在流量预测中越来越受欢迎[20,38,57]。然而,这些数据驱动的模型存在显著的限制,包括它们依赖于通常难以获取和维护的大型数据集,以及可解释性有限,这使得研究人员和从业者难以完全理解和信任它们的预测[44]。因此,已经开发了各种数据驱动的模型,如自回归积分移动平均、支持向量回归(SVR)、k最近邻回归(KNR)、多层感知器(MLP)、卷积神经网络(CNN)、混合模型和梯度提升(GB),以提高准确性[8,11,14,15,30,43,48,51,52,59,60,62]。尽管取得了这些进展,但在不同水文条件和地理区域推广这些模型仍然存在挑战,它们的复杂性可能会阻碍实时预测的实际应用。
鉴于这些限制,混合模型在流量预测中变得越来越重要,因为结合多种建模技术可以帮助克服单一模型的缺点并提高预测准确性[39]。通过结合不同方法的优点,混合模型能够更全面地表示复杂的水文过程并增强特征提取。例如,变分模态分解和改进的完全集成经验模态分解结合自适应噪声已被证明可以产生更精确的子序列,从而提高预测准确性[54]。此外,优化算法在调整模型超参数方面发挥着关键作用,以适应混合模型组件的多样化特性。包括粒子群优化(PSO)和灰狼优化(GWO)在内的优化算法已成功应用于选择最佳输入滞后和超参数,从而提高了预测性能[32,55]。
当与机器学习技术结合时,优化算法在提高流量预测性能方面显示出强大的潜力。Jia等人[28]强调了蚁群优化和GWO在通过优化包括决策树、SVR和长短期记忆在内的机器学习方法组合来提高预测准确性方面的有效性。同样,Martinho等人[35]展示了受生物启发的算法(如PSO)在为极端梯度提升等模型选择最佳超参数方面的成功,从而提高了短期多步预测性能。然而,优化算法的有效性通常高度依赖于问题背景和参数配置,这在复杂的高维空间中可能计算密集且具有挑战性。这些局限性突显了需要具有改进收敛效率、降低计算成本和更高鲁棒性的优化算法。最近开发的受生物启发的优化算法,如HBA和ARO,旨在提高收敛速度,平衡探索和利用,并减少复杂高维优化问题中的过早收敛风险[26,55]。这些特性对于需要快速模型更新和计算效率的短期每小时流量预测尤为重要。因此,本研究通过将两种新的受生物启发的优化方法HBA和ARO与MLP和GB模型相结合,引入了创新的混合流量预测模型,用于每小时多步预测。本研究旨在解决以下研究问题:
  • 在流量预测中使用混合模型有哪些潜在的好处和挑战?
  • 优化方法(如HBA和ARO)如何提高流量预测模型的准确性和效率?
  • 不同的输入配置如何影响流量预测模型的性能,这对它们的广泛应用有何影响?
  • 所提出的模型与NWM预测相比表现如何?
  • 尽管许多研究人员关注美国的流量预测,但据我们所知,这是首次尝试将新颖的HBA和ARO技术应用于优化MLP和GB模型,以实现多个短期预测范围(1-6小时)的每小时流量预测。我们关注MLP和GB模型,因为它们在流量预测方面具有独特的优势。MLP与元启发式算法结合使用时表现出色[28],而GB在流量预测和气候影响分析中已被证明优于几种机器学习和统计方法[9,29]。为了确定最佳预测因子组合并超越现有方法提高预测能力,使用了不同的降水量、温度、风速和流量数据组合开发了五种模型配置(M1-M5)。基础配置(M1和M2)仅包括基本输入,而升级配置(M3-M5)则纳入了额外的变量,以评估扩展输入信息带来的性能提升。
    近年来,国家水模型(NWM)在美国广泛用于流量预测,利用基于物理的方法来预测水文过程[1,10,19,47]。虽然NWM在国家层面提供了有价值的预测,但其性能可能受到局部水文条件复杂性和变化性的限制,特别是在极端天气事件期间。该模型倾向于高估实际径流,表明需要改进以提高准确性,特别是在捕捉局部水文动态方面[25]。在这项研究中,包括了国家水模型的预测结果,以便与所提出的基于机器学习的模型进行比较,从而评估Chehalis流域内相对的短期流量预测性能。
    本文的其余部分组织如下:第2节概述了方法论,并指定了算法和性能指标。第3节描述了模型开发和案例研究。第4节和第5节展示了结果并进行了讨论。第6节总结了我们的研究贡献。

    部分摘录

    梯度提升(GB)回归模型

    图2(a)展示了一种提升方法,与bagging不同,它依次生成基础模型[62]。基于梯度下降的提升方法公式已被推导出来,以建立与统计框架的联系[16,18,17]。使用这种特定提升技术构建的模型被标记为GB[37]。GB由于其竞争性、韧性和能够促进可解释的回归而非常适合分析不干净的数据[46]

    材料和模型开发

    研究区域是美国华盛顿州的Chehalis河流域,该地区具有独特的地质和气候特征。图1显示了Chehalis河流域的位置。
    Chehalis河流域位于华盛顿州西部,面积约为5400平方公里。这条河流发源于喀斯喀特山脉,向西流经山谷和平坦地区,最终流入Grays Harbor,这是一个与太平洋相连的大型沿海地区。该地区具有类似雨林的特征

    结果

    本节讨论了Chehalis河流域的流量预测。小节4.1和4.2分别展示了基础输入模型和升级输入模型的结果。小节4.3讨论了国家水模型的性能。对于所有五种配置,我们应用了MLP、ARO-MLP、HBA-MLP、GB、ARO-GB和HBA-GB模型,并根据标准的水文模型性能指标进行了评估:RMSE、MAE、MBE和R2R2。这些指标是针对训练数据计算的

    讨论

    MLP模型的先进结构设计使其显著优于本研究中检查的其他建模方法。我们假设这种优越性能源于MLP的分层架构能够学习短期水文气象和流量数据中固有的平滑非线性关系和交互效应。与使用顺序拟合决策树集成的GB方法相比,MLP利用了分层

    结论

    在重大降雨事件期间进行准确的流量预测对于有效的洪水事件管理至关重要。鉴于水文过程的复杂性,生成精确的预测仍然是一个重大的挑战和重要的研究领域。在这项研究中,我们探索了一种新颖的HBA-MLP模型的性能,并将其与另外三种模型(ARO-MLP、HBA-GB和ARO-GB)进行了比较,以在Chehalis河流域的背景下进行评估。目标是推进多步预测

    资助

    本工作得到了韩国国家研究基金会(NRF)的资助(由韩国政府(MSIT)提供,项目编号NRF-2022R1A4A3032838和RS-2024-00334564);韩国科学技术信息通信部下的KICT研究计划(项目编号20240166-001,基于数字新政的IWRM-Korea技术融合平台开发(3/3);以及2021年中昂大学青年科学家奖学金的支持。

    CRediT作者贡献声明

    Peiman Parisouj:写作 – 审稿与编辑,撰写原始草稿,可视化,验证,监督,软件,方法论,调查,正式分析,数据管理,概念化。Changhyun Jun:写作 – 审稿与编辑,可视化,验证,监督,项目管理,方法论,资金获取。Sayed M. Bateni:写作 – 审稿与编辑,可视化,验证,资源管理,项目管理,方法论,调查,资金获取,

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号