在数据稀缺地区,利用基于聚类的机器学习技术提升水位预测精度

《Environmental Modelling & Software》:Advancing Water Level Prediction Using Clustering-based Machine Learning Techniques in Data-Scarce Regions

【字体: 时间:2026年01月28日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  聚类分析结合MLP模型提升韩国Saemangeum流域水文预测精度,采用k-means聚类与波粒熵特征划分6类水文相似站点,通过最长记录站训练策略实现97% Nash-Sutcliffe效率,验证了数据稀缺环境下计算效率与预测效果的平衡优化。

  
李相贤|张泰一
韩国全北国立大学农业科学与技术研究所/农村建筑工程系,全北道全州市,54896

摘要

准确且可扩展的水位预测对于有效的水资源管理至关重要,尤其是在长期记录有限的地区。我们提出了一种基于聚类的框架,用于预测韩国Saemangeum流域未来一天和三天的水位。使用小波熵特征,将25个监测站分为六个水文特征相似的簇。在每个簇内,采用两种策略训练多层感知器(MLP):(1)仅在中心站进行训练;(2)在每个簇中记录最长的站点进行训练。采用记录最长站点的策略与观测结果高度一致,一天前预测的Nash–Sutcliffe效率均值和均方根误差分别为0.97和0.06,三天前预测的相应值为0.83和0.14。通过为每个簇训练一个MLP并将其转移到所有成员站点,该框架降低了计算成本,为数据稀缺环境中的大规模水位预测提供了实用的解决方案。

引言

准确的水位预测是水文学和水资源工程中的重大挑战,因为它直接影响河流和水库中淡水的可用性和分布。可靠的预测对于管理高流量和低流量条件至关重要,这对于洪水缓解、农业灌溉以及生态系统和环境的可持续性都至关重要(Liu等人,2021;Yuan等人,2022;Mihel等人,2024)。然而,由于气候变化加剧、城市化迅速、土地利用变化无序以及用水需求增加,有效的水资源管理面临诸多挑战(Solanki等人,2025),这些因素都加剧了水文系统对洪水和干旱的脆弱性。因此,开发支持主动和可持续水资源规划的早期预警系统对于在日益不确定的水文气候条件下及时做出明智决策至关重要。
基于物理的河流动力学模型是理解和预测河流流量动态、水位以及洪泛区淹没情况的强大工具(Kebede等人,2006;Huang等人,2010;Li等人,2023)。然而,这些模型需要详细的地形、水深和气象数据等大量输入数据,而这些数据在数据稀缺地区往往难以获得(Zhu等人,2020)。这些限制促使人们迅速采用数据驱动的方法,从简单的统计模型到先进的机器学习(ML)技术。近年来,深度学习架构取得了显著发展,以捕捉水文系统的复杂时间依赖性(Ghorbani等人,2018;Sanikhani等人,2019;Yaseen等人,2019)。例如,长短期记忆(LSTM)网络已成为解决时间序列预测中梯度消失问题的标准方法(Hochreiter和Schmidhuber,1997)。最近,混合深度学习模型出现,进一步提高了预测性能。Wang等人(2024)提出了一种结合小波去噪和基于注意力机制的LSTM的复合方法,证明了注意力机制可以有效权衡重要时间步骤,从而提高可解释性和准确性。类似地,Wang等人(2025)引入了一种带有自注意力的奇异谱分析增强双向时间卷积网络(SSA-BiTCN-SelfAttention),强调了TCN在并行计算和捕捉长距离依赖性方面的优势。其他研究探索了CNN-LSTM混合模型,利用卷积神经网络(CNN)在时间处理之前提取局部特征(Woo,2026)。
然而,尽管这些复杂的深度学习模型(如BiTCN、Transformer和基于注意力的架构)提供了先进的准确性,但它们通常伴随着显著的权衡。它们通常需要庞大的数据集以避免过拟合,由于其深层结构导致计算成本高昂,并且涉及复杂的超参数调整,这阻碍了在资源受限环境中的实际广泛应用。在缺乏长期高分辨率记录的数据稀缺地区,更简单但更稳健的架构可能在准确性和计算效率之间提供更实用的平衡。在这种情况下,前馈人工神经网络(ANN),特别是多层感知器(MLP),因其强大的能力在站点尺度上近似输入和输出变量之间的复杂非线性关系而被广泛使用(Zhou等人,2020;Naganna等人,2023;Reihanifar等人,2023)。与传统的统计方法不同,ANN不需要对潜在的物理过程做出明确假设,可以直接从数据中学习模式。通过利用其灵活的网络结构,这些模型可以有效地捕捉时间序列中的水文过程,使其成为水位预测的合适且高效的工具,尤其是在缺乏复杂水文模型所需详细数据的情况下。
MLP能够捕捉复杂的时间模式、非线性依赖性和长期趋势,通过分析历史时间序列来提高水文预测的准确性。然而,ML模型的有效训练高度依赖于足够长的历史记录的可用性(Fang等人,2022;Botterill和McMillan,2023),而这在许多测量站往往是有限的。特别是,流域内站点之间的记录长度不均匀,有些站点有长期观测数据,而其他站点提供的记录较短,这限制了整个流域内所有可用站点的ML模型开发。为了解决这一挑战,可以使用聚类技术将具有相似水文模式的站点分组,然后使用每个簇内的代表性站点进行模型训练(Nourani等人,2015;Sun等人,2019;Lee等人,2025)。基于聚类的方法使得在整个流域内开发有效的预测模型成为可能,减少了计算负担,并有效地利用了记录长度不同的异构数据集。然而,选择代表性站点可能具有主观性,这突显了需要一种系统和客观的策略来识别代表性站点。
为了解决这些差距,本研究的主要目标是在流域尺度上开发准确且计算效率高的未来一天和三天的水位预测模型。我们引入了一种改进的基于聚类的水位预测方法,旨在解决站点间水位记录时间覆盖范围不同的挑战。该框架不仅能够在少数参考站点上开发模型,还能在记录较短或不完整的站点上开发模型,为整个流域的水位管理和预测提供了实用且可扩展的解决方案。

研究区域和数据

位于韩国全北的Saemangeum流域包括Mangyeong河和Dongjin河(图1),这两条河流是支持区域生物多样性和农业可持续性的重要生态走廊(Lee和Kim,2021)。这两条河流被认为是韩国的主要河流之一,对水资源管理、农业灌溉、防洪和区域生态可持续性具有重要意义(Lee和Kim,2021)。总面积

提出的水位预测过程

我们提出了一种基于聚类的建模方法,用于开发高效且可扩展的水位预测框架(图2)。首先,根据k-means聚类算法将25个站点分为k个簇。在每个簇内,探索了两种训练AI模型以预测未来一天和三天水位的替代策略:1)在反映簇代表性水文条件的中心站进行训练;2)在

每日水位时间序列

25个站点之间的每日水位记录的时间覆盖完整性各不相同(图3)。2010年之前的数据缺失比例较高,反映了区域监测网络的逐步扩展。自2020年以来,数据可用性显著提高,各站点之间的记录变得一致。2020年至2024年间,25个站点的完整每日水位记录显示了明显的时间模式(图4)。大多数站点显示

讨论

与传统基于物理和统计的方法相比,所提出的框架在数据稀缺地区具有实际优势。首先,虽然基于物理的模型可以提供有关水文过程的详细信息,但它们需要大量的输入数据,而这些数据在世界许多地方都不可用。这种数据限制使得它们的实施不可行,因此数据驱动的方法成为一种实用的替代方案。此外,简单的统计方法或

结论

本研究提出了一种基于聚类的WT–MLP框架,用于预测Saemangeum流域未来一天和三天的水位。通过将小波熵特征与k-means聚类算法相结合,站点被分为六个同质簇,从而减少了冗余性,同时保留了水位变化的重要时间特征。在每个簇内,我们评估了两种使用多层感知器(MLP)模型的替代训练策略:

软件和数据可用性

开发者:李相贤
首次可用日期:2025年11月18日
编程语言:Python
开发的模型可以在普通PC上运行。

CRediT作者贡献声明

李相贤:撰写——原始草稿、可视化、验证、软件、方法论、正式分析、数据整理。张泰一:撰写——审阅与编辑、资源管理、项目协调、调查

未引用的参考文献

Cali?ski和Harabasz,1974。

利益冲突声明

作者声明没有利益冲突。

数据可用性

作者无权分享数据。

利益冲突声明

? 作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:张泰一报告称获得了韩国食品、农业、林业和渔业技术规划与评估机构的财务支持。李相贤报告称获得了韩国食品、农业、林业和渔业技术规划与评估机构的财务支持。如果有其他作者,他们声明

致谢

本研究得到了韩国食品、农业、林业和渔业技术规划与评估机构在农业、食品和农村事务部的支持[资助编号RS-2025-02215604]。本文得到了全北国立大学新任命教授的研究资金支持,在2025年。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号