基于高频与低频分量分解机器学习(ML)改进降水量预报

《Environmental Modelling & Software》:Improving Precipitation Forecasts Through Machine Learning of the Decomposed High- and Low-Frequency Components

【字体: 时间:2026年06月07日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  传统预报模型通常将时间序列分解为多个子序列,但一般使用单一建模方法对所有分量进行模拟。本研究提出一种新方法,将降水量时间序列分离为独立的高频(high-frequency)与低频(low-frequency)分量,并针对不同气候类型分别建模。研究人员在伊朗代表

  
传统预报模型通常将时间序列分解为多个子序列,但一般使用单一建模方法对所有分量进行模拟。本研究提出一种新方法,将降水量时间序列分离为独立的高频(high-frequency)与低频(low-frequency)分量,并针对不同气候类型分别建模。研究人员在伊朗代表干旱(arid)、半干旱(semi-arid)及湿润(humid)气候的站点上,以月尺度和年尺度降水量检验所提方法。结果表明,该方法较单一模型方法具有更优性能,通过分量分别建模使预报精度提高了39–44%。气候特异性分析显示不同气候区表现模式各异:干旱气候站点的精确率(precision)较高(precision = 0.83),半干旱站点表现为中等精度(precision = 0.495),湿润气候站点保持稳健性能(precision = 0.74)。该两步时间分解方法可有效应对降水量时间序列的非平稳性与随机性特征,从而提升预报准确度。
论文解读:《基于高频与低频分量分解机器学习改进降水量预报》——发表于《Environmental Modelling》
一、研究背景与立项依据
降水量是水文循环的关键组成部分,对水资源规划、地下水补给、农业计划制定、农作物保险及洪水预警系统均具有重要意义。降水量预报的主要难点在于其固有的非线性(nonlinearity)、随机性(randomness)及非平稳性(non-stationarity),即便在物理认知和计算资源不断进步的今天,准确预报降水量仍具挑战。传统气象学依赖线性模型如自回归积分移动平均模型(Autoregressive Integrated Moving Average, ARIMA)和季节性ARIMA(Seasonal ARIMA, SARIMA)进行降水预报,但此类模型难以捕捉降水与各影响因子间的复杂非线性关系,尤其在长期预测中表现有限。随着数据可用性和算力的提升,机器学习(Machine Learning, ML)模型(如人工神经网络 Artificial Neural Network, ANN、长短期记忆网络 Long Short-Term Memory, LSTM)在刻画降水的复杂性与不确定性方面展现出潜力。尽管如此,单一ML模型的预测能力仍受限制。
时间序列分解(Time Series Decomposition, TSD)可提取不同频率特征,从而提升预测精度与稳定性,将分解方法(如经验模态分解 Empirical Mode Decomposition, EMD;小波分解 Wavelet Decomposition;变分模态分解 Variational Mode Decomposition, VMD)与ML耦合的混合模型已被证实优于单独模型。已有研究中,He等人(2022)将降水序列分解为趋势(trend)、季节(seasonal)及残差(remainder)分量并分别建模后求和还原,但未给出分量划分的具体标准;Parviz和Ghorbanpour(2024)虽引入二次分解处理SARIMA估计的误差序列(error series),却未考虑各子序列不同频率特性对建模的影响。因此,现有方法在频率判别标准、分量针对性建模及二次分解策略的结合上仍有不足,有必要发展基于频率判定的分步分解与分频建模框架以提升降水预报精度。
二、关键技术方法概述
研究人员选用伊朗6个分别代表干旱(Semnan、Tehran/Mehrabad、Mashhad)、半干旱(Arak)及湿润(Bandar Anzali、Rasht)气候的气象站点,获取月及年降水量数据(月尺度2015–2024年,年尺度1995–2024年),按80:20划分为率定(calibration)与验证(validation)期。采用Hurst系数检验时间序列长记忆性以确保数据长度充足。第一步使用EMD对原始降水时间序列做一步分解(One-Step Decomposition Time Series, OSDTS),获得若干本征模态函数(Intrinsic Mode Functions, IMFs)及残差;随后分析各子序列频率特征,将其归并为高频(high-frequency)与低频(low-frequency)两部分。月尺度上对高、低频分量分别采用SARIMA、支持向量回归(Support Vector Regression, SVR)及回归树(Regression Trees)建模;年尺度上采用ARIMA与SVR建模。最终将高、低频分量的预测值叠加还原为降水量预报值,并与单一未分解模型对比评估精度。
三、研究结果(保留原文小标题结构)
Case Study(研究区与数据)
研究人员选用伊朗六处气象站点(Semnan、Arak、Bandar Anzali、Rasht、Tehran(Mehrabad)、Mashhad)分别代表干旱、半干旱及湿润气候。气候图(climagraph)显示Bandar Anzali和Rasht降水变率大属湿润气候,Semnan、Tehran和Mashhad温度变率更显著。数据源自伊朗气象组织(Iran Meteorological Organization, IRIMO)及美国国家环境信息中心(National Centers for Environmental Information, NCEI)。
Results(结果)
研究人员通过将EMD分解与ML方法耦合,在月、年降水量预报中提升了ML方法性能。所有站点Hurst系数>0.5,表明数据长度满足长记忆性要求。对所提方法(高频与低频分量分别建模)与单一模型进行比较,分量分别建模使预报精度较单一模型提高39–44%。按气候分区分析:干旱气候站点获较高精确率(precision = 0.83);半干旱气候站点表现为中等精度(precision = 0.495);湿润气候站点维持稳健性能(precision = 0.74)。说明分频分解与针对性建模能有效应对降水序列的非平稳与随机特征,并在不同气候背景下呈现差异化优势。
Discussion(讨论)
讨论中指出,时间序列分解增强基于机器学习的气象要素预报已在多项研究中获证(如LSTM、LightGBM、XGBoost等结合分解),但本研究进一步通过频率判定将EMD初解子序列划分为高频与低频组并分别选用适配的统计/ML模型(月尺度用SARIMA/SVR/回归树,年尺度用ARIMA/SVR),弥补了以往仅做趋势-季节-残差三分或无明确频率划分的不足。不同气候区精度差异可能源于降水过程本身的时间尺度主导频率不同——干旱区降水事件稀疏且具明显季节低频主导特征,故低频建模贡献大;湿润区高频扰动活跃,分解后高频分量被单独建模捕获更多细节;半干旱区高低频交织复杂,故精度介于二者间。该框架具备推广至其他气象及水文变量时间序列预报的潜力。
Conclusion(结论——译自原文Conclusion部分)
降水预报中的不确定性因其复杂内在特性而对水资源管理与农业规划构成重大挑战。本研究表明,通过系统信号分离与频率特异性建模途径,时间序列分解能显著提升预报精度。将支持向量回归应用于经EMD分解的降水序列,因高频与低频分量被分别恰当建模,预报精密度获得显著提升。该两步时间分解方法可有效处理降水时间序列的非平稳与随机特征,从而提高预报准确性,且在不同气候类型下均表现出改进效果。

数据可用性声明:数据来源于 https://www.irimo.ir/https://www.ncei.noaa.gov/access/metadata/landing-page/bin/iso?id=gov.noaa.ncdc%3AC00516,支持性数据及源码见 https://github.com/krasouli/Decomposed-High-and-Low-Frequency-Components。软件采用MATLAB Signal Multiresolution Analyzer及Python实现。CRediT声明:Laleh Parviz、Kabir Rasouli、Abi Nazari Geykli共同完成概念化、方法论、形式分析、撰写及可视化工作。无基金资助,无利益冲突声明。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号