利用机器学习和特征选择改进天气预报的后处理方法

《Atmospheric Research》:Improvements to the post-processing of weather forecasts using machine learning and feature selection

【字体: 时间:2026年05月11日 来源:Atmospheric Research 4.4

编辑推荐:

  岩濑和也 | 竹波智之日本东京海洋科技大学海洋科学技术研究生院摘要本研究旨在利用日本气象厅(JMA)提供的中尺度模型(MSM)数据集,针对包括平原、山区和岛屿在内的日本18个地点,开发和改进基于机器学习的降水、温度和风速预测的后处理模型。通过将目标位置周围网格点的气象变量作为输入

  
岩濑和也 | 竹波智之
日本东京海洋科技大学海洋科学技术研究生院

摘要

本研究旨在利用日本气象厅(JMA)提供的中尺度模型(MSM)数据集,针对包括平原、山区和岛屿在内的日本18个地点,开发和改进基于机器学习的降水、温度和风速预测的后处理模型。通过将目标位置周围网格点的气象变量作为输入特征,并应用基于相关性分析的特征选择方法,我们发现,在实验设置中,基于LightGBM的模型比本研究中测试的特定神经网络基线模型(包括复制的CNN基线)实现了更低的均方根误差(RMSE),并且在许多地点和预测提前时间内,其RMSE也普遍低于原始MSM预报结果以及JMA的后处理产品MSMG。由于降水分布高度偏态且有大量零值情况,我们额外研究了基于Tweedie的损失函数和事件加权训练策略用于降水预测。这些改进相对于原始LightGBM模型在事件导向性能上有所提升,尤其是在较高降雨阈值时,尽管提升效果因地点而异,总体性能仍略低于MSMG。

引言

数值天气预报(NWP)是一种基于观测数据使用数学模型表示未来大气状态的主要天气预报方法。多年来,它通过物理过程表示的进步、模型初始化(包括同化)以及集合建模的引入而不断发展(Bauer等人,2015年)。然而,NWP也存在局限性,如预报误差和偏差。虽然预报偏差可能不可避免,但已经开发了几种使用机器学习模型的后处理技术来减轻这些偏差(Liu等人,2023年;Rojas-Campos等人,2023年;Yoshikane和Yoshimura,2022年;Zhang和Ye,2021年;Kudo,2022年;Peng等人,2020年;Tang等人,2021年;Salazar等人,2022年;Xu等人,2020年)。
日本气象厅(JMA)还引入了一种称为MSMG的后处理方法,用于校正中尺度模型(MSM)的误差。MSM具有更细的网格间距(5公里),并针对日本周边区域(JMA,2024年)。在MSMG中,JMA主要采用卡尔曼滤波器、频率偏差校正和神经网络等统计方法来减少MSM中的系统偏差。
本研究旨在使用MSM数据为包括平原、山区和岛屿在内的日本18个地点的降水、温度和风速(代表性气象变量)开发基于机器学习的后处理模型。将预测位置周围网格点的气象变量作为输入特征,并应用基于相关性分析的特征选择方法。在实验设置中,基于LightGBM的模型比测试的神经网络基线模型(包括复制的CNN基线)实现了更低的RMSE,并且在许多地点和预测提前时间内,其RMSE也普遍低于原始MSM预报结果以及JMA的后处理产品MSMG。在基于LightGBM的模型中,那些使用周围网格信息并进行基于相关性特征选择的模型在许多地点和预测提前时间内显示出最低的RMSE。
对于降水预测,我们进一步研究了基于Tweedie的损失函数和事件加权训练策略,这改善了某些地点和降雨阈值下的事件导向指标,尽管RMSE的提升效果有限。
several studies have developed post-processing models for precipitation using methods such as convolutional neural networks (CNNs), neural networks, and Support Vector Machines (Zhang and Ye, 2021; Liu et al., 2023; Rojas-Campos et al., 2023; Yoshikane and Yoshimura, 2022). Among them, Zhang and Ye (2021) conducted comparative experiments on machine learning models, input parameters, and training data periods for precipitation prediction and concluded that LightGBM provided the most balanced performance among the tested models.
在温度后处理模型方面,已经使用了CNN、神经网络和LightGBM(Kudo, 2022; Peng et al., 2020; Tang et al., 2021)。Kudo (2022)开发了一个针对日本关东地区的基于CNN的温度后处理模型,并证明了其优于JMA的MSMG。
利用神经网络和LightGBM也探索了风速后处理模型(Salazar et al., 2022; Tang et al., 2021; Xu et al., 2020)。Xu等人(2020)使用LightGBM进行风速预测,并分析了模型中派生的特征重要性。他们的研究表明,使用所有特征(包括各种天气元素)作为输入比仅使用风速特征的模型表现更好。
除了使用NWP输出外,一些研究还利用了现有天气预报服务的气象预报数据(Iwase and Takenawa, 2024; Tsipis et al., 2023)。Iwase和Takenawa(2024)使用LightGBM、XGBoost和神经网络等机器学习模型来预测山区的气温和降水。通过将周围天气预报数据作为输入变量,结果优于现有的天气预报服务。
在最近的机器学习研究中,深度学习方法在自然语言处理和图像识别等领域取得了显著进展。相比之下,对于表格数据,基于树的模型在准确性方面目前优于深度学习模型,并且需要较少的超参数调整成本(Shwartz-Ziv和Armon, 2022; Grinsztajn等人, 2022)。基于树的模型在处理NWP输出(通常涉及表格数据)时也展示了其效用(Zhang和Ye, 2021; Xu等人, 2020)。最近,Hieta和Partio(2025)报告称,基于树的梯度提升后处理方案(XGBoost)可以降低短期近地面预报的RMSE。
本文的其余部分安排如下:第2节定义了本研究使用的方法和数据。第3节展示了结果和讨论。最后,第4节总结了研究。

章节摘录

数据

在本研究中,我们使用JMA的MSM数据作为模型输入,使用观测数据作为训练的目标数据。MSM数据由京都大学可持续人类圈研究所(RISH,2024年)收集和分发。JMA的观测数据包括过去三小时的累积降水量、每小时温度和风速。我们从日本各地选择了18个观测站点(图1,表1)。此外,为了进行比较

RMSE和ME

首先,表5和表6展示了每个模型在验证集和测试集上的RMSE和ME,以及MSM和MSMG的RMSE和ME。
对于RMSE,验证集和测试集都显示使用LightGBM的模型优于MSM和MSMG。同样,神经网络和CNN模型的表现不如使用LightGBM的模型。此外,结合周围网格数据的模型比仅使用最近网格(1grid)的模型表现略好。这表明

结论

在本研究中,我们使用观测数据和MSM数据为日本18个地点(包括平原、山区和岛屿)的降水、温度和风速开发了基于机器学习的后处理模型。主要发现总结如下:
  • 1.
    结合使用周围网格数据和基于相关性的特征选择提高了预测准确性,相比于仅使用最近的一个网格。

CRediT作者贡献声明

岩濑和也: 编写——原始草稿、方法论、数据整理、概念化。竹波智之: 编写——审阅与编辑、原始草稿、监督、资源管理、项目协调、方法论、概念化。

手稿准备过程中生成式AI和AI辅助技术的声明

在准备本手稿的过程中,作者们使用ChatGPT辅助代码编辑和语言校对。所有AI辅助的输出都经过了作者的审查和必要的修订,作者对手稿内容负全部责任。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

作者感谢审稿人的仔细阅读和有益的意见。第一作者得到了东京海洋科技大学AI专业人员发展WISE计划的支持;第二作者得到了日本学术振兴会 [JSPS](项目编号:22K03383)的资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号