青藏高原地区卫星降水数据的权重优化融合:机器学习方法的比较

《Journal of Hydrology》:Weight-optimized fusion of satellite precipitation over the Qinghai-Tibet Plateau: Comparison of machine learning approaches

【字体: 时间:2026年05月04日 来源:Journal of Hydrology 6.3

编辑推荐:

  李周|春周|钟顺谷|尹楠郭|婷晨|小军郭|娟杜|佳佳岳|凯星刘|玲玲吴|静远薛 四川大学-香港理工大学灾害管理与重建研究所,成都610065,中国 摘要 由于气候变化导致的高空间异质性,对青藏高原(QTP)的降水量估计具有挑战性。以地面观测数据为参考,我们将全球降水

  李周|春周|钟顺谷|尹楠郭|婷晨|小军郭|娟杜|佳佳岳|凯星刘|玲玲吴|静远薛
四川大学-香港理工大学灾害管理与重建研究所,成都610065,中国

摘要
由于气候变化导致的高空间异质性,对青藏高原(QTP)的降水量估计具有挑战性。以地面观测数据为参考,我们将全球降水卫星测绘(GSMaP)和综合多卫星降水测量任务(IMERG)产品与辅助预测因子(数字高程模型(DEM)、土壤湿度和地表温度)相结合,开发了四种广泛使用的机器学习融合模型(人工神经网络(ANN)、随机森林(RF)、长短期记忆(LSTM)和Transformer),并将强度和误差自适应的加权均方误差(WMSE)损失纳入所有四种融合模型中,作为显式的样本重加权策略。结果表明,基于WMSE的加权方法通常能提高融合性能,相对于原始卫星产品和相应的未加权基线而言,尤其是在降水事件检测方面取得了最一致的改进。对于RF、LSTM和Transformer,精度(POD)提高了13.8–30.0%,召回率(CSI)提高了12.1–19.1%,而假阳性率(FAR)降低了1.5–3.2%。这种改进依赖于降雨强度,对于轻至中等强度的降雨,改进最为稳定;而强降雨则表现出更大的模型依赖性,这与样本稀缺性和POD-FAR权衡有关。在不同海拔带,融合模型表现稳健,WMSE有助于减少高海拔地区的低估现象。此外,加权融合模型比仅使用卫星数据的估计更好地再现了QTP的东南-西北方向降水梯度。总体而言,基于WMSE的融合框架为复杂高海拔地区的降水估计提供了一种实用策略。

引言
降水是全球气候系统的关键组成部分,通过大气水汽凝结和地表水分补充作用调控能量交换和水循环动态(Gupta等人,2020;Liu等人,2022)。可靠的降水数据对于天气预报、农业规划和生态系统管理至关重要(Bevacqua等人,2022;Ding等人,2024)。当前的测量方法,如雨量计、地面雷达和卫星反演,各有优势和局限性,可以相互补充(Zhou等人,2024;Zhou等人,2022)。虽然雨量计提供局部高精度数据,但其空间异质性和运营成本限制了其大规模应用(Eini等人,2021;Sapiano和Arkin,2009)。雷达系统虽然覆盖范围广,但由于环境干扰存在精度问题(Sinclair和Pegram,2005;Wehbe等人,2020)。卫星降水产品,如综合多卫星降水测量任务(IMERG)(Ma等人,2021)、热带降雨测量任务(TRMM)(Katiraie-Boroujerdy等人,2017)、TRMM多卫星降水分析(TMPA)(Ma等人,2020)、气候灾害组红外降水与站点数据(CHIRPS)(Katsanos等人,2016)和全球降水卫星测绘(GSMaP),已成为全球水文分析不可或缺的工具,提供0.1°-0.25°分辨率的连续时空覆盖(Islam等人,2020;Zhang等人,2024b)。然而,由于大气变率和算法限制,反演存在不确定性,特别是在精细尺度水文应用中(Adler等人,2017;AghaKouchak等人,2012)。卫星降水产品具有广泛覆盖、短延迟时间和强的时空连续性,适用于降水监测、洪水预报和水资源管理(Zhang等人,2022)。大量研究表明,融合来自多个卫星降水产品的数据是获得高质量降水估计的可行方案(Chen等人,2019;Gavahi等人,2023;Wu等人,2020)。已经开发了多种算法来整合不同空间域的数据集,包括逆距离加权插值(Shi等人,2024b)、空间融合(Jin等人,2023)、线性回归(Wehbe等人,2020)、地理加权回归(Chen等人,2020)以及偏差校正和误差调整(Lafon等人,2013)。机器学习(ML)和深度学习(DL)方法在解决传统方法难以处理的复杂问题方面表现出显著效率(Zhou等人,2025)。这些技术能够以相对较低的计算成本快速整合更多非线性信息(Shi等人,2015),并且允许灵活设计模型架构以满足特定研究区域的气候和空间尺度要求,有效克服传统方法的局限性(Lei等人,2021)。近年来,这些方法在卫星降水产品融合应用中得到了广泛研究(Espeholt等人,2022;Nearing等人,2021;Zhang等人,2023)。Shen(2018)强调了深度学习在水资源科学中的潜力,特别是在处理大型数据集、提取复杂特征和克服传统模型局限性方面。常用的降水融合机器学习算法包括随机森林(RF)、梯度提升决策树(GBDT)、极端梯度提升(XGBoost)、支持向量回归(SVR)、人工神经网络(ANN)、卷积神经网络(CNN)、长短期记忆(LSTM)、Transformer、决策树(DT)、生成对抗网络(GANs)(An等人,2024;Jamei等人,2023;Nourani等人,2009;Tang和Ishwaran,2017;Wei等人,2020;Wen等人,2024;Xue等人,2021;Yokoo等人,2022;Zeng等人,2011;Zhu等人,2023)。过去五年的研究回顾显示,最常用的降水融合模型是ANN、RF、LSTM和Transformer。作为广泛采用的神经网络,ANN已与雷达数据结合用于降水估计(Chen等人,2025;Kang等人,2024)。RF因其处理大规模数据的能力和最小化调整即可建模非线性关系的特点,在水文学中得到广泛应用,包括降雨径流建模、洪水预报、地下水位预测和水质评估。Baez-Villanueva等人(2020)开发了一种基于RF的融合方法,以提高数据稀缺地区的降水质量。Tao等人(2021)引入了一种具有注意力机制的多尺度LSTM模型,用于预测长江流域129个站的月降水量。Transformer因其捕捉复杂依赖性和上下文关系的能力,在计算机视觉和时间序列分析等领域受到关注。Yin等人(2022)基于Transformer架构建立了降雨径流模型,而Rao等人(2024)提出了一个多尺度时空Transformer网络,用于捕捉降水数据的动态演变特性。

在全球高海拔地区,卫星降水产品弥补了传统地面观测站的不足,特别是在青藏高原(QTP)、安第斯山脉和东非高原等地(Rahman等人,2020;Satgé等人,2016)。然而,高原复杂的地形,如峡谷和悬崖,会干扰卫星信号,从而降低降水反演的准确性(Zhang等人,2025)。此外,这些地区的降水通常表现出强烈的空间异质性,许多卫星产品的空间分辨率较低,无法充分捕捉这一现象(Li等人,2021;Tian等人,2020)。作为“亚洲水塔”,QTP被一些研究人员认为是全球气候变化的潜在来源(Ghosh等人,2023;Wei等人,2022)。此外,由于气候变化和人类活动,QTP的温度近年来显著上升,进一步影响了其水循环(Lu等人,2023)。研究表明,近几十年来QTP的降雨强度有所增加,对总体降水变化有显著贡献(Zhang等人,2024b)。现有关于QTP降水的研究主要集中在降水量上。虽然月降水量、季节降水量和年降水量指标提供了有关时间分布和变异性的宝贵信息,但它们未能捕捉到降水频率、降雨天数或降雨序列中的间隙等特征(Zhang等人,2023)。QTP带来了独特的降水融合挑战:(1)尽管多个全球多源或合并降水产品已持续更新至最近几年(MSWEP v2、GMCP)(Beck等人,2019),第三极地区的区域产品也扩展到了最新版本(TPHiPr)(Jiang等人,2023),但它们在QTP上的性能仍受稀疏和不均匀的雨量计覆盖、复杂地形以及频繁的轻降水和相位转换过程的强烈影响;(2)陡峭的海拔梯度产生强烈的微物理和地形对比;(3)轻降水和相位转换频繁发生,使卫星反演对接近零的噪声和地形相关误差非常敏感(Jiang等人,2023;Li等人,2022)。这些特征共同导致了高度和强度依赖的不确定性,传统流域平均评估方法无法完全捕捉(Ma等人,2025);(3)陡峭的海拔梯度产生强烈的微物理和地形对比;(4)轻降水和相位转换频繁发生,使得卫星反演对接近零的噪声和地形相关误差非常敏感(Jiang等人,2023;Li等人,2022)。因此,针对QTP的特定融合方法应明确解决强度-高度分层检测问题,并量化辅助地表状态如何帮助减少高地形区域的误报(Filippucci等人,2022)。此外,获取密集、长期和高质量控制的雨量计观测数据往往受到数据使用协议和机构数据共享政策的限制,这限制了在数据稀缺地区(如QTP)的可重复模型训练和真正独立的评估。先前的研究为高海拔地区的降水融合研究奠定了几个关键基础。首先,多传感器卫星降水产品已经证明了它们能够补偿雨量计网络的空间稀疏性,特别是在地形复杂的地区(如QTP)(Islam等人,2020;Zhou等人,2022)。其次,包括集成方法(如RF、XGBoost)和深度学习架构(如LSTM、Transformer)在内的机器学习技术在模拟多源降水数据集的非线性关系方面始终优于传统统计方法(Shen,2018;Tao等人,2021)。然而,许多在高原地区的应用仍受限于仅使用站点验证,且很少有研究在一致的调整协议下提供系统性的、强度-高度分层的、公平的模型家族间比较,使得难以确定哪种模型最适合特定的强度和高度范围。第三,许多高原环境的研究强调了地形引起的反演误差和卫星观测的时间不连续性作为持续的限制(Li等人,2021)。此外,地表温度(LST)和土壤湿度(SM)已被证明与降水过程有很强的耦合性,提供了降雨事件前后能量和水通量的关键动态信息。因此,LST和SM越来越多地被用作辅助预测因子,以提高降水融合模型的准确性和空间代表性(Long等人,2020;Wang等人,2023)。此外,大量研究将数字高程模型(DEM)数据作为关键辅助变量,以反映地形对降水分布的影响,特别是在海拔对降雨强度和空间变异性起主导作用的山地地区(Zhang等人,2024a)。然而,它们在高地形条件下减少误报和漏报的增量贡献仍很少在高原范围内的强度-高度诊断框架中进行量化。

本研究聚焦于QTP,使用长期卫星降水产品GSMaP和IMERG开发了一个降水融合框架。地理变量,包括DEM、SM数据集和LST,作为辅助输入以提高模型性能。采用了四种广泛采用的机器学习算法来构建降水融合模型。通过将降水事件分类为不同的强度级别,研究调查了模型在不同降雨强度下的性能,并开发了一种基于不同条件下相对准确性的模型贡献的加权融合方案。进一步在高原多个空间尺度上评估了降水事件的检测准确性。所提出的方法显著提高了高海拔地区的降水估计可靠性,并为通过多模型集成增强基于卫星的降水估计提供了方法论参考。

研究区域
作为地球上最高的陆地单元,青藏高原被称为“世界之屋”(图1)。它位于中国西南部,纬度范围为25°N至40°N,经度范围为73°E至104°E,面积约为257万平方公里,平均海拔超过4000米。过去几十年,QTP经历了显著的气候变化,年平均温度每十年上升0.32°C。自1960年以来,本研究采用了多种来源的预测因子,包括卫星降水产品(GSMaP GNRT和IMERG Early)、地形信息(DEM)以及地表变量(来自SMCI的土壤湿度和地表温度LST),并结合来自QTP地区78个站点的日降雨量观测数据(图1),来训练四种广泛使用的机器学习模型进行降水融合(Agatonovic-Kustrin和Beresford,2000年;Jiang等人,2024年;Lei等人,2021年;Nimai等人,2023年)。表3总结了在不同降水强度下,使用长期卫星降水产品GSMaP和IMERG作为基准参考的各类降水融合模型的性能。与原始卫星产品相比,所有基于机器学习的融合模型都显著提高了估算精度。特别是LSTM和RF模型取得了最高的相关系数(CC=0.94),表明与地面观测结果高度一致。LSTM还产生了最低的均方根误差(RMSE)。

基于卫星的降水产品在青藏高原(QTP)上仍然存在显著偏差,其精度通常不足以满足精细尺度的水文应用需求。QTP地区的高海拔、低温和总体干燥的环境改变了云的微物理特性以及弱降水系统的结构,从而增加了数据反演的不确定性,使得轻量级降雨特别难以检测(Rao等人,2024年;Ren等人,2025年;Yao等人,2024年)。

**结论**
本研究采用了四种广泛采用的机器学习模型,结合两种卫星降水产品GSMaP GNRT和IMERG Early、数字高程模型(DEM)数据、土壤湿度、地表温度以及QTP地区的地面观测数据来进行降水数据融合。首先开发并评估了传统的机器学习融合模型,随后构建了基于样本重要性的加权融合模型。

**作者贡献声明**
李周:撰写初稿、可视化、方法论、资金获取、正式分析、概念化。
周春:撰写修订稿、方法论、正式分析、概念化。
顾中顺:方法论、数据管理。
郭一楠:方法论、正式分析、数据管理。
陈婷:方法论、数据管理。
郭晓军:资金获取、正式分析。
杜娟:可视化、软件开发、正式分析。
岳佳佳:正式分析。
刘凯星:**

**利益冲突声明**
作者声明他们没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

**致谢**
我们衷心感谢西藏自治区科技厅的科技项目(XZ202501ZY0145)、国家自然科学基金(42322703)、四川省科技厅的自然科学青年项目(2024NSFSC0984)、中国教育部的人文社会科学项目(24YJCZH367)以及中央高校的基本科研业务费的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号