基于机器学习集成方法重建1980-2012年全球陆地水储量异常的ML-TWiX数据集

《Scientific Data》:A Machine Learning approach for Total Water storage anomaly eXtension back to 1980 (ML-TWiX)

【字体: 时间:2026年01月31日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对GRACE/GRACE-FO卫星任务观测期仅20余年、难以支撑长期水文气候研究的瓶颈,研发了ML-TWiX机器学习框架,通过集成随机森林、XGBoost和高斯过程回归三种模型,利用13个全球水文与陆面模型模拟数据,重建了1980–2012年期间0.5°网格的月尺度总水储量异常,并提供了明确的空间不确定性估计。该数据集经卫星激光测距、水收支闭合及海平面预算等多方验证,性能优于现有同类产品,为水文气候长期变化分析提供了可靠数据基础。

  
随着全球气候变化加剧,水资源的管理与预测变得愈发重要。然而,要准确理解长期的水文变化,需要跨越数十年的高质量观测数据。GRACE(Gravity Recovery and Climate Experiment)及其后续任务GRACE-FO(GRACE Follow-On)卫星通过测量地球重力场的变化,为我们提供了监测全球总水储量异常(Total Water Storage Anomaly, TWSA)的强大工具。TWSA是地下水、土壤水、雪水、地表水等垂直方向水储量变化的综合体现。这些卫星数据在水文学、气候学和地球系统科学中发挥了重要作用,例如评估淡水可用性、分析极端气候的水文影响、监测干旱与洪水过程,以及理解海平面变化等。
然而,GRACE和GRACE-FO的联合观测记录仅覆盖约20年,且任务间存在约一年的数据空白期。这相对短暂的记录限制了我们观测全球和区域气候长期趋势的能力,而这些趋势对于研究干旱特征和气候变化长期模式至关重要。为了弥补这一不足,科学家们尝试利用其他卫星传感器(如Swarm卫星、GNSS反演、卫星激光测距SLR)来估算TWSA,但这些数据通常空间分辨率较低、精度有限,且基于不同的物理原理,引入了各自的不确定性和潜在偏差。
为了扩展TWSA数据集至GRACE任务之前的历史时期,研究者们探索了多种方法,包括统计模型和机器学习(ML)方法。早期研究主要依赖于统计模型,例如利用降水和温度数据重建TWSA。近年来,机器学习技术因其能更好地捕捉水文过程的非线性和时空动态而受到关注,研究重点包括时间扩展、空间降尺度或数据填补。例如,有研究使用卷积神经网络(CNN)或长短期记忆网络(LSTM)来重建TWSA,也有研究将随机森林与空间移动窗口结构相结合以捕捉空间异质性。此外,还出现了混合框架,如结合深度神经网络(DNN)、多元线性回归(MLR)和季节性自回归综合移动平均(SARIMAX)等方法。尽管这些努力推动了该领域的发展,但它们仍存在明显局限性。一些方法主要关注气候驱动的变率,可能误判或遗漏人类活动影响下的长期趋势;另一些方法将GRACE时期的趋势向后外推,但未能充分捕捉GRACE前期变率;许多现有数据集在GRACE前时代表现不佳,尤其是在估计长期趋势和年际变率时;大多数研究依赖于单一模型族或数据同化方案,缺乏对不同方法的系统比较;并且对GRACE前时代的验证往往有限,很少提供全面的或空间明确的不确定性估计。
在此背景下,发表于《Scientific Data》的这项研究引入了ML-TWiX(Machine Learning approach for Total Water storage anomaly eXtension),这是一个重建的1980年至2012年全球网格化总水储量异常(TWSA)数据集,它将GRACE记录扩展到了GRACE前时代。该重建基于对多种统计和机器学习方法的系统评估,最终选择了三种性能最佳的方法——随机森林(RF)、极限梯度提升(XGB)和高斯过程回归(GPR),并将它们集成到一个统一的 ensemble(集成)产品中。ML-TWiX数据以0.5°全球网格提供,并包含不确定性估计,使用户能够评估预测置信度。
为开展此项研究,研究人员整合了多源数据。GRACE TWSA数据采用了三个最新的mascon(质量块)解决方案:JPL、CSR和GSFC,并计算了它们的集合平均。作为机器学习模型的输入,研究使用了13个最先进的全球水文模型(GHM)、陆面模型(LSM)和大气再分析模型的TWSA数据集,涵盖了1980年至2012年期间。这些模型在表征水储量组分方面存在显著差异,例如有些模型包含近乎完整的组分(如地下水、地表水),而另一些则缺乏关键过程(如雪水当量或人类用水)。这种结构性差异部分解释了模型性能的空间变异性。为了进行独立验证,研究还利用了卫星激光测距(SLR)衍生的TWSA数据(通过结合GRACE的经验正交函数EOF提高了空间分辨率)、基于水收支方程(P - ET - R,其中P为降水,ET为蒸散发,R为径流)计算的通量数据集合平均,以及基于全球平均海平面(GMSL)预算(扣除热膨胀、格陵兰和南极冰盖质量变化贡献后)反演的TWS估计。
ML-TWiX的重建框架核心是利用GRACE时期(2002年4月至2012年12月)的观测数据作为训练和验证目标,学习13个模型模拟的TWSA时间序列与GRACE观测值之间的关系,然后将训练好的模型应用于GRACE前时代(1980年1月至2002年3月)的模型数据,以 hindcast(后报)该时期的TWSA。研究首先评估了多种重建方法,包括集合平均(EM)、加权最小二乘法(WLS,即集合加权平均EWM)、多元线性回归(MLR)、非负最小二乘(NNLS)等统计方法,以及决策树回归(DT)、支持向量回归(SVR)、随机森林(RF)、极限梯度提升(XGB)和高斯过程回归(GPR)等机器学习方法。性能评估表明,在捕捉GRACE TWSA方面,GPR、XGB和RF是表现最好的三种方法。因此,ML-TWiX的最终产品是这三种模型输出的集合平均。
在不确定性估计方面,ML-TWiX采用了基于集成的方法。对每个选定的机器学习模型,通过改变初始化设置生成多个独立实现,计算模型特定的均值和方差。然后,通过平均各模型的预测得到最终重建的TWSA,其总不确定性由偶然不确定性(Aleatoric uncertainty,各模型内部变异的平均)和认知不确定性(Epistemic uncertainty,模型间预测差异的方差)组合而成。这种方法提供了随空间和时间变化的明确不确定性估计。
对ML-TWiX数据集的验证从多个角度展开。首先,在GRACE时期(2002-2012年),ML-TWiX与GRACE观测值在网格尺度和流域尺度均表现出高度一致性,纳什效率系数(NSE)、归一化均方根误差(NRMSE)和相关性等指标均优于其他现有的重建数据集(如GRACE-Rec, GRAiCE, GTWS-MLrec, DeepRec等)。其次,与卫星激光测距(SLR)衍生的TWSA比较显示,ML-TWiX在GRACE时期和GRACE前时期(1992-2002年)都与SLR数据保持高度相关,表明其在不同时期的稳健性。第三,通过评估TWSA时间导数与水收支残差(P - ET - R)的相关性,发现ML-TWiX在GRACE时期和GRACE前时期都能较好地闭合水收支,性能与其他领先的重建数据集相当甚至更优。最后,在全球尺度上,ML-TWiX重建的全球平均TWSA与基于海平面预算反演的TWS估计值吻合良好,特别是在GRACE时期误差最小,进一步验证了其表征全球尺度水储量变化的可靠性。
研究结果表明,ML-TWiX成功重建了1980年至2012年全球陆地的月尺度水储量异常,有效扩展了GRACE卫星的观测记录。该数据集在空间细节、时间连续性和不确定性量化方面均表现出色,为长期水文气候研究、水资源评估以及理解全球水循环对气候变化的响应提供了宝贵的资料。
本研究采用的关键技术方法主要包括:1) 多源GRACE mascon解决方案的集成与重采样处理;2) 利用13个全球水文与陆面模型的模拟数据作为机器学习模型的输入特征;3) 系统评估并优选随机森林(RF)、极限梯度提升(XGB)和高斯过程回归(GPR)三种机器学习算法进行TWSA重建;4) 采用集成平均框架融合不同模型的优势,并基于深度集成思想量化空间显式的不确定性(包括偶然不确定性和认知不确定性);5) 综合利用卫星激光测距(SLR)数据、水收支闭合残差和全球海平面预算进行多角度独立验证。
数据记录
ML-TWiX数据集以NetCDF-4格式提供,包含1980年1月至2012年12月期间0.5°分辨率的月尺度全球TWSA和对应不确定性估计,覆盖除格陵兰和南极以外的全球陆地地区。
技术验证
模型输入与GRACE TWSA对比
对13个输入模型在主要河流流域与GRACE TWSA的对比评估显示,不同模型在不同气候区的表现各异,没有单一模型在所有流域和气候类型中持续最优,这凸显了采用多模型集成方法的必要性。
ML-TWiX TWSA与GRACE TWSA对比
在GRACE时期,ML-TWiX与GRACE观测值在网格和流域尺度均表现出高度一致,相关性、NRMSE和NSE等指标均显示其优于其他重建数据集,尤其在湿润热带和温带气候区表现优异。
与SLR衍生的TWSA对比
在GRACE时期和GRACE前时期,ML-TWiX与SLR衍生的TWSA在网格、流域和次大陆尺度均保持高相关性,表明其重建结果在GRACE数据不可用的时期依然可靠。
水收支闭合性能
ML-TWiX的TWSA时间导数与水收支残差(P - ET - R)在主要流域表现出高相关性和低误差,且在GRACE前时期性能稳定,说明其能较好地代表水循环动态。
海平面预算闭合性能
ML-TWiX重建的全球平均TWSA与基于海平面预算反演的TWS估计值吻合良好,特别是在GRACE时期误差最小,验证了其在全球尺度上的准确性。
结论与讨论
ML-TWiX研究通过集成多种机器学习模型,成功构建了一个覆盖1980-2012年的全球高分辨率TWSA重建数据集,有效弥补了GRACE卫星观测记录较短的不足。该研究不仅提供了数据产品,还系统评估了不同重建方法的性能,并进行了全面的独立验证。结果表明,ML-TWiX在再现GRACE时期观测、与SLR数据一致性、水收支闭合以及海平面预算贡献方面均表现出色,其提供的空间显式不确定性估计进一步增强了数据的实用价值。这项工作为理解长期水文气候变化、评估水资源趋势以及验证气候模型模拟提供了重要的数据支撑,对水文学、气候科学和水资源管理领域具有重要意义。未来,随着更长期的模型模拟数据的出现,该框架有望进一步扩展重建时段,为研究世纪尺度的水循环变化提供更深入的认识。同时,研究也指出,依赖于GRACE时期训练数据的重建方法,其外推至GRACE前时期的有效性依赖于水文统计关系的稳定性,在存在长期气候变化或人类活动引起非平稳性的情况下可能面临挑战,需要通过持续的多源独立验证来评估和缓解相关风险。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号