《Journal of Hydrology: Regional Studies》:A downscaling-fusion framework based on machine learning to improve daily precipitation estimates in the dry-hot valley of southwest China
编辑推荐:
研究人员针对中国西南干热河谷地区高精度时空降水信息获取难题,构建了基于随机森林(Random Forest, RF)的降尺度-融合框架以提升区域日网格降水估算精度。研究区位于金沙江干热河谷,现有卫星降水产品(Satellite Precipitation Pr
研究人员针对中国西南干热河谷地区高精度时空降水信息获取难题,构建了基于随机森林(Random Forest, RF)的降尺度-融合框架以提升区域日网格降水估算精度。研究区位于金沙江干热河谷,现有卫星降水产品(Satellite Precipitation Products, SPPs)存在空间分辨率低、误差显著等问题,难以满足小尺度水文建模与土壤侵蚀研究需求。该框架在降尺度阶段筛选关键影响因子,融合阶段采用分类-回归两阶段策略,引入辅助变量与卫星降水的空间自相关特征。以金沙江干热河谷为案例的研究表明:(1)RF降尺度模型可更精准刻画降水空间分布格局;(2)两阶段融合策略在降水事件识别与定量估算上均优于单一回归模型,但其精度随海拔升高而下降,高海拔区强降水低估现象尤为突出;(3)过去二十年金沙江干热河谷年降水量无显著变化趋势,但干季趋于干旱化,雨季降水集中度增加,局地强降水事件风险上升。该研究为干热河谷地区构建高质量降水数据集提供了有效方案。
研究背景与意义:全球变化背景下,地表过程模型依赖高精度输入数据以解析水安全、粮食安全及生态环境退化机制。作为全球水循环与能量平衡的核心组分,降水是生态系统、水文及土壤侵蚀模型的关键驱动变量。中国西南干热河谷是由地形强迫形成的“伪干旱”系统,水分为生态系统限制性因子,降水对植被生长胁迫显著。然而全球气候变化加剧了降水的异质性与短历时强变率,降水输入的不确定性易导致模型结果偏差甚至结论误导。现有卫星降水产品(SPPs)虽能快速获取大尺度近实时连续降水数据,其中全球降水测量计划综合多卫星反演产品(Integrated Multi-satellitE Retrievals for Global Precipitation Measurement, IMERG)观测能力较强,但在干热河谷等复杂地形区受传感器限制、观测方法与反演算法制约,存在显著不确定性,且原始空间分辨率较粗(0.05°–0.25°),无法捕捉破碎地形对山地微气候的影响。传统降尺度方法多假设变量间线性关系,而机器学习方法可有效模拟非线性关系,但单一降尺度未融合地面观测,仍受原始SPPs固有误差影响。现有融合方法存在单一回归框架易受零值干扰、空间自相关变量引入导致信息泄露、忽视降水垂直地带性等局限。金沙江干热河谷作为横断山区典型深切河谷与生态脆弱区,缺乏高精度高空间分辨率降水数据长期阻碍水文机制与土壤侵蚀深入研究,因此亟需开发适配该区域的降水估算优化方案。该研究由北京师范大学地理科学学部Junxin Feng与Baoyuan Liu合作完成,发表于《Journal of Hydrology: Regional Studies》。
关键技术方法:研究人员以金沙江干热河谷(100°20′–103°47′E,25°27′–28°48′N)为研究区,选取2001–2020年51个地面雨量站观测数据,其中41个为训练站、10个为验证站;采用IMERG-F V06B半小时间歇降水数据,通过时间匹配聚合为日尺度;收集数字高程模型(DEM)、坡度、坡向、归一化植被指数(NDVI)、白天陆面温度(LSTd)、夜间灯光(NTL)、潜在蒸散(PET)、标准化降水蒸散指数(SPEI)、土壤湿度(SM)等辅助变量,构建前1–3日降水滞后值与基于普通克里金插值生成的卫星降水空间自相关变量(Spatial Autocorrelation Variable, SAV)。研究首先采用地理探测器(Geodetector)量化各因子对年降水的解释力与交互作用;其次对比多元线性回归(MLR)、地理加权回归(GWR)与随机森林(RF)三种降尺度方法,通过“时间升尺度-空间降尺度-时间降尺度”间接策略将IMERG降尺度至1 km分辨率;最后采用分类-回归两阶段随机森林融合策略,以站点分层5折交叉验证优化超参数,采用皮尔逊相关系数(CC)、均方根误差(RMSE)、克里金-古普塔效率(KGE)等指标评估精度。
研究结果:3.1节基于地理探测器的降水主导因子识别结果显示,单因子中DEM对年降水的平均解释力最强(q值0.35),其次为SPEI与经度;所有因子交互作用均表现为双因子增强或非线性增强,经纬度交互作用的q值达0.99,表明地理位置对降水格局具主导作用,降水空间异质性由空间位置、地形、水热条件与下垫面环境共同驱动。3.2节不同空间降尺度方法评估结果表明,RF降尺度数据(RF_DS)较原始IMERG(Ori_IMERG)更能抑制噪声、增强地形特征与空间视觉效果,在峡谷区可更好捕捉局地降水梯度;垂直梯度上RF_DS的系数变异(CV)较Ori_IMERG最大降低27.56%,更符合同海拔带降水均匀变化规律;多时间尺度精度上RF_DS在年、月尺度表现最优,日尺度与MLR_DS精度相近,综合性能最均衡。3.3节融合结果分析显示,基于RF的两阶段融合策略(RF_RF)在年、月、季节、日尺度均优于RF_MLR与RF_GWR,其中年尺度Bias降至0.76%,月尺度CC较Ori_IMERG提升0.03–0.29,雨季误差降低10%–30%;降水事件识别上,RF_RF对无雨与中雨事件的POD分别提升0.18与0.14,重雨事件误报率降低近50%,CSI平均提升0.11,仅极端降水事件检测能力仍需改进。3.4节干热河谷降水时空特征分析表明,2001–2020年研究区多年平均年降水量864.30 mm,年降水无显著减少趋势(速率-2.02 mm/a),但干季降水与强度呈显著下降趋势(分别为-3.66 mm/a、-0.10 mm/d),雨季无显著上升趋势;空间上61.14%区域年降水量略减,50%区域干季显著变干,60.33%区域雨季略增,13.90%区域雨季显著增加,整体呈现干季干旱化、雨季降水集中化与局地强降水风险上升的特征。
讨论与结论:讨论部分指出,融合模型精度随海拔升高逐渐衰减,高海拔区对强降水系统性低估更显著,建议未来补充高海拔站点并实施海拔分层建模。时间分割验证显示,仅用2010年前数据训练的模型在2011–2020年测试期性能下降,对2018–2019年干旱与2020年洪水事件存在系统性高估,表明模型对气候非平稳性的外推能力有限。空间留一站点交叉验证(LOOCV)与5折分组验证性能高度一致,证明模型不依赖站点空间邻近信息,鲁棒性良好,但干季因焚风效应导致的雨幡蒸发现象会降低卫星降水检测精度。降尺度日序列的固定日/年比例分配假设是主要误差源,贡献总RMSE的82%,极端降水事件中该贡献升至99%以上,未来需引入地形风效应指数或动态日分配权重。样本不平衡问题导致极端降水捕获能力不足,合成少数类过采样技术(SMOTE)可一定程度缓解,但受限于极端降水样本绝对稀缺,仍需补充地面观测与引入成本敏感学习机制。此外,年降水驱动因子未必适用于日尺度,未来需纳入云参数、风速等多时相预测因子,并可尝试融合多源卫星降水产品突破单一产品精度上限。结论部分总结:(1)区域降水空间异质性由多因子非线性交互驱动,经纬度与海拔对年降水分布具主导作用;(2)RF降尺度模型可精细捕捉降水空间连续性与垂直地带性,缓解原始IMERG与站点空间错配;(3)RF两阶段分类-回归融合策略优于单一回归模型,精度随海拔升高下降,高海拔区强降水低估突出;(4)过去二十年干热河谷年降水量无显著变化,但季节性不均加剧,干季干旱化、雨季降水集中化与局地强降水风险上升。