基于机器学习的生态水文建模技术,用以研究由生态调水驱动的月尺度绿洲动态变化:以中国青土绿洲为例
《Ecological Informatics》:Machine learning-enhanced ecohydrological modelling of monthly-scale oasis dynamics driven by ecological water diversion: A case study of the Qingtu Oasis, China
【字体:
大
中
小
】
时间:2026年05月11日
来源:Ecological Informatics 7.3
编辑推荐:
**冯黄 | 李一平 | 卡洛斯·G·奥乔亚 | 李欣 | 李继生**
中国南京河海大学水资源与水文学学院,邮编210098
**摘要**
生态水文模型为基于生态调水的绿洲恢复项目提供了支持。然而,仅依赖机器学习模型难以捕捉潜在的生态水文机制及其相互作用。为了解决这
**冯黄 | 李一平 | 卡洛斯·G·奥乔亚 | 李欣 | 李继生**
中国南京河海大学水资源与水文学学院,邮编210098
**摘要**
生态水文模型为基于生态调水的绿洲恢复项目提供了支持。然而,仅依赖机器学习模型难以捕捉潜在的生态水文机制及其相互作用。为了解决这一局限性,我们提出了一种将机器学习与经验性生态水文方程相结合的框架,以构建一种基于机制的建模方法。评估了十种候选的机器学习模型,包括支持向量回归、分类提升和深度确定性策略梯度(DDPG),用于构建湖泊面积、地下水位深度、绿洲面积和植被覆盖率的独立模块。将这些模型中的绿洲蒸散作用以及基于地下水的绿洲面积和植被覆盖率承载能力的相关经验性生态水文方程整合进来,使框架能够纳入生态水文机制,并通过Shapley加性解释(SHAP)分析进行了进一步验证。采用枚举法将这四个模块整合在一起,从而能够表示地下水-植被的相互作用并模拟关键生态水文过程。随后应用递归策略生成湖泊面积、地下水位深度、绿洲面积和植被覆盖率的连续月度模拟数据。该框架在中国的石羊河流域青土绿洲进行了测试,作为代表性案例研究。结果表明了这种方法的可行性和方法论有效性,表明将DDPG模型与经验性生态水文方程结合起来为生态水文模拟提供了有用的参考。未来的研究将致力于减少数据不确定性,将土壤盐度纳入建模框架,并探索其在不同干旱内流盆地的适用性。
**1. 引言**
正如联合国可持续发展目标所强调的,生态保护和恢复对于实现水资源匮乏且生态系统脆弱的干旱内流盆地的可持续发展至关重要(Liu等人,2024b;Xie等人,2022)。在各种恢复策略中,生态调水是一种实用且广泛应用的工程措施,它有助于在社会、经济和自然系统之间合理分配水资源(Cao等人,2021;Huang等人,2020b;Jiao等人,2025;Qin等人,2024)。近几十年来,生态调水项目在干旱的丝绸之路沿线促进了大量的土地恢复和绿洲生态系统的改善,包括中国的石羊河流域青土绿洲、黑河流域的额济纳绿洲和塔里木河流域的塔里玛湖(Du等人,2020;Huang和Ochoa,2022;Li等人,2024;Wang等人,2023)。
生态水文模型在通过生态调水恢复绿洲的过程中起着关键作用(Huang等人,2020a;Sun等人,2011)。这些模型为设计优化调水量并改进调水过程的环境管理策略提供了宝贵的见解。随着机器学习的日益应用,数据驱动的生态水文模型越来越成为基于物理和概念模型的实用可靠替代方案(Han等人,2023;Huang等人,2021;Kulmatiski等人,2020;Piccioni等人,2022;Song等人,2025;Xia和Lv,2024)。在石羊河流域的青土绿洲,构建了一个基于贝叶斯优化-长短期记忆(BO-LSTM)的模型,用于预测归一化植被指数(NDVI)对生态调水的响应(Wang等人,2024)。该模型计算成本低廉且预测精度较高;然而,它仅模拟了水文变化对生态的单向响应,未考虑NDVI通过蒸散作用对地下水的反馈。
同样,在黑河流域的额济纳绿洲,小波支持向量回归和小波人工神经网络模型被用于预测地下水位深度,展示了混合小波人工智能方法在生态调水条件下的实用性(Yu等人,2018)。在中国塔里木河流域下游,几种机器学习模型(包括广义回归神经网络、决策树、随机森林和卷积神经网络)被用于模拟由生态调水引起的地下水位变化。比较评估显示,随机森林模型最适合模拟塔里木河下游的地下水位动态(Liu等人,2022)。然而,这些研究仅关注由调水引起的水位变化的单向模拟,忽略了地下水对植被恢复的影响以及植被对地下水的反馈。
**2. 材料与方法**
**2.1. 研究区域**
石羊河流域位于中国西北部的巴丹吉林沙漠和腾格里沙漠之间,对于大片干旱地区的可持续发展具有重要的生态意义。该河流发源于祁连山脉,水源包括冰川融水和降水。流域海拔从南部的约5000米降至北部的1200米(Wei等人,2020)。该地区具有温带干旱大陆性气候,阳光充足。恶劣的气候条件孕育了以沙漠和草原植被为主的生态系统,植被稀疏,生态环境脆弱(Men和Pan,2025)。该流域约有227万人口,其中超过70%的人口从事农业活动,导致当地水资源的密集开发和利用(Liu等人,2024a)。
青土湖曾是石羊河流域的终端湖泊,但由于水量减少、人口快速增长和用水不合理,于20世纪50年代干涸。干涸的湖床逐渐被巴丹吉林沙漠和腾格里沙漠侵蚀,对该流域的生态完整性和社会经济稳定性构成了严重威胁(Qiu等人,2023)。为应对生态退化和荒漠化问题,2010年提出了并启动了一个生态调水项目。该项目旨在提供生态用水以支持植被生长并恢复青土绿洲(图1),这个新形成的绿洲现在成为了抵御沙漠扩张的重要生态屏障(Qiao等人,2020)。
**2.2. 数据收集与预处理**
**2.2.1. 气象和水文数据**
气温、降水量和潜在蒸散量是控制绿洲生态系统植被生长和水分平衡的关键气象因素。我们从国家海洋和大气管理局的国家地表摘要数据集中获取了民勤气象站(中国甘肃省民勤县;编号52681099999)的每日气温和降水量数据(Lavigne和Liu,2022)。民勤气象站和青土绿洲均位于石羊河流域下游。尽管两者之间的直线距离为70公里,但它们属于同一气候区,不存在显著的地形障碍,气象因素的空间异质性较低(Liu等人,2024a)。民勤气象站是距离最近的站点,能够为代表研究区域提供气象数据(Wang等人,2024)。数据集中约有1%的每日气温和降水量缺失值,这些缺失值通过线性插值进行了补算。每日潜在蒸散量使用Oudin方法估算,并通过Python包PyEt v1.3.1(Oudin等人,2005a;Oudin等人,2005b;Vremec等人,2024)计算得出。2010年至2024年的每日气象数据被汇总为月度总量(降水量和潜在蒸散量)和月度平均值(气温)(图2)。多年(2010–2024)的平均值分别为:气温10.31°C、降水量135.69毫米、潜在蒸散量822.48毫米。
**2.2.2. 遥感数据解释**
用于提取湖泊面积、绿洲面积和植被覆盖率的遥感数据来自美国地质调查局提供的Landsat影像,可通过Google Earth Engine数据目录获取。这些数据集包括Landsat 5 TM、Landsat 7 ETM+、Landsat 8 OLI/TIRS和Landsat 9 OLI/TIRS传感器的大气校正表面反射率产品(表1)。大气校正减少了不同Landsat传感器之间的差异,使得本研究使用的不同Landsat传感器得到的遥感指数具有可比性(Roy等人,2016)。Landsat影像的重访周期为16天,空间分辨率为30米。数据集的时间范围从2010年1月到2025年1月,排除了受云层污染影响的影像。
**表1. 青土绿洲生态水文模拟中使用的遥感传感器、数据集和采集周期**
| 传感器 | Landsat数据集 | 数据采集周期 |
|-----------------|-------------------|-------------------|
| Landsat 5 TM | LANDSAT/LT05/C02/T1_L2 | 2010年1月至2011年11月 |
| Landsat 7 ETM+ | LANDSAT/LE07/C02/T1_L2 | 2010年1月至2023年11月 |
| Landsat 8 OLI/TIRS | LANDSAT/LC08/C02/T1_L2 | 2013年3月至2024年12月 |
| Landsat 9 OLI/TIRS | LANDSAT/LC09/C02/T1_L2 | 2021年11月至2025年1月 |
**2.3. 建模过程**
**(此处应详细说明如何使用枚举法、递归策略等构建生态水文模型,并在石羊河流域青土绿洲进行实证验证。)**
**3. 结果与讨论**
(此处 应展示模型的性能、结果及其对实际应用的意义。)季节性湖泊也形成了,通过渗透作用补充了地下水。水资源的改善修复了青土绿洲,其绿洲面积峰值达到了19平方公里,植被覆盖度(FVC)增加到了20%(见图3)。下载:下载高分辨率图像(254KB)下载:下载全尺寸图像。图3. 用于模拟青土绿洲生态水文恢复的遥感解释数据:(a) 湖泊面积,(b) 绿洲面积,(c) 植被覆盖度。
所有气象、水文和遥感数据在纳入所提出的生态水文模型之前,都使用了z分数方法进行标准化处理。标准化值是通过从每个观测值中减去变量平均值,然后将结果除以相应的标准差来计算的。
2.3 方法
所提出的框架将机器学习模型与经验生态水文方程结合起来,构建了生态水文模型(见图4)。该模型结构采用了概念性的集总生态水文模型结构,使模型能够表示由生态水资源转移驱动的关键水文-生态相互作用(Huang等人,2025年)。
修复后的绿洲生态水文过程受到三个主要过程的支配。首先,转移的生态水在低洼地区积聚形成季节性浅湖,水通过蒸发和渗透重新分布;较大的湖泊面积促进了更多的地下水补给。其次,补给的地下水抬高了地下水位,而地下水位同时又被蒸散作用降低。第三,更高的地下水位增强了绿洲的水资源可用性,从而导致绿洲面积增加和植被覆盖度提高。反过来,恢复的植被通过蒸腾作用消耗地下水,并对地下水位动态产生反馈效应,从而完成了双向的地下水-植被反馈循环(Huang等人,2021年)。这些过程由四个关键变量表示:湖泊面积、地下水位深度、绿洲面积和植被覆盖度(FVC)。因此,生态水文模型使用了四个独立的模块进行设计,每个模块对应其中一个变量。
2.3.1 湖泊面积、地下水位深度、绿洲面积和植被覆盖度模块
经验生态水文方程与机器学习模块的整合遵循了一种基于约束的输入设计原则,其中经验方程作为机制信息丰富的中间输入变量嵌入到机器学习模块的特征空间中,而不是作为后处理约束使用。这种整合策略对机器学习模型的学习和预测过程施加了物理约束,确保模型的输出符合生态水文原理。对于所有四个生态水文变量,整合后的机器学习模块的一般数学形式定义为:
(1)Y?t = fML(Yt?1, Xmete/hyd, EXeco)
其中Y?t是时间t的模拟生态水文变量(湖泊面积、地下水位深度、绿洲面积或FVC);Yt?1是前一时间步的目标变量的观测/模拟值(捕捉时间依赖性);Xmete/hyd代表原始的气象和水文输入变量,例如生态水资源转移量、降水量、潜在蒸散量;EXeco表示从经验生态水文方程导出的机制信息丰富的中间变量,例如绿洲蒸散方程和地下水承载能力方程;fML是候选机器学习模型的映射函数,它在EXeco的物理约束下学习输入变量与目标变量之间的非线性关系。
整合过程遵循两步算法流程:(a) 使用校准后的青土绿洲经验生态水文方程从原始输入数据预计算EXeco;(b) 将EXeco与Yt?1和Xmete/hyd连接起来形成受限特征空间,用于机器学习模型的训练和预测。这种工作流程确保了物理生态水文机制通过机器学习模型的学习过程得到传播,避免了物理上不一致的特征学习和预测结果。基准模块旨在排除经验生态水文方程,同时保留所有其他原始输入变量。这种设计使得可以公平地进行直接比较,以量化整合机制信息丰富中间变量带来的模拟精度和物理一致性的提升。
(a) 湖泊面积模块
季节性湖泊的水量平衡显示,其面积受到其前一个值的强烈影响。生态水资源转移是主要的水源输入。由于生态水资源转移的生态水文响应存在时间滞后,因此在湖泊面积模块中包括了之前的和当前的水资源转移量(Hu等人,2021年)。渗漏和蒸发——两者都受到湖泊面积的影响并且也会影响湖泊面积——是水损失的主要途径。潜在蒸散量与降水量之间的差异代表了气象对水量平衡的净影响(Huang等人,2025年)。
(b) 地下水位深度模块
地下水位深度受到其前一个值和地下水储存变化的影响(Huang等人,2021年;Liu等人,2012年)。湖泊通过渗漏补充当地地下水,渗漏量与湖泊面积密切相关。相比之下,绿洲的蒸散作用消耗了地下水储存,导致地下水位下降。将估计绿洲蒸散量的经验方程纳入了地下水位深度模块(Huang等人,2025年;McMahon等人,2013年):
(4) HG,t = fML(HG,t?1, AL,t)
(5) EG = 1.981 ? HG/5
(6) EV = 1 + 0.006 * VEG
(7) EO = 0.001 * EV * AV
其中HG是地下水位深度(米);EO是绿洲的蒸散量(百万立方米);EG是裸地的地下水蒸发量(毫米);EV是恢复后绿洲的蒸散量(毫米);AV是恢复后绿洲的面积(平方公里)。
为了比较有无经验生态水文方程的地下水位深度模拟性能,构建了一个基准模块,直接使用降水量和潜在蒸散量作为输入:
(8) HG,t = fML(HG,t?1, AL,t, EP,t, AV)
(c) 绿洲面积模块
绿洲面积由其前一个值和绿洲区域的地下水承载能力决定(Huang等人,2025年;Muneepeerakul等人,2008年):
(9) AV,t = fML(AV,t?1, AV, GCC,t)
(10) AV,GCC = 30 * ε^1 + exp(-t * M) * 0.26
(11) ε = 1.02 * exp(-t * M)^-7.492
其中AV,GCC代表绿洲区域的地下水承载能力(平方公里);ε表示由气温驱动的植被生长季节性变化的时间因子;t表示月份(1-12)。
为了比较有无经验生态水文方程的绿洲面积建模性能,构建了一个基准模块,直接输入影响绿洲蒸散量的气温(Ta,单位°C)和地下水位深度:
(d) 植被覆盖度(FVC)模块
FVC由其前一个值和FVC区域的地下水承载能力决定(Huang等人,2025年;Muneepeerakul等人,2008年):
(13) Vt = fML(Vt?1, VGCC,t)
(14) VGCC = ε * fFVC + 0.601 * exp(-HG/3.23)
(15) fFVC = NDVI / (1 - NDVI ≥ 0.08)
其中VGCC表示FVC的地下水承载能力(%);fFVC是关联FVC和NDVI的经验方程(Huang等人,2020b;Wang等人,2023年)。
为了比较有无经验生态水文方程的FVC建模性能,构建了一个基准模块,直接输入调节植被生长的气温和地下水位深度:
2.3.2 候选机器学习模型用于模块构建
使用了十种基于回归的机器学习模型来构建湖泊面积、地下水位深度、绿洲面积和植被覆盖度模块(表2)。这些模型代表了三种主流算法类别:传统机器学习、基于树的集成和深度强化学习。选择基于三个关键考虑因素:(a) 全面的分类覆盖以避免算法选择偏差,确保代表性的比较评估;(b) 适应绿洲生态水文过程的核心特征(非线性、时间序列依赖性和双向地下水-植被反馈),不同算法类别在这些特征的捕捉上具有不同的优势;(c) 探索深度强化学习在干旱绿洲生态水文建模中的应用。每个模块都应用了相同的候选模型,而不是混合不同模型,通过多阶段准确性评估(模块级交叉验证、组装模型训练和独立测试期验证)来选择最优模型,以确保模型的稳健性。候选模型包括多层感知器(MLP)、支持向量回归(SVR)、随机森林(RF)、极端梯度提升(XGBoost)、轻量级梯度提升机(LightGBM)、分类提升(CatBoost)、深度确定性策略梯度(DDPG)、优势演员-评论家(A2C)、近似策略优化(PPO)和双延迟深度确定性策略梯度(TD3)。这些模型的详细描述可以在已发表的文献中找到(Breiman,2001年;Chen等人,2016年;Ching等人,2022年;Chou等人,2017年;Drucker等人,1996年;Fujimoto等人,2018年;Heydari等人,2024年;Kang等人,2018年;Lopes等人,2018年;Piotrowski等人,2015年;Prokhorenkova等人,2018年;Safari等人,2023年;Zhu和Du,2019年)。
表2. 用于构建青土绿洲生态水文模型的候选机器学习模型。为了加强机制一致性的定量证据,进一步计算了每个变量的SHAP值与模拟输出之间的偏相关系数(PCC),同时控制了其他变量的SHAP值作为混杂因素。这种方法量化了SHAP衍生影响与输出之间的净线性关联,验证了所学到的关系在物理上是一致的。3. 结果 3.1. 生态水文模拟的模块构建与组装 生态水文模型是通过组装四个独立训练的模块构建的:湖泊面积、地下水位深度、绿洲面积和FVC。使用5折交叉验证对每个模块评估了十个候选机器学习模型(图5)。对于湖泊面积模块,十个候选模型的RMSE值在0.30到0.98平方公里之间,相关系数超过0.96,NSE值高于0.93。DDPG模型表现最佳,RMSE为0.30平方公里,相关系数为0.99,NSE为0.99,而CatBoost的表现也相当(RMSE=0.35平方公里,相关系数=0.99,NSE=0.99)。对于地下水位深度模块,所有十个模型的表现都相当,RMSE值在0.02到0.05米之间。所有地下水位深度模块的相关系数都达到0.99,NSE值超过0.98,表明DDPG模型在十个候选模型中实现了最高的模拟精度。对于绿洲面积模块,RMSE值在0.14到1.77平方公里之间,相关系数在0.95到0.99之间,NSE值在0.89到0.99之间。XGBoost模型显示了最高的模拟精度,而DDPG模型的精度略低(RMSE=0.66平方公里,相关系数=0.99,NSE=0.98)。对于FVC模块,RMSE值在0.64%到1.82%之间,相关系数高于0.97,NSE值超过0.93。CatBoost和DDPG模型的精度相当,每个模型的RMSE为0.64%,相关系数为0.99,NSE为0.99。下载:下载高分辨率图像(1MB)下载:下载全尺寸图像 图5. 清土绿洲湖泊面积、地下水位深度、绿洲面积和植被覆盖率的模块精度评估。评估了十个候选机器学习模型在四个模块中的表现(图6)。对于湖泊面积模块,DDPG模型实现了最高的精度,RMSE为0.34平方公里,相关系数为0.99,NSE为0.98。TD3模型的表现次优(RMSE=0.48平方公里,相关系数=0.98,NSE=0.95)。相比之下,RF模型的精度最低,RMSE为1.40平方公里,相关系数为0.77,NSE为0.57。对于地下水位深度模块,十个候选模型的RMSE值在0.02到0.05米之间,相关系数在0.89到0.99之间,NSE值在0.76到0.98之间。DDPG模型表现最佳,而CatBoost模型的表现第二(RMSE=0.04米,相关系数=0.93,NSE=0.87)。对于绿洲面积模块,DDPG和TD3模型的表现相当。DDPG模型的RMSE为0.32平方公里,相关系数为0.99,NSE为0.99,而TD3模型的RMSE为0.59平方公里,相关系数和NSE相同。其余八个模型的表现明显较差,RMSE值在2.34–3.25平方公里之间,相关系数在0.93–0.97之间,NSE值在0.76–0.88之间。对于FVC模块,DDPG和TD3模型再次获得了相同的精度指标——RMSE为0.86%,相关系数为0.99,NSE为0.98。其他模型的RMSE值在1.36%–2.06%之间,相关系数在0.97–0.98之间,NSE值在0.91–0.96之间。下载:下载高分辨率图像(1MB)下载:下载全尺寸图像 图6. 清土绿洲测试期间湖泊面积、地下水位深度、绿洲面积和植被覆盖率的模块精度评估。使用枚举方法和递归策略将湖泊面积、地下水位深度、绿洲面积和FVC的交叉验证和测试模块集成起来,构建了绿洲生态水文模型。然后在训练期间评估了组装模型的所有十个候选机器学习模型的模拟精度(图7)。在模型训练期间,XGBoost在模拟湖泊面积方面的表现突出,RMSE为0.74平方公里,相关系数为0.98,NSE为0.96。然而,其在地下水位深度、绿洲面积和FVC方面的表现较差,这三个模块的NSE值为负。DDPG模型在模拟湖泊面积方面的精度仅次于XGBoost,并且在模拟地下水位深度、绿洲面积和FVC方面也表现良好。除了DDPG,CatBoost和PPO模型在训练期间在所有四个模块上都实现了可接受的精度。这些结果强调了在测试期间进一步比较模型性能的必要性,以确定最适合生态水文模拟的机器学习模型。下载:下载高分辨率图像(1MB)下载:下载全尺寸图像 图7. 清土绿洲训练期间湖泊面积、地下水位深度、绿洲面积和植被覆盖率的模型性能。比较了十个候选机器学习模型在测试期间模拟生态水文过程的精度(图8)。在测试期间,XGBoost、CatBoost和PPO模型在模拟湖泊面积和地下水位深度方面的表现较差,这反映在它们较低的相关系数和NSE值上。相比之下,DDPG模型保持了令人满意的性能,显示出强大的泛化能力,适用于绿洲生态水文模拟。在模拟湖泊面积、地下水位深度、绿洲面积和FVC时,DDPG模型的RMSE值分别为0.52平方公里、0.07米、1.63平方公里和1.29%,相关系数分别为0.98、0.95、0.97,NSE值分别为0.94、0.63、0.96。下载:下载高分辨率图像(1MB)下载:下载全尺寸图像 图8. 清土绿洲测试期间模拟湖泊面积、地下水位深度、绿洲面积和植被覆盖率的模型性能。对于模拟稳定性,湖泊面积、绿洲面积和FVC的表现良好,CV-NSE值分别为0.10、0.15和0.06。尽管地下水位深度的总体CV-NSE相对较高(1.57),但这主要是由于初始时期(2010–2014年)的效率较低;2015年后,其NSE稳定在0.81以上,CV-NSE为0.08,表明具有可靠的长期稳定性。在误差传播方面,所有变量的平均RMSE-GR < 3.1%(湖泊面积为2.11%,地下水位深度为2.86%,绿洲面积为2.36%,FVC为3.04%),均在生态水文模型的可接受范围内,确认了没有指数级误差放大。在不确定性积累方面,地下水位深度的RCE最低(3.37%),其他变量的RCE值<21%(湖泊面积为17.89%,绿洲面积为20.66%,FVC为19.79%)。总体而言,这些结果证实了枚举和递归策略为长期月度模拟提供了稳定的性能、可控的误差传播和可接受的不确定性积累,验证了它们在基于DDPG的清土绿洲生态水文模型中的可靠性。3.2. 带有和不带有实证生态水文方程的模型性能比较 DDPG(带有实证生态水文方程)和DDPGo(不带有实证生态水文方程)之间的比较旨在量化机制约束对模型性能的准确贡献。DDPGo模型是一个纯数据驱动的模型,提供了一个基准来验证整合实证生态水文方程的价值。性能评估表明,DDPG模型非常适合通过生态调水恢复的绿洲中的湖泊面积、地下水位深度、绿洲面积和FVC的模拟。它们在训练期间的性能比较如图9所示。对于湖泊面积模拟,DDPG和DDPGo模型表现出相似的精度,散点紧密沿着1:1线排列。相比之下,DDPGo在模拟地下水位深度时的表现较差,散点偏离1:1线,RMSE为0.36米,相关系数为0.69,NSE为-0.37。相比之下,纳入生态水文方程显著提高了性能:DDPG模型将RMSE降低到0.18米,并将相关系数和NSE分别增加到0.93和0.65。DDPG模型还提高了绿洲面积和FVC的模拟精度,散点靠近1:1线。对于绿洲面积,RMSE从3.20平方公里降至1.48平方公里,相关系数从0.83增加到0.96,NSE从0.64增加到0.92。对于FVC,RMSE从3.94%降至2.13%,相关系数从0.84增加到0.95,NSE从0.68增加到0.91。下载:下载高分辨率图像(518KB)下载:下载全尺寸图像 图9. 清土绿洲训练期间带有(DDPG)和不带有(DDPGo)实证生态水文方程的模型性能比较。进一步比较了带有实证生态水文方程的DDPG模型在测试期间的性能与DDPGo模型的性能(图10)。DDPG模型在模拟湖泊面积、绿洲面积和FVC方面略有改进,散点分布与1:1线相近。与DDPGo相比,DDPG模型将湖泊面积的RMSE从0.54平方公里降至0.52平方公里,绿洲面积从1.66平方公里降至1.63平方公里,FVC从2.09%降至1.29%。在地下水位深度方面观察到了更大的改进。纳入实证方程显著提高了模拟精度:DDPG模型将RMSE从0.12米降至0.07米,相关系数从0.82增加到0.95,NSE从-0.10增加到0.63。下载:下载高分辨率图像(358KB)下载:下载全尺寸图像 图10. 清土绿洲测试期间带有(DDPG)和不带有(DDPGo)实证生态水文方程的模型性能比较。3.3. 使用SHAP分析解释基于机器学习的生态水文模型 除了评估模拟精度外,还需要模型解释来确定机器学习方法是否准确捕捉了输入变量和输出变量之间的关系。DDPG模块的SHAP摘要图说明了气象、水文和生态变量对湖泊面积、地下水位深度、绿洲面积和FVC模拟的贡献(图11)。对于湖泊面积和地下水位深度模块,湖泊面积和地下水位之前的值是影响模块结果的主要变量。潜在蒸发蒸腾与降水之间的差异是湖泊面积模拟的第二大影响因素。由于气象条件全年影响湖泊水平衡——而生态调水只在调水期间影响它——因此调水的影响小于气象因素。湖泊面积也是模拟地下水位深度的第二大重要因素,突显了地表水在地下水补给中的作用。对于绿洲面积和FVC模块,与这些变量相关的地下水承载能力是主要预测因子。这强调了提高地下水位和改善水资源可用性以支持绿洲恢复的重要性。下载:下载高分辨率图像(282KB)下载:下载全尺寸图像 图11. DDPG模块预测湖泊面积、地下水位深度、绿洲面积和植被覆盖率的影响因素的SHAP摘要图。图12展示了每个输入变量对湖泊面积模块的独立影响的SHAP依赖图。湖泊面积与其之前的值呈正相关,而潜在蒸发蒸腾与降水之间的较大差异增加了水分损失,减少了湖泊面积。相反,生态调水与湖泊面积呈正相关,反映了其作为水平衡关键组成部分的作用。偏相关分析进一步定量确认了这些模式:所有四个输入变量的SHAP值与模拟湖泊面积显示出显著的净关联(PCC > 0.99,p < 0.01),完全符合预期的生态水文方向。总体而言,这些定性和定量结果与确立的湖泊水平衡原则一致,支持了基于DDPG的湖泊面积模块的有效性(Gharari等人,2024年;Huang等人,2025年)。下载:下载高分辨率图像(254KB)下载:下载全尺寸图像 图12. 清土绿洲DDPG湖泊面积模块的关键影响因子的SHAP依赖图。图13展示了之前地下水位深度、湖泊面积和绿洲蒸发蒸腾值对地下水位深度模块输出的独立影响的SHAP依赖图。地下水位深度与其之前的值呈正相关。通过生态调水形成的湖泊补充了当地地下水,从而降低了地下水位深度。相反,绿洲蒸发蒸腾消耗了当地地下水,导致地下水位深度增加。偏相关分析进一步从定量上证实了这些模式:所有三个变量的SHAP值都与模拟的地下水位深度显示出显著的净关联(PCC > 0.99,p < 0.01),完全符合预期的地下水平衡方向。这些定性和定量结果与地下水平衡的原则一致,支持了使用DDPG模型构建的地下水位深度模块的有效性(Bhering等人,2021年;Huang等人,2025年)。洪崖山水库释放的生态用水总量受到了定期监测;然而,最终到达青图 Oasis 的水量尚未得到定期监测。因此,湖泊流入量与总生态用水量之间的比率是通过水量平衡分析推断出来的,这进一步增加了湖泊面积模拟的不确定性(Guo et al., 2021)。除了来自 Landsat 传感器的遥感数据(如 TM、ETM+ 和 OLI/TIRS)本身存在的不确定性外,湖泊面积、绿洲面积和 FVC 的解释在不同卫星平台和分类方法上也存在差异。这些不一致性也导致了生态水文模拟的不确定性(Brus et al., 2018; Hu et al., 2021; Huang et al., 2025; Pimentel et al., 2023; Wang et al., 2024)。参数不确定性通常来自三个主要来源:(a) 准确估计有效参数的难度,(b) 捕捉自然变异性的挑战,以及 (c) 观测误差的存在(Moges et al., 2021)。数据不确定性在参数估计过程中与参数不确定性相互作用。具体来说,数据不确定性会传递到绿洲蒸散和地下水流能力的经验性生态水文方程的参数中。同样,数据不确定性也会传递到用于模拟湖泊面积、地下水位深度、绿洲面积和 FVC 的机器学习模型(如 MLP、SVR、RF、XGBoost、LightGBM、CatBoost、DDPG、A2C、PPO 和 TD3)的参数中。因此,通过改进数据观测和解释可以减少参数不确定性。
模型结构不确定性源于难以准确表示生态水文系统,这主要是由于缺乏统一的理论、科学知识有限以及需要数值和过程简化(Moges et al., 2021)。本研究重点关注了恢复后的绿洲的三个关键生态水文过程,并构建了四个模块以进行生态水文模拟。尽管简化的模型结构有助于减少参数不确定性,但它通过错误地表示某些生态现象引入了结构不确定性。青图 Oasis 的植被主要由两种对比鲜明的物种主导——一种是典型的喜湿植物 Phragmites australis,另一种是典型的耐旱植物 Nitraria tangutorum,这两种植物在绿洲恢复过程中表现出不同的空间动态并采用不同的水分利用策略(Huang et al., 2020b; Qiu et al., 2023)。在构建绿洲面积和 FVC 模块时,本研究没有区分植被类型,从而简化了对生态用水量变化的植被响应。通过在建模绿洲面积、FVC 及其通过蒸散对水文过程的反馈时明确表示不同植被类型的生态响应,可以减少模型结构不确定性。要实现这一改进,需要提高遥感解读能力,以准确识别喜湿植物和耐旱植物群落的分布和范围及其各自的 FVC。
4.2. 优势、局限性和未来研究
与现有的基于混合机器学习的框架不同,本研究提出了一个具有三个核心创新的新框架:通过枚举方法实现水文-生态过程的双向耦合、利用经验性生态水文方程的机制指导输入设计,以及采用递归策略进行连续的月度模拟。通过将经验性生态水文方程纳入机器学习模型,该框架增强了表示生态用水量变化对水文和生态响应的能力,并提高了模拟精度,优于概念性的综合生态水文模型(Huang et al., 2021; Huang et al., 2025)。此外,该框架结合了枚举方法和递归策略,实现了生态水文相互作用的连续模拟,从而解决了之前研究中仅应用机器学习模型进行单向模拟水文或生态过程而忽略它们相互作用的局限性(Liu et al., 2022; Wang et al., 2024)。在青图 Oasis 的案例研究中展示的方法论也可以应用于全球其他干旱和半干旱系统的生态水文相互作用特征分析。
尽管本研究具有多项优势,但也存在需要在未来工作中关注的局限性。首先,所提出的生态水文模型在其构建和执行过程中不可避免地存在不确定性。这些不确定性可以通过更新、更大规模和更准确的数据集以及对生态水文过程的更好理解来减少(Reinecke et al., 2025)。未来的研究应跟踪进入青图 Oasis 的水量,并继续监测其对生态用水量的生态水文响应。应结合遥感和无人机(UAV)调查来评估绿洲恢复情况,因为高分辨率的 UAV 图像可以验证遥感结果并减少数据不确定性。更新的数据收集将为生态水文模型提供更准确和详尽的信息,从而优化模型结构、参数估计和模拟性能。第二个局限性是没有考虑地表土壤盐度。生态用水量的增加会抬高局部地下水位并将盐分带到地表,因此土壤盐碱化成为绿洲恢复的一个潜在限制因素(Hu et al., 2024)。因此,需要进行实地调查来量化土壤盐度并评估其对植被生长和绿洲恢复的影响。未来的研究应将土壤盐度动态纳入生态水文模型,以改善土壤盐度变化及其对植被生长的影响的模拟。
此外,由于缺乏一致的干旱恢复绿洲多流域监测数据集,该研究的模型框架仅在青图 Oasis 中得到了验证。未来的研究将在多个干旱内流盆地进行跨流域验证,并进行系统的敏感性分析,以进一步加强研究结果的普遍性,并完善所提出的生态水文建模框架,以便更广泛的应用。
5. 结论
本研究提出了一个通过整合机器学习模型与经验性生态水文方程来开发绿洲生态水文模型的框架。枚举方法在组装湖泊面积、地下水位深度、绿洲面积和 FVC 的独立模块方面被证明是有效的,从而能够表示生态水文相互作用。递归策略成功支持了连续的生态水文模拟,生成了所有四个变量的月度序列。准确性评估确定了:(a) 在候选模型中最适合生态水文模拟的机器学习模型,以及 (b) 需要纳入经验性生态水文方程。SHAP 分析被证明有助于解释基于机器学习的生态水文模型。结合经验性方程使机器学习模型能够更准确地表示输入变量对其输出的影响,符合已知的生态水文机制。总体而言,将机器学习模型与经验性生态水文方程相结合提高了模拟精度和生态水文模型的泛化能力。
在青图 Oasis 中应用所提出的框架显示了该方法的可行性和方法论的有效性。对十个候选机器学习模型性能的评估表明,DDPG 模型是构建生态水文模型的最佳选择。当与绿洲蒸散和地下水流能力的经验性生态水文方程结合使用时,DDPG 模型成功模拟了由生态用水量变化驱动的生态水文过程。在训练期间,生态水文模型在湖泊面积、地下水位深度、绿洲面积和 FVC 方面的 RMSE 值分别为 1.31 km2、0.18 m、1.48 km2 和 2.13%;相关系数分别为 0.94、0.93、0.96 和 0.95;NSE 值分别为 0.87、0.65、0.92 和 0.91。在测试期间,模型的 RMSE 值分别为 0.52 km2、0.07 m、1.63 km2 和 1.29%;相关系数分别为 0.98、0.95、0.97 和 0.98;NSE 值分别为 0.94、0.63、0.94 和 0.96,表明研究区域的模拟性能令人满意。
所提出的框架为开发通过生态用水量恢复的干旱绿洲的生态水文模型提供了一种方法论参考。未来的研究应优先考虑对研究区域的长期生态水文监测,以减少与数据相关的不确定性,并进一步将土壤盐度动态纳入建模框架,以精细化干旱绿洲系统中植被生长约束的模拟。此外,后续工作将探索该框架在不同干旱内流盆地中的适用性,并增强其在水资源管理和绿洲恢复实践中的操作可行性。
CRediT 作者贡献声明
Feng Huang:撰写——原始草稿、可视化、验证、软件、方法论、调查、资金获取、正式分析、数据管理、概念化。
Yiping Li:撰写——审阅与编辑、监督、资源、方法论。
Carlos G. Ochoa:撰写——审阅与编辑、验证、软件、资金获取。
Xin Li:验证、软件、方法论、调查。
Jisheng Li:可视化、资源、数据管理。
关于写作过程中生成式 AI 和 AI 辅助技术的声明
作者在写作过程中没有使用生成式 AI 或 AI 辅助技术。