在中国干热河谷地区的柑橘果园中,集成优化算法的机器学习模型在每日蒸腾量估算方面的比较评估

《Computers and Electronics in Agriculture》:Comparative evaluation of machine learning models integrated with optimization algorithms for daily transpiration estimation in citrus orchards of dry-hot valley region in China

【字体: 时间:2026年04月16日 来源:Computers and Electronics in Agriculture 8.9

编辑推荐:

  本研究在云南元江干热河谷柑橘园通过RF-RFE特征筛选和GWO-XGB模型优化,确定日-of-year、气温、风速、土壤含水量及实际蒸气压为关键驱动因素,模型R2达0.91,为智能灌溉提供可解释的解决方案。

  
吴明青|王静|陈电宇|何思宇|万傲婷|李文刚|李静|高志勇
云南农业大学水利学院,中国昆明650201

摘要

准确估算冠层蒸腾量(T)对于优化灌溉计划和提高用水效率至关重要。机器学习(ML)方法在智能农业中的蒸腾量估算中变得至关重要。本研究在中国云南省元江干热河谷的柑橘园进行。2020年至2022年间,使用热扩散探针(TDP)监测了树液流动数据,并将这些数据与多源气象和土壤变量结合,以开发蒸腾量估算模型。采用随机森林-递归特征消除(RF-RFE)算法进行特征选择。通过结合三种ML模型(随机森林(RF)、支持向量回归(SVR)和极端梯度提升(XGB),以及三种超参数调整算法(网格搜索(GS)、遗传算法(GA)和灰狼优化器(GWO),共开发了12个模型。使用Shapley加性解释(SHAP)来解释表现最佳模型的驱动因素。结果表明,RF-RFE有效地将输入变量从17个减少到5个关键因素:一年中的日期(DOY)、平均气温(Ta)、风速(u2)、土壤体积含水量(VWC)和实际蒸气压(ea)。在12个模型中,GWO-XGB组合取得了最佳性能(R2 = 0.91,KGE = 0.94,RMSE = 0.18 mm d-1),在全球性能指标(GPI)中排名第一。SHAP分析进一步显示,DOY表征了季节性气候变化和物候节律,Ta和u2对蒸腾量有正面贡献,而ea则表现出负面影响,VWC在低水平时具有限制作用。所提出的RF-RFE和GWO–XGB框架仅使用五个关键输入即可提供准确且可解释的蒸腾量估算。它为干热河谷的精准灌溉决策支持提供了实用且可扩展的解决方案。

引言

全球水资源短缺是21世纪最严峻的挑战之一。农业约占可用淡水资源的70%,由于人口增长和气候变化,这一需求持续增加(Pagano等人,2023年)。蒸腾量(T)是陆地水循环的关键组成部分(Zhang等人,2025a;Zhang等人,2011年;Gao等人,2020b;Sun等人,2023年),代表了主要的大陆水通量,占陆地总蒸散量的80-90%(Jasechko等人,2013年)。作为连接水、能量和碳循环的基本机制,T在调节土壤-植物-大气连续体(SPAC)内的能量和水通量中起着关键作用(Chen等人,2023c;Du等人,2015年;Kang等人,2017年;Proctor等人,2022年;Fan等人,2021年)。因此,准确估算T对于阐明作物用水机制和优化区域水资源管理具有重要的理论和实践意义(Li和Tartakovsky,2023年;Wei等人,2020年;Zhang等人,2018年)。
精确的蒸腾量量化是精准灌溉和智能农业的基础。蒸腾量可以通过直接测量或基于模型的估算获得。直接测量蒸腾量的方法包括使用树液流动传感器(Granier,1987年)、气体交换室(Dragoni等人,2005年)、微量水分计(Liu等人,2002年)和同位素方法(Wen等人,2016年)。然而,这些方法的空间代表性有限,且需要大量资源,不适合大规模应用(Kool等人,2014年)。或者,可以通过经验模型、物理模型和机器学习(ML)模型来估算蒸腾量(Fan等人,2021年;Zheng等人,2019年)。传统的经验模型如多元线性回归(MLR)结构简单,但缺乏物理约束,导致参数的可转移性有限,对新环境的泛化能力较差(Fan等人,2021年)。基于物理的模型如Penman-Monteith(P-M)(Penman,1948年;Penman,1956年;Monteith,1965年)和Shuttleworth-Wallace(S-W)(Nyolei等人,2021年;Li等人,2015年)虽然机制合理,但需要大量输入数据,计算密集,对参数敏感,并且误差来源复杂。此外,关键阻力(空气动力学、气孔和土壤表面)的参数化仍然具有挑战性。这些模型在捕捉蒸腾量及其驱动因素之间的复杂非线性相互作用方面存在局限性,其潜在机制仍不完全清楚(Ahongshangbam等人,2023年;Chen等人,2014年)。
近年来,ML被广泛用于开发高精度的作物水分预测模型(Fan等人,2021年;Fan等人,2018年;Jordan和Mitchell,2015年;Kisi,2015年;Zhu等人,2022年;Amani和Shafizadeh-Moghadam,2023年)。与基于物理的模型不同,ML方法不需要显式的物理方程,可以直接从数据中学习以捕捉相互作用变量之间的复杂非线性关系。许多研究表明,如人工神经网络(ANN)、支持向量回归(SVR)和随机森林(RF)等ML算法在蒸散量(ET)估算方面优于传统的经验模型和未经校准的物理模型(Hashemi和Sepaskhah,2020年;Chen等人,2020年;Fan等人,2018年)。然而,作物用水受到多种环境因素的影响,其响应在不同气候和作物类型中表现出强烈的时空异质性。因此,单一模型很少能在所有情况下都表现良好(Amani和Shafizadeh-Moghadam,2023年)。例如,Wu等人(2023年)比较了ANN、SVR、RF和极端学习机(ELM)在玉米蒸散量估算中的表现,发现SVR在生长阶段具有最高的稳定性。相反,在CO2富集的温室环境中,基于树的极端梯度提升(XGB)模型在估算黄瓜蒸腾量方面优于深度神经网络(DNN)和SVR,这归因于其独特的正则化机制和残差学习能力(Ghiat等人,2023年)。这些差异强调了选择适合特定农业生态环境的模型的必要性。此外,ML的性能在很大程度上取决于超参数设置。传统的调整方法,如网格搜索(GS)或手动调整,通常计算成本高昂,可能导致次优配置,从而降低模型的泛化能力(Ma等人,2023年)。最近,基于生物启发的启发式算法被引入,以实现基于其优越搜索能力的全局参数优化(Zhou等人,2025年;Zhou等人,2024a)。研究表明,使用这些算法优化的模型比原始基准模型具有更高的预测准确性和更好的稳定性(Zhou等人,2025年;He等人,2022年)。
然而,高精度的作物用水建模需要仔细的算法调整和能够充分代表作物用水过程的输入变量。为了提高模型性能,最近的研究越来越多地利用多源数据融合。例如,将遥感植被指数与气象和土壤数据集结合可以提高RF模型的准确性(Huang等人,2024年)。同样,整合生物物理特征,如叶面积指数(LAI)和感热通量(H),可以获得比单独使用气象数据更好的估算性能(Zhang等人,2025c)。然而,简单地增加特征维度并不是最佳选择。冗余的、相关性弱的或噪声较大的变量会增加模型复杂性,引入噪声并降低泛化能力(Amani和Shafizadeh-Moghadam,2023年)。重要的是,过多的输入变量需要复杂的传感器网络,这会增加硬件成本和维护负担,限制了在智能农业中的实际应用。关于特征选择的系统评价显示,基于过滤的方法仍然普遍,但非线性贡献方法,如SHAP和基于模型的特征重要性,越来越多地被采用以提高泛化和抗噪声能力(Liyew等人,2025b)。此外,蒸腾量的关键驱动因素并非静态的,而是表现出明显的时空变异性。一方面,不同作物物候阶段的变量重要性会发生变化。例如,Xing等人(2022年)发现,在中国黄土高原的苹果树上,LAI和蒸气压亏缺(VPD)在稀疏冠层阶段占主导地位,而在密集冠层阶段VPD和净辐射(Rn)变得关键。另一方面,关键预测因子集因生态系统而异,在温带森林(Kabala等人,2025年)、温室番茄(Ge等人,2022a)和干旱农田(Chen等人,2020年)中差异显著。这种明显的时空异质性突显了需要针对特定区域和作物进行建模以及识别关键特征的需求。
总体而言,尽管ML模型可以捕捉非线性的蒸腾量动态,但其性能取决于输入特征的质量和数据的可用性。在气候极端压力和观测基础设施有限的地区,模型的泛化和适用性往往受到进一步限制(Mohammadnezhad等人,2025年)。根据联合国粮食及农业组织(FAO)的数据,中国是全球最大的柑橘生产国,约占全球产量的21%(Canton,2021年)。由于优越的水热条件,干热河谷地区已成为主要的柑橘生产区。然而,季节性干旱和时空不均匀的水资源分布使得广泛的灌溉管理成为可持续发展的主要瓶颈(Hou等人,2023年)。为了解决这个问题,政府正在推动智能果园建设的倡议,其中精确估算作物用水是确保产量稳定的核心组成部分。尽管Chen等人(2023a)通过引入动态冠层消光系数改进了该地区柑橘蒸腾量的P–M模型,但这种方法需要复杂的本地校准过程,涉及多达10个参数。这种复杂性限制了其可扩展性,预测性能仍有改进空间。目前,该地区缺乏在有限气象和土壤观测条件下既准确又可解释的蒸腾量模型。在高温、低湿度和强烈辐射的条件下,蒸腾量的非线性耦合可能更加明显。传统的物理模型难以广泛应用,因为它们需要复杂的特定地点校准。因此,本研究重点关注两个核心科学问题。首先,仅使用容易获得的传统环境变量的数据驱动模型能否可靠地估算柑橘蒸腾量,并达到与本地改进的Penman–Monteith(P–M)模型相当或更高的准确性?其次,在干热河谷,哪些环境因素构成了蒸腾量估算的最小关键特征集,它们的相对贡献和具体响应机制是什么?为了解决这些问题,我们通过关键特征选择、模型比较和超参数优化开发了高精度模型。然后我们使用SHAP进行了可解释性分析。最后,我们将结果与本地改进的P–M模型进行了比较。

研究区域描述

本研究在中国云南省玉溪市新平县进行,位于元江干热河谷地区的核心区域(23°58′6″N,101°38′56″E;海拔550米;图1)。该地区具有典型的亚热带低纬度高原季风气候,特点是充足的太阳辐射和热资源以及明显的季节性干旱。年平均相对湿度、年日照时长和潜在蒸散量分别为67%、2,350小时和1,750毫米。

关键蒸腾因素的选择与识别

图4展示了特征选择前输入变量与蒸腾量之间的皮尔逊相关系数,揭示了因素之间以及因素本身的相关性。随后,使用RF-RFE迭代排除了贡献最小的特征(图5a)。如图5a所示,当特征数量减少到五个时,模型性能达到峰值(R2更高,MAE和RMSE更低)。进一步减少特征数量会降低性能。

干热地区估算柑橘蒸腾量的关键因素

许多研究表明,树木蒸腾量受多种因素影响,这些因素可以大致分为生理特征、气象条件和土壤水热状态(Ahongshangbam等人,2023年)。具体来说,作物生理因素决定了蒸腾量的潜在上限(Tie等人,2017年);气象因素调节其短期动态;土壤水热条件通过影响根部的水分可用性来决定蒸腾量的整体水平

结论

为了在干热河谷平衡柑橘蒸腾量建模的精度和数据成本,我们开发了一个可解释的ML框架,其中整合了特征选择。通过RF-RFE,输入特征从17个减少到5个关键因素,显著降低了数据采集成本,同时保持了模型准确性。值得注意的是,DOY被确定为最关键的预测因子,有效地包含了关于作物物候、LAI和季节性气候变化的信息,从而避免了

CRediT作者贡献声明

吴明青:撰写——原始草稿,可视化,验证,软件,正式分析。王静:监督,项目管理,正式分析,概念化。陈电宇:验证,监督,资源,项目管理,正式分析。何思宇:可视化,软件,数据管理。万傲婷:可视化,软件,项目管理。李文刚:项目管理,数据管理。李静:监督,项目管理。高志勇:撰写——

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了中国国家重点研发计划2023YFD1901203)和云南省农业基础研究联合专项项目(202301BD070001-181)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号