比较用于预测墨西哥城15种城市树木气孔导度的机器学习模型 Victor L. Barradas, Bolivar Morales, Monica Ballinas 和 Manuel Esperón-Rodríguez

《Land》:Comparing Machine Learning Models for Predicting Stomatal Conductance in 15 Urban Tree Species in Mexico City Victor L. Barradas, Bolivar Morales, Monica Ballinas and Manuel Esperón-Rodríguez

【字体: 时间:2026年05月10日 来源:Land 3.2

编辑推荐:

  摘要 气孔导度(gS)是影响城市树木蒸腾作用和降温潜力的关键因素,但很少有研究比较用于预测城市中多种树木气孔导度的机器学习模型。本研究应用了五种机器学习模型(XGBoost、随机森林、支持向量机[SVM]、神经网络和调整后的随机森林)以及两种经典模型(多元

  摘要 气孔导度(gS)是影响城市树木蒸腾作用和降温潜力的关键因素,但很少有研究比较用于预测城市中多种树木气孔导度的机器学习模型。本研究应用了五种机器学习模型(XGBoost、随机森林、支持向量机[SVM]、神经网络和调整后的随机森林)以及两种经典模型(多元线性回归和广义加性模型[GAM]),利用环境变量(空气温度、蒸气压亏缺、光合有效辐射和叶片水势)来预测墨西哥城城市森林中15种主要树种的气孔导度。我们在每个物种300个观测数据的基础上训练模型,其中70%用于训练,20%用于验证,10%用于测试,并使用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)来评估模型性能。总体而言,XGBoost、GAM和SVM的表现最为出色,R2值高达0.997,而神经网络和多元线性回归的表现较差(R2约为0.10–0.65)。不同树种之间的模型性能差异显著,XGBoost在七种树种中表现最佳,GAM在四种树种中表现最佳,SVM在四种树种中表现最佳。我们的结果表明,可以使用机器学习模型准确预测城市森林中树种的气孔导度;然而,在选择模型时应考虑不同树种之间的性能差异。因此,我们建议在实际应用中考虑使用多个模型的集成方法,但在为特定树种选择预测因子时排除神经网络。

1. 引言
气孔导度(gS)是指水蒸气和/或二氧化碳进入和离开气孔腔体的速率的指标,主要由气孔开口大小决定,是蒸腾作用的主要调控因素,进而影响城市树木的降温潜力[1]。众所周知,环境因素如光合有效范围内的入射辐射(400–700 nm,通常称为光合有效辐射[PAR])、温度(TA)、空气湿度(RH)和水分可用性或水势(Ψ)等都会影响气孔运动,从而影响gS[2,3,4,5,6]。因此,分析每个因素对gS的影响非常重要,因为这些分析可以构建数学模型来预测gS及其随环境因素的变化[7,8,9,10,11,12,13,14]。
当其中一个因素变化(例如PAR)而其他因素保持不变(TA、RH、Ψ)时,gS对每个微环境因素的响应通常是明确的,这可以通过最小二乘法技术获得最佳的拟合模型。通过这些分析,至少可以确定两种方法或模型:多元或逐步回归模型(这是一种总结性统计模型)或乘积模型,后者需要包络函数[8,15,16,17,18]。
然而,很少有研究比较用于预测多种树木气孔导度的机制模型或统计模型[19,20,21],尤其是在城市环境中的研究不足。准确的gS预测是蒸发蒸腾模型(如Penman-Monteith模型)的输入,这些模型用于估算降温效益并为气候变化下的城市森林规划提供依据[19,20,21,22]。然而,现有的gS模型通常是特定于树种的,并通过经验进行调整,很少在多样化的城市树木群落中进行系统评估。
机器学习模型在捕捉环境变量与植物生理反应之间的复杂非线性关系方面显示出潜力[23,24,25],但其性能尚未与城市森林中的经典气孔导度模型进行系统比较。特别是,关于哪种模型在城市条件下对不同树种的表现最佳,以及模型选择如何影响后续的蒸腾作用和降温潜力估计,目前证据有限。
本研究通过比较五种机器学习模型(随机森林、XGBoost、支持向量机以及调整后的随机森林)和两种经典模型(多元线性回归和广义加性模型),来预测墨西哥城城市森林中15种主要树种的气孔导度,填补了这一空白。具体来说,我们测试了这样一个假设:机器学习模型(特别是XGBoost、随机森林和支持向量机)将比线性或加性模型表现出更高的预测性能,但模型适用性会因树种而异。通过将模型性能与树种身份和环境预测因子的 importance 相关联,本研究旨在:(1)确定用于预测城市树木气孔导度的稳健模型;(2)为在本地数据和模型结构支持的情况下,在蒸发蒸腾和降温潜力分析中使用特定树种的gS预测提供方法论基础。

2. 材料与方法
2.1. 研究区域
数据收集自墨西哥城的八个绿地(北纬19°21′,西经99°08′,海拔2240米)以及墨西哥国立自治大学(UNAM)校园内的绿地(北纬19°19′–19°20′,西经99°10′–99°12′,海拔2280米),包括七个城市公园:Luis G. Urbina公园(北纬19°22′41″,西经99°10′44″,海拔2240米)、Francisco Villa公园(北纬19°22′20″,西经99°09′22″,海拔2373米)、San Lorenzo公园(北纬19°22′33″,西经99°10′36″,海拔2240米)、Espa?a公园(北纬19°24′54″,西经99°10′17″,海拔2242米)、Mexico公园(北纬19°24′44″,西经99°10′09″,海拔2241米)、Bombilla公园(北纬19°20′49″,西经19°11′11″,海拔2269米)和Los Viveros公园(北纬19°21′14″,西经99°10′19″,海拔2240米)。
2.2. 树种选择
我们根据上述区域中树种的存在和数量选择了15种主要树种:Acacia longifolia (Andrews) Willd、Acer negundo L.、Alnus acuminata Kunth、Buddleja cordata H.B.K.、Celtis occidentalis L.、Dodonaea viscosa (L.) Jacq.、Erythrinia americana Mill.、Eucaliptus camaldulensis (Dehnh)、Fraxinus uhdei (Wenz.) Lingelsh、Ligustrum lucidum W.T. Aiton、Liquidambar styraciflua L.、Populus alba L.、Populus deltoides W. Bartram ex Marshall、Quercus rugosa Née 和 Ulmus parvifolia Jacq.。树种选择包括11种本地树种和4种外来树种,以及8种落叶树种和7种常绿树种。
2.3. 数据收集
我们使用稳态气体扩散仪(LI-1600,LI-COR,美国内布拉斯加州林肯市)在每个绿地的三株树的至少五片完全展开的叶片上测量了气孔导度(gS),同时测量了光照和阴凉条件下的数据。我们还使用连接到气体扩散仪附近的传感器测量了光合有效辐射(PAR)、空气温度(TA)和相对湿度(RH):一个量子传感器(LI-190SB,LI-COR,美国内布拉斯加州林肯市)、一个热电偶和一个湿度传感器(Vaisala,芬兰赫尔辛基)。量子传感器与叶片平行安装,确保在测量时保持叶片的朝向和倾斜角度。我们根据TA和RH的测量值计算蒸气压亏缺(VPD):VPD = eS(1 ? RH) 和 eS = 0.6108{exp[(17.27TA)/(TA + 237.3)],其中 0 ≤ RH ≤ 1。同时,我们使用Scholander型压力泵(PMS,美国俄勒冈州科瓦利斯市)在每株树的兩片完全阳光照射的叶片上测量了叶片水势[26]。测量时间为2020年4月和5月的16天,这两个月是一年中最温暖和最干燥的月份,每天从08:00到16:00(当地时间)。
2.4. 气孔导度预测模型
我们根据以下环境变量(TA、VPD、PAR和Ψ)使用机器学习方法对15种主要树种的气孔导度(gS)进行了建模和预测。模型寻找一个函数f(?)来关联环境变量和气孔导度:
gS = f(TA, VPD, Ψ, PAR, 其他) + ε (1)
其中ε是误差项。
在训练过程中,模型寻找一个函数f(?)来最小化观测值和预测值之间的差异:
(2)
其中argmin表示最小化观测气孔导度gS,i与预测值(TAi, VPDi, Ψi, PARi)之和的平方残差的函数
(3)
调整后,模型可以应用于新数据:
(4)
其中是预测j的气孔行为。
通过使用统计指标(均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)来评估模型的性能,期望RMSE和MAE值较低,R2值较高。
算法的整体流程如下:
- 数据输入:环境变量(TA, VPD, Ψ, PAR)
- 模型训练:使用已知数据估计f(?)
- 预测:为新案例获取
- 评估:比较实际值和预测值
所使用的模型特点如下:
- 随机森林(RF)是一种基于多棵决策树的模型。它能够捕捉复杂和非线性关系,并且有一个超参数调整版本,即随机森林调整版(RFA[27]),通过调整内部参数以提高准确性。
- XGBoost(XGB)是一种优化的逐层决策树算法。它功能强大且准确,适用于变量之间的复杂关系[28]。
- 支持向量机(SVM)试图找到最佳拟合数据的函数。在难以检测模式的情况下非常有用[29]。
- 人工神经网络(NNs)是灵活的模型,适用于复杂非线性关系[30]。
还使用了经典模型,例如:
- 多元线性回归(ML):作为基线模型[31]。
- 广义加性模型(GAM):允许变量之间存在平滑和非线性关系[32]。
获得数据后,我们清理并将其编译成CSV文件,确保所有相关变量都存在且完整。然后,我们将每个物种的数据集分为三个固定种子随机部分:训练集(70%)、验证集(20%)和测试集(10%),以确保可重复性。这种方法允许进行模型拟合、中间评估和最终的独立测试。
我们使用randomForest包实现了随机森林模型。此外,还使用caret框架开发了一个经过调优的版本,进行了10折交叉验证(3次重复)。每次分割时随机抽样的变量数量(mtry)在一个值网格(2, 3, 4)上进行了优化,而树的数量(ntree)固定为500。在调整随机森林模型时应用了重复交叉验证,以提高鲁棒性并减少对单一数据分割的依赖。通过平均平方误差的增加(%IncMSE)和节点纯度的增加(IncNodePurity)来评估变量重要性。
XGBoost模型使用xgboost包实现。模型使用学习率(eta)0.1、最大树深度(max_depth)3和100次提升轮次(nrounds)进行训练。我们使用了带有径向基函数(RBF)内核的e1071包来实现支持向量机。最后,我们使用nnet包实现了神经网络。该模型包含一个具有五个神经元(size = 5)的隐藏层和一个线性输出函数(linout = TRUE),适用于回归任务。所有分析均使用R语言(版本4.4.1;R Core Team,2024)和RStudio(版本2025.09.0;Posit team,2025)进行。所有机器学习模型都是使用成熟的R包实现的,包括randomForest、caret、xgboost、e1071和nnet、mgcv,以确保透明性和可重复性。
2.5. 统计分析
我们使用非参数Kruskal–Wallis检验来评估不同地点之间的TA、PAR和VPD变量是否存在显著差异。所有情况的统计显著性水平为95%。我们使用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)来评估模型性能。这些指标提供了评估预测性能的补充信息。结合使用这些指标可以全面评估模型的准确性和鲁棒性,便于在不同复杂度模型的之间进行有意义的比较。最后,我们将每个模型的输出与经典的多重线性回归和GAM模型进行了比较。
一个可能的问题是,为什么没有直接使用机器学习模型进行蒸腾作用分析?答案可能很简单:蒸腾作用比气孔导度更难以测量,且所需的仪器更昂贵。有两种可以直接测量蒸腾作用的方法:树液流方法和湍流传输或涡流相关方法;这两种方法都需要复杂的仪器,且方法论较为复杂。最简单的蒸腾作用估算模型基于Fick定律,只需要两个关键变量:蒸气压亏缺(VPD)和气孔导度(gS)。也可以使用Penman-Monteith模型进行估算,该模型需要另一个额外变量:净辐射。

3. 结果
3.1.气孔导度与自变量
最高的gS值出现在A. acuminata中,其次是E. camaldulensis,而最低的gS值则出现在D. viscosa和B. cordata中。最低的Ψ值记录在B. cordata和Q. rugosa中,最高的Ψ值则出现在C. occidentalis和P. deltoides中(表1)。所有物种在14:00到15:00期间表现出最低的Ψ值。不同地点的空气温度存在显著差异(H = 14.85,df = 7,p = 0.05),公园EP和MP的平均温度较高(24.8°C),而CU和VP的平均温度较低(22.1°C)。相比之下,VPD和PAR在不同公园之间没有显著差异(VPD:H = 6.350,df = 7,p = 0.15;PAR:H = 1.356,df = 7,p = 0.153)。表1显示了墨西哥城城市森林中15种主要树种的气孔导度(gS,mmol·m?2·s?1)、叶片水势(Ψ,MPa)、光合有效辐射(PAR,μmol·m?2·s?1)、空气温度(TA,°C)和蒸气压亏缺(VPD,kPa)的平均值。

3.2. 机器学习相关性分析
支持向量机(SVM)算法证实了Fraxinus uhdei的最高预测能力(R2 = 956;p < 0.05;图1)。用于训练的数据非常接近1:1线(gSTRAINING = 0.9976·gSOBSERVED + 0.5304;R2 = 0.992;p < 0.05),为后续的验证(gSVALIDATED = 0.298·gSO + 21.64;R2 = 0.971,p < 0.05)和测试(gSTEST = 0.822·gSO + 36.914;R2 = 0.956,p < 0.05)以及预测(gSPREDICTED = 0.904·gSO + 23.03;R2 = 0.956,p < 0.05)提供了良好的分辨率。当使用未包含在训练集中的数据时,在验证和测试阶段以及预测阶段会出现一些响应的离散。其他算法得出的F. uhdei结果相似,不同物种的响应也相似,除了人工神经网络(NNs),其决定系数较低(R2 = 0.111)。图1展示了Fraxinus uhdei的气孔导度在训练、验证、测试和预测值与1:1线及线性拟合的比较。

3.2.1. 随机森林(RF)模型
随机森林(RF)提供了两种变量重要性的度量方法:均方误差百分比增加(%IncMSE)和节点纯度增加(IncNodePurity)。图2显示了Fraxinus uhdei的这些指标,说明了PAR、TA、VPD和Ψ对气孔导度(gS)的相对重要性。对于F. uhdei,VPD和TA显示出最高的%IncMSE和IncNodePurity,而PAR和Ψ的值较低。表2总结了研究中15种主要树种的变量重要性指标。

3.2.2. 广义加性模型(GAM)
广义加性模型(GAM)在保持其他变量(TA、VPD和Ψ)不变的情况下,估算gS与每个自变量之间的关系。图3展示了PAR、TA、VPD和Ψ对Fraxinus uhdei的影响关系。每个变量的平滑项的符号和形状表明了其对gS的影响方向和曲线。表3总结了每种物种的PAR、TA、VPD或Ψ对gS的估计效应是正(+)、负(?)或中性(?),或者遵循二次模式。

3.2.3. 最佳模型
不同物种之间的模型性能存在差异(表4和表S1)。总体而言,XGBoost、SVM和GAM显示出最高的R2值和最低的RMSE及MAE,而NNs在某些情况下表现出较低的R2和较高的误差指标。NN模型在所有物种中始终显示出最低的R2值(R2 ≈ 0.11),因此在该数据集中的表现最差。表4根据决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)列出了表现最佳的模型,即对墨西哥城城市森林中15种主要树种具有最大预测能力的模型(见补充表S1)。

4. 讨论
机器学习模型在预测墨西哥城15种主要树种的气孔导度(gS)方面表现出良好的性能,这突显了它们在城市森林研究中的潜力。这些模型的一个主要优势是执行速度快,无需进行大量的额外分析。例如,Houshmandfar等人[33]评估了Jarvis类型模型与ML模型在预测gs方面的表现,发现前者更为准确。在这里,RF和GAM特别有用,因为它们不仅能够预测gS,还能提供关于每个解释变量之间关系的相对重要性和形态的信息。总体而言,RF表明VPD和TA是最有影响力的预测因子,而Ψ和PAR的影响较小。GAM的估计显示VPD对gS有强烈的负面影响,而TA和Ψ通常显示出正向或二次关系,这与关于温暖干燥条件下气孔响应的现有研究结果一致[34,35,36]。

应考虑几个方法论和生态学上的限制。当前数据集仅涵盖了年度最热和最干燥月份的相对较短观察期,并未包括不同季节或不同灌溉制度下的测量数据。这限制了模型捕捉完整季节变化的能力,包括在较凉爽潮湿时期以及极端高温和干旱事件下的响应。此外,这限制了模型系数的泛化能力,可能使某些预测因子(如PAR)的显著性产生偏差,因为PAR在光照水平较低时往往是非线性的[37,38]。特别是该数据集中低辐射值的有限范围可能解释了gS与PAR之间的关系较弱的原因。

此外,这项研究基于墨西哥城城市森林中的15种主要树种,可能无法完全代表全球其他城市中使用的更广泛的树种。这限制了模型系数和物种排名模式在其他城市森林中的泛化能力,特别是那些具有不同物种组成、种植密度和微气候的森林。气孔导度的测量使用的是稳态孔隙计,而且是在每株树的有限叶片上进行的,环境条件是在叶片层面记录的,而不是作为整个树冠的综合作用。虽然这提供了详细的生理学洞察,但数据集可能无法完全捕捉树冠内的空间异质性或城市街区尺度上的微气候综合效应。我们还注意到,机器学习模型是在墨西哥城市公园中观察到的环境变量范围内进行训练的。将这些模型外推到超出此范围的条件(例如更高的温度或更低的辐射制度)可能会引入额外的不确定性,因此应谨慎解释预测结果。最后,这15个物种包括常绿树和落叶树,以及本地和外来物种,它们具有不同的叶片形态和水力策略。然而,当前研究并未明确测试模型性能是否与这些特征相关,这些特征可能会影响模型对其他物种或功能组的泛化能力。

尽管存在这些局限性,但在这些干燥条件下gS对VPD和TA的强烈依赖表明,墨西哥城的城市树种可能对VPD和TA的增加特别敏感,这对于预测它们在气候变化情景下的表现具有重要意义。对VPD和温度高度敏感的物种可能更容易受到热和干旱胁迫的影响,而那些gS响应相对稳定的物种可能更适合在变暖气候下的城市种植[39]。虽然我们的模型为预测物种gS提供了坚实的基础,但将它们应用于其他领域(如蒸腾作用)需要进一步的验证,使用实地蒸腾数据和多个季节及热浪事件的长期物候监测。

机器学习模型,特别是XGBoost、GAM和SVM,为估算城市森林中的gS提供了强大的方法,能够捕捉环境驱动因素与gS之间的非线性关系。然而,模型选择和预测因子重要性的解释应同时考虑物种生理学特征和当前短期单季节观测的局限性。未来的工作可以通过整合长期数据集、多站点测量以及直接的蒸腾或树液流观测来扩展这一框架,从而更好地将gS模型与实际降温效果联系起来。

5. 结论
本研究的结果表明,机器学习模型是预测墨西哥城市城市森林中15种主要树种气孔导度(gS)的良好选择。总体而言,所有模型都表现良好;只有NNs和LMR的拟合度一致较低。XGBoost在七种物种中的表现最佳,其次是GAM和SVM,每种模型在四种物种中都显示出最高预测性能。RF和GAM还识别了对gS影响最大的环境变量,特别是VPD和TA,而Ψ和PAR的影响较小。这些发现对城市森林管理具有实际意义。通过提供物种gS预测,这些模型可以帮助指导选择在温暖干燥条件下仍能保持较高气孔导度的树木,从而在蒸腾冷却方面发挥更重要的作用。此外,RF和GAM提供的变量重要性信息可以指导管理策略,例如调整灌溉方式,以维持或增强gS而不需要过多的水量。然而,当前数据集仅限于单个季节和相对较少的物种,因此应用时应谨慎,并通过长期的多站点观测进行验证。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号