集成遥感与机器学习技术在高异质性环境中进行城市气温评估与绘图 Vahagn Muradyan, Rima Avetisyan, Shushanik Asmaryan, Anahit Khlghatyan, Azatuhi Hovsepyan, Garegin Tepanosyan, Andrea Bergamaschi 和 Fabio Dell’Acqua

《Urban Science》：Integrated Remote Sensing and Machine Learning for Urban Air Temperature Assessment and Mapping in Highly Heterogeneous Environments Vahagn Muradyan, Rima Avetisyan, Shushanik Asmaryan, Anahit Khlghatyan, Azatuhi Hovsepyan, Garegin Tepanosyan, Andrea Bergamaschi and Fabio Dell’Acqua

【字体：大中小】 时间：2026年05月10日 来源：Urban Science 2.9

编辑推荐：

　　**摘要** 本文研究了在亚美尼亚埃里温复杂的城市和地形环境中，如何利用卫星获取的地表温度（LST）来预测城市空气温度（Tair）。在先前研究的基础上，这些研究证明了机器学习（ML）方法通过偏最小二乘回归（PLSR）结合多种环境变量进行点基Tair估计的有效性。本研究将重点转

　　**摘要**
本文研究了在亚美尼亚埃里温复杂的城市和地形环境中，如何利用卫星获取的地表温度（LST）来预测城市空气温度（Tair）。在先前研究的基础上，这些研究证明了机器学习（ML）方法通过偏最小二乘回归（PLSR）结合多种环境变量进行点基Tair估计的有效性。本研究将重点转向Tair的空间分布，评估了多种预测方法和输入变量组合，以生成网格化的Tair地图，并根据土地覆盖、海拔、本地知识和实地观测数据对其空间一致性进行了评估。总共使用了五种预测方法：一种回归方法（PLSR）和四种ML方法：随机森林（RF）、分位数回归森林（QRF）、支持向量机（SVM）和多层感知器（MLP）。RF和QRF取得了最佳的整体结果，其中RF的测试R2最高（0.74），RMSE最低（0.56）。PLSR、RF和QRF的空间模式相似，都显示北部高海拔地区较凉爽，而南部城市地区较温暖。总体而言，研究结果证实了所提出的Tair空间映射方法在复杂城市环境中的可靠性。

**1. 引言**
空气温度（Tair）是一个重要的大气变量，直接反映了地表的能量平衡和地球边界层的热力学状态[1,2]。它被广泛认为是检测和监测人为引起的气候变化的主要指标，特别是在城市环境中，因为土地利用变化和人为热排放会加剧局部气候变化[3,4]。城市热岛（UHI）效应由Tair直接决定，表现为城市中心温度高于周边农村地区。这种现象是地表材料、几何形状和人类活动之间复杂相互作用的结果[5,6]。因此，高分辨率的Tair空间数据对于准确量化UHI强度和理解城市微气候动态至关重要。尽管Tair的实地气象观测非常重要（通常在地面以上1.5至2米处记录），但由于天气站的分布稀疏，在复杂且异质的城市景观中受到了限制[7,8]。城市环境具有高度的空间变异性，导致样本覆盖不均，长期气候记录中存在显著的观测空白[9]。为了解决这些限制，卫星遥感提供了一种实用的手段来描述城市热环境的空间模式[10]。虽然无法直接通过空间传感器获得Tair，但热红外图像（TIR）可以评估地表温度（LST），同时考虑了表面的发射率和大气效应。LST与地表-大气能量通量紧密耦合，在许多城市气候学研究中作为近地表Tair的代理变量[11]。这种方法能够跟踪Tair的季节性变化和细尺度的空间分布。本研究在亚美尼亚埃里温的背景下探讨了这些动态。埃里温是一座位于复杂地形环境中的中等规模城市，面积约为220平方公里，但其市区内的海拔差异超过500米（埃里温绿色城市行动计划，可在线访问：https://www.yerevan.am/en/yerevan-green-city-action-plan，访问日期为2026年4月29日）。该市具有半干旱大陆性气候，仅依靠三个运行中的公共天气站，这严重限制了传统观测数据集的空间分辨率。崎岖的地形、有限的空间范围和稀疏的地面监测为基于遥感的Tair估计方法提供了独特的应用案例，有助于我们更好地理解复杂山区城市的热力特征。因此，本研究旨在回答以下科学问题：
- 在像埃里温这样具有复杂海拔格局的城市中，是否可以根据给定的环境变量集来估计Tair？
- 即使上述单个温度估计的准确性有所不同，是否可能基于相同的变量提供整个城市区域有意义的温度空间分布？

**1.1. 现状**
本节回顾了在复杂和多样化的城市景观中进行城市Tair评估和制图的当前技术水平。接下来的部分将概述与之相关的方法、应用以及仍存在的挑战，以全面理解和希望缓解城市过热的影响。

**1.1.1. 遥感用于温度制图**
传统天气站在空间预测和绘制Tair方面存在显著局限性。遥感数据提供了有效的替代方案：虽然无法直接从太空测量Tair，但热红外传感器可以推导出地表温度（LST）。需要注意的是，Tair和LST在物理上是不同的：Tair代表在标准高度测量的阴凉近地表温度，而LST是异质城市表面的辐射温度[12]。尽管存在这种不等价性，但结合其他环境变量后，LST已被证明是有效的Tair统计预测器[13,14]。LST对于能量平衡至关重要，是估计Tair空间分布的常用代理变量[13,14]。这种方法有助于研究城市地区的季节性趋势和小尺度热异质性。事实上，地表温度（LST）被广泛认为是最相关的卫星Tair预测变量[14-21]。利用LST的方法包括温度-植被指数（TVX），该指数假设植被区域温度较低。虽然密集植被冠层的表面温度理论上可以接近Tair，但这种方法不适合城市Tair的反演，因为需要关注非植被和建成表面的温度关系[22,23]。能量平衡方法也使用LST以及其他热力学变量，但它们通常需要卫星无法直接测量的输入数据[15,19]。

**1.1.2. 统计技术及其适用性**
Tair预测的统计技术通常涉及空间插值方法或回归方法。当天气站分布均匀且预测与模型生成同时进行时，空间插值方法（包括确定性方法，如逆距离加权、多项式函数）和随机方法（如基于克里金的地理加权回归）[17,24,25,26] 能有效工作。然而，对于长期每日观测或天气站覆盖不规则的地区（如我们的埃里温研究区域），这些方法的准确性会降低[13,20,26,27]。因此，空间插值不适用于埃里温的准确Tair预测。这就引导我们使用回归方法，这些方法在插值无效的情况下更为适用。它们从参数模型（如线性回归（LR）和逐步回归[19,28,29,30,31,32] 到更复杂的ML方法（如RF、SVM和ANN [19,31,33]）不等。这些经验回归模型通过训练和测试过程来发展Tair的最佳估计，即使是在地表特征高度异质的地区也是如此。

**1.1.3. 山地城市环境中的独特挑战**
本研究焦点是埃里温，这座城市具有独特的地理特征，与典型的城市热岛研究相比面临独特的挑战。虽然其他案例研究使用了遥感进行Tair预测（如雅典、赫拉克利翁、洛杉矶、首尔、温哥华和埃尔比勒[33,34,35]），但埃里温结合了复杂的山区地形和相对较小的面积（约220平方公里），并且海拔变化超过500米。此外，埃里温气候干燥，仅有三个运行中的天气站，严重限制了关于Tair空间变化的信息获取。

**1.1.4. 混合方法和机器学习用于城市Tair建模**
基于遥感（RS-based）的Tair估计通常采用结合地理信息系统（GIS）和遥感数据的方法。例如，Cristobel等人（2008年）整合了空间变量（如海拔、纬度、大陆性、太阳辐射）与RS预测因子（如反照率、LST和NDVI），发现这种组合方法是最佳的Tair模型，其中NDVI和LST是最强大的RS基预测因子[36]。虽然LST是与近地表Tair密切相关的物理参数，但在山区或天气站有限的地区，它们之间的关系变得更加复杂。尽管如此，Mutiibwa等人（2020年）在内华达州复杂的山区也发现了LST和Tair之间的一致关系[37]。有趣的是，Nikoloudakis等人（2020年）开发了一种基于RS-GIS的方法来预测没有LST的城市Tair，该方法依赖于城市的形态特征和现场测量[35]。由于城市异质性，城市Tair的建模本质上很复杂，稀疏的天气站阻碍了准确的空间表示[38]，而在山区城市中这一问题更加严重[33]。幸运的是，ML技术显著提高了Tair估计的准确性[39]。尽管多重回归和人工神经网络（ANN）模型仍然流行[28,38,39,40,41]，但由于输入变量选择的不同，结果各不相同，但ML模型的优势在于它们能够处理大量变量。在本研究中，我们使用了回归PLSR、QRF、RF、SVM和MLP模型来评估和预测城市Tair，结合了31个不同的变量：其中包括15个环境变量（第2.3.1节），这些变量的均值和标准差在每个1公里×1公里的网格单元内计算；还加入了一个时间变量“一年中的日期（DOY）”，总共得到了31个预测因子。我们特别选择了RF模型作为回归器来估计空间 hourly Tair 模式，因为它不仅提供了优势，还允许我们评估每个驱动因素对估计准确性的影响[42]，这对于本研究至关重要。除了整体和时间性能外，我们还详细检查了这些模型在不同空间位置的表现。

**2. 材料和方法**
**2.1. 研究区域**
埃里温是亚美尼亚的首都，拥有大约223平方公里的广阔城市中心，居住着110万居民。这里是亚美尼亚人口的重要集中地——占总人口的36%，城市居民的56%。埃里温的人口密度相当高，超过4900人/平方公里（访问日期为2026年4月29日）。地理上，埃里温位于阿拉拉特山谷边缘的平原上，海拔范围从850米到1400米不等（图1），显示出其山区特征（访问日期为2026年4月29日）。该市具有干燥的大陆性气候，年平均气温在9.1°C到12.1°C之间。这导致明显的季节性变化，夏季和冬季气温相差27°C。图1显示了埃里温的城市地理位置和天气站的分布：(1) Yerevan_agro; (2) Yerevan_aerologia; (3) Arabkir。这里的冬季特别寒冷多雪，1月平均气温在-2.5°C到-5°C之间，最低气温可达-21°C到-32°C。春季短暂且多变。夏季漫长、炎热且干燥，平均气温在22.1°C到25.4°C之间。7月记录的绝对最高气温可达到40°C到43°C[26,27]。埃里温位于干燥的亚热带气候区，特别容易受到气候变化的影响，这从城市Tair变化的幅度增加中可见。图1直观展示了埃里温的地理位置及其山区地形，以及关键因素——天气站的稀疏分布。这些天气站主要分布在城市的北部和西部，海拔各异（图1），严重限制了我们对整个城市区域Tair空间变化的观测能力。自20世纪80年代末以来，埃里温的土地覆盖变化加剧了城市对近期气候变化的暴露。一项关于气候变化的全国性报告显示，1981年至2013年间，埃里温夏季热浪期平均增加了约40天（访问日期为2026年4月29日）。虽然一些研究（如Tepanosyan等人的研究）使用遥感数据（Landsat TM/ETM+/OLI-TIRS图像）探讨了时空土地变化对城市热的影响[43]，但没有先前的研究专门针对这一地区开发了使用遥感数据和技术来改进时空Tair变化的可视化和监测的方法。

**2.2. 输入数据**
**2.2.1. 地面数据**
气象数据来源于埃里温内部或附近的三个天气站。数据由亚美尼亚环境部的“水文气象和监测中心”（SNCO）提供。站点配备了整套“MicroStep-MIS”仪器，可以提供广泛的气象参数的日常和每小时测量数据。这些参数包括水平能见度、云量、大气现象、地表和地下土壤温度、气温（Tair）、相对湿度、大气压力、风向和风速、降水量、日照时长、露点和太阳辐射。在这项研究中，我们的分析特别关注了气温（Tair）。为此，我们将Tair数据汇总为对应于卫星过境当地时间的日平均值，以确保实地测量数据与用于模型训练的遥感地表面温度（LST）数据一致。在分析之前，原始数据经过了仔细处理。首先，考虑了所有测量数据，然后进行了一项关键步骤来识别和移除异常值。使用箱线图方法来识别潜在的异常值，将超出第一四分位数（?1.5×四分位数范围）和第三四分位数（+1.5×四分位数范围）的值标记出来。然而，为了确保数据的完整性，最终只排除了在所有测量参数中被识别为异常值的点。仅保留了在某些参数中被标记为异常值的观测结果，这样可以最小化可能的有效数据的丢失，并确保只丢弃真正的异常值。

2.2.2 遥感数据和地形信息
分析依赖于来自Landsat任务的开源遥感（RS）表面反射率产品的综合输入数据集，具体包括Landsat 4和专题制图仪（TM）、Landsat 7增强型专题制图仪Plus（ETM+）以及Landsat 8操作陆地成像仪/热红外传感器（OLI/TIRS）。这些图像监测了1984年至2020年的夏季（6月至8月），使用Google Earth Engine（GEE）平台进行采集和处理。为了丰富这个数据集，计算了几个关键的光谱指数，包括归一化差异植被指数（NDVI）、归一化差异水指数（NDWI）、基于指数的积累指数（IBI）和土壤调整植被指数（SAVI）。此外，还使用Landsat LST Web应用程序获得了每年的地表温度（LST）数据，该数据的空间分辨率被重采样为30米。除了这些遥感产品外，还结合了地形变量，如海拔、坡向、坡度和太阳辐射，以及地形崎岖度指数[44]。这些地形变量均来自基于Shuttle Radar Topography Mission（SRTM，https://dwtkns.com）的30米数字高程模型（DEM）。

除了自然和地形因素外，还纳入了两个变量LST和IBI来代表人为影响。LST反映了地表材料和人类热量排放的综合效应，而IBI量化了城市化强度和不透水面覆盖情况，这两者都是导致城市气温升高的关键因素。图2展示了本研究中采取的详细步骤。图2. 研究的方法流程图。

2.3 方法和算法
2.3.1 统计分析和机器学习建模
为了对埃里温的气温（Tair）分布进行建模和预测，采用了多种机器学习技术。选择这些方法是因为它们能够有效地捕获输入特征与响应变量Tair之间的依赖关系。结合了传统的回归方法和更先进的机器学习算法来提高预测准确性。所有统计分析都是使用Jupiter Notebook环境中的Python（v3.13.9）编码完成的。Tair预测和制图的任务被构建为一个监督回归问题。本研究选择了一种统计方法——偏最小二乘回归（PLSR），以及四种更先进的非参数机器学习算法进行评估：支持向量机（SVM）、多层感知器（MLP）、随机森林（RF）和分位数回归森林（QRF）[19,33,45]。

为了估计和绘制埃里温的气温分布，使用了各种气象、卫星和环境数据作为输入变量。在2.3.1节中，列出了31个输入变量的完整列表，包括光谱、热学、地形和热学因素及其对城市空气（Tair）评估的重要性。这些变量包括卫星衍生的光谱波段，如蓝光、绿光、红光、近红外（NIR）、短波红外1（SWIR1）和短波红外2（SWIR2）。此外，还包含了几个体征指数：NDVI、NDWI、IBI和SAVI。为了捕捉表面热特性，LST被作为一个关键变量纳入。在地理因素中，也包含了一些被认为是重要微气候驱动因素的变量，如坡度、海拔、地形崎岖度和太阳辐射。应用了树木补充重要性指标来解释不同模型中变量的贡献。对于PLSR，计算了变量在投影中的重要性指标（VIP），其中值≥1表示显著的预测因子。对于RF，使用所有树的平均不纯度降低（Gini重要性）和测试集上的排列重要性来评估特征的重要性，这提供了一个更可靠的估计，较少受到高基数特征的偏差影响。对于QRF，没有明确计算变量的重要性，因为该模型侧重于估计分布而不是对特征进行排名。SVM和MLP没有提供自己的特征重要性指标，因此没有包括在重要性分析中。

对于表1中列出的每个环境变量，在每个1公里×1公里的网格单元内计算了平均值和标准差（SD），从而得到30个空间聚合的输入特征。平均值捕捉了每个网格单元的平均环境条件，而标准差捕捉了网格单元内的空间异质性——这两者对于表示埃里温复杂的地形特征都很重要。结合日期（DOY）作为单一时间值，总共得到了31个输入特征。表1. 用于城市Tair建模的变量描述和相关性。还包含了一个辅助变量——一年中的天数（DOY），根据文献报道它在反映Tair的时间和季节变化方面的表现[29,46]。这些变量作为PLSR、QRF、RF、SVM和MLP模型的输入，以评估它们的性能。

在模型拟合之前，使用sklearn的preprocessing.normalize函数对PLSR、SVM和MLP的输入变量进行了L2归一化。RF和QRF不需要特征缩放，因为基于树的方法本质上是尺度不变的。然后，数据被随机分为训练集和测试集，比例分别为20–80%和25–75%，以便更容易评估模型在未见数据上的性能。在这个阶段没有进行手动参数选择：而是使用自动化过程来拟合模型。使用不同的输入参数组合运行模型，逐步增加输入变量的数量，从单个输入开始。选择PLSR方法是因为它在之前的Tair评估研究中证明了其有效性。它作为一种监督回归方法，擅长处理多重共线性并选择重要的预测因子。使用变量在投影中的重要性（VIP）得分来确定最具影响力的变量，VIP得分大于或等于1表示对预测模型的重要性[47]。先前的研究表明，地表温度（r = 0.79；p < 0.001，VIP得分 = 2.77）在Tair建模中起着关键作用，其他变量的影响相对较小[48]。

RF模型是一种基于树的集成学习方法，它在训练数据的自助子集上构建大量决策树，并对它们的预测进行平均以产生最终估计[49]。每棵树都是在每次分割时使用随机子集的输入特征生成的，这减少了树之间的相关性并提高了泛化能力。RF估计给定输入预测因子时的目标变量（在本例中为Tair）的条件均值，使其非常适合在空间异质性环境中（如埃里温）产生准确的点预测。它处理高维、非线性特征与目标变量之间关系的能力，加上其内置的特征重要性得分，使其在这项研究中特别有价值，因为理解31个环境预测因子的相对贡献是一个重要目标。QRF模型是RF的直接扩展，它不是通过在树之间平均预测来估计条件均值，而是在每个叶节点中保留训练观测的完整分布[50]。这允许QRF估计目标变量的完整条件分布，从而可以从中得出任何分位数——包括预测区间[51]。在这项研究中，QRF用于预测第5和第95百分位数以及中位数，为每个Tair估计提供了不确定性界限。虽然RF和QRF使用相同的底层树构建算法，在结构上可以直接比较，但它们的输出从根本上不同：RF产生单个点估计，而QRF产生分布估计。这种区别在埃里温复杂的地形背景下尤为重要，因为当地的微气候变异性很高，量化预测不确定性在科学上很有价值。包括这两种模型是为了评估QRF提供的额外不确定性信息是否能使Tair地图在空间上比RF的点预测更加连贯[51]。

选择SVM模型是因为它能够使用核函数处理对象和目标变量之间的线性和非线性依赖关系[52]。MLP模型是一种人工神经网络，也因为它能够捕捉特征与目标变量之间非常复杂非线性关系而被选中[53]。表2提供了每种模型使用的超参数设置。所有参数都是通过系统优化程序选定的：对于MLP和QRF使用网格搜索交叉验证，对于其他模型则基于性能指标进行手动调整。表2. 每种机器学习模型使用的最终超参数设置。超参数的优化如下：对于PLSR，通过在训练集上进行10倍交叉验证来确定最佳组件数量，使用自定义迭代程序最小化MSE。对于QRF，应用了5倍交叉验证的GridSearchCV，搜索n个估计器[100, 500, 1000]、最大特征['auto', 'sqrt', 'log2']和最小样本分割[2, 5, 10]，以R2作为评估指标。对于MLP，也应用了5倍交叉验证的GridSearchCV，搜索隐藏层大小[(50,), (100,), (200,), (50, 50), (100, 50)], 激活函数[logistic, tanh, relu]，alpha [0.0001, 0.001, 0.01]，学习率[constant, invscaling, adaptive]，以及最大迭代次数[500, 1000, 1500]和求解器[lbfgs, adam]，以R2作为评估指标。对于RF和SVM，超参数是基于训练集上的迭代性能评估手动设置的。

测试了各种输入变量组合，并使用决定系数（R2）和均方根误差（RMSE）等指标评估了模型的性能。R2值越高，表示测量值和预测值之间的线性关系越强。RMSE是最常用的统计参数之一，用于表示估计值和观测值之间的平均差异。

2.3.2 空间映射方法
为了评估所选方法的空间映射能力，生成了2020年7月27日埃里温的温度估计。基于之前的研究表示1000米分辨率能获得最佳模型结果，城市被划分为1000米×1000米的网格单元（网格瓦片）[48]。在1000米分辨率下聚合预测因子可以减少局部噪声和亚像素异质性，从而在城市尺度上得到更稳健和可推广的温度预测。需要注意的是，每个1000米×1000米的网格瓦片在原始30米Landsat分辨率下包含大约1089个像素。通过聚合每个网格瓦片内的这些30米像素来计算每个30个空间变化输入变量的平均值和标准差，从而捕捉网格瓦片内的空间异质性。对于在单一天内时间上恒定的标准化日期（DOY）变量（2020年7月27日为0.604），所有瓦片的平均值和标准差保持不变。

对于每个网格瓦片，使用RF、QRF和PLSR机器学习模型计算Tair值。对于指定日期内每个网格瓦片中的每个像素，计算所有输入变量的平均值和标准差（SD），然后将其输入模型。DOY被规范化到一个0–1的范围内，表示夏季观测期内的相对位置，使用公式：DOY_normalized = (DOY ? 153)/(244 ? 153)，其中153和244分别对应6月1日和9月1日[31,33,46]。对于静态或单日变量（如“一年中的天数”（DOY），仅使用单日值。随后使用每个网格瓦片获得的结果创建了一个GIS数据库，从中显示了Tair地图。结果与讨论
本节介绍了我们对埃里温Tair建模及其空间映射研究得出的发现。首先，将对该研究中使用的各种预测方法的性能进行批判性评估。这一评估将区分以往建立的方法与新引入的机器学习方法。随后，将深入分析估算出的Tair在城市中的空间分布，从而揭示我们模型所揭示的微气候模式。

在变量重要性方面，LST在PLSR和RF模型中均成为主导预测因子，这与之前的研究结果一致。在PLSR中，LST获得了最高的VIP分数（2.77），其次是SWIR_2均值（1.42）、IBI-SAVI均值（1.29）和NDWI均值（1.23），所有这些分数均超过了1.0的显著性阈值。在RF模型中，LST均值同样基于混合度降低和每个突变的重要性而被列为最重要的变量，这证实了其在估算Tair中的核心作用。地形变量，特别是海拔和太阳辐射，也做出了显著贡献，反映了埃里温复杂地形对局部温度制度的强烈影响。与植被相关的光谱指数（NDVI、NDWI）显示出负值，这与它们对Tair的冷却效应相符。PLSR和RF之间变量重要性排名的一致性增强了我们对所识别预测因子的信心，并确认选定的31个变量反映了影响埃里温城市空气温度的关键环境因素。

3.1. 算法性能
为了评估所选模型PLSR、RF、QRF、SVM和MLP的预测性能，采用了统一的训练和测试方法。MLP模型使用scikit-learn库中的MLP回归器进行训练，超参数通过网格搜索和5折交叉验证来选择。包含31个输入变量的数据集被分为75%的训练集和25%的测试集。网格搜索测试了各种隐藏层大小（例如（100,,, 200, 100））、激活函数（logistic、tanh、relu）、求解器（adam、lbfgs）、学习率、正则化水平（alpha）和最大迭代次数（最多1500次）的组合。在验证折叠中R2分数最高的模型被选中，并使用R2和RMSE在训练集和测试集上进行评估。缺失值使用K-最近邻（KNN）插补法处理，该方法基于特征空间中最相似的K个观测值来估计缺失值（k = 5），这是遥感和城市气候研究中广泛采用的方法，因为它能够保持环境数据集的多元结构。

SVM模型使用scikit-learn中的SVR函数实现，核函数为线性，正则化参数C设置为2。选择线性核是因为输入空间的高维度（31个变量）和相对较小的数据集大小（496个观测值），这增加了使用更复杂的非线性核（如RBF）时过拟合的风险。数据集被分为80%的训练集和20%的测试集。与其他模型（75/25）略有不同的分割比例是为了确保SVM训练过程中的计算稳定性。具体测试确认这没有显著影响模型间性能指标的可比性。例如，我们比较了使用80/20分割得到的SVM模型结果与其他分割（如75/25）的结果，并使用R2和RMSE指标进行评估。这些比较显示只有微小差异，证实所选的分割没有显著影响模型间结果的可比性。该模型使用31个输入变量进行训练，其性能使用R2和RMSE指标在训练集和测试集上进行评估。

QRF模型使用quantile forest包（v1.4.1）中的随机森林分位数回归器实现，具有1000棵决策树和每个分割至少10个样本。数据集通过5折交叉验证进行评估，在每个折叠中模型基于31个输入变量进行训练并在未见数据上进行测试。对于每个分割，模型预测第5和第95百分位数以构建Tair估计的不确定性区间。交叉验证后，最终模型使用R2和RMSE指标在训练集和测试集上进行重新训练和评估。这种方法不仅能够准确地进行点预测，还提供了关于每个估计值置信范围的信息。

RF模型使用scikit-learn中的RF回归器实现，具有100棵决策树和固定的随机种子以保证重现性。数据集被分为75%的训练集和25%的测试集。模型训练后，基于纯度降低和排列方法计算特征重要性得分。使用“Select From Model”选项进行基于阈值的特征选择，以识别最具影响力的预测因子。模型性能使用R2和RMSE指标在训练集和测试集上进行评估。除了预测之外，RF模型还用于解释变量对Tair估计的贡献，突出了基于树的方法在准确性和可解释性方面的附加价值。

PLSR模型使用scikit-learn中的PLSR类实现。模型在将数据集分为75%的训练集和25%的测试集后，使用31个输入变量进行训练以预测Tair。组数的确定是为了最小化验证集上的RMSE。该模型还用于计算VIP分数，有助于识别最相关的预测因子。模型性能使用R2和RMSE指标在训练集和测试数据上进行了评估，证实PLSR在处理高维环境数据集中的多重共线性方面的稳定性。

除了训练R2值外，模型还使用测试指标（包括R2和RMSE）进行评估。各模型的结果总结如下（表3）：
表3. 模型的性能指标。
图3展示了使用上述模型预测Tair的结果。因此，RF和QRF模型在训练集和测试集上都表现出稳健的性能。它们表现出较高的训练R2值，表明有效捕捉了训练数据中的关系。它们的低RMSE_train值进一步证实了其强大的拟合能力。在所有模型中，RF获得了最高的测试R2值（0.74）和最低的RMSE_test值（0.56），凸显了其出色的泛化能力。尽管QRF的测试R2略低于RF，但其RMSE_test值为1.81，表明存在一些泛化挑战，但其性能仍相当合理。这种差异与方法上的区别一致：RF估计条件均值，而QRF通过分位数估计完整的条件分布。尽管模型在训练阶段取得了高精度，但其较低的测试性能可能反映了数据的变异性以及地面站数量的限制。表3显示RF实现了最低的测试RMSE，而PLSR具有最高的测试R2。这种明显的差异反映了这些指标所捕捉的不同方面：RMSE量化了预测误差的绝对大小，这对于空间映射应用至关重要，因为在这些应用中最小化局部偏差非常重要；而R2反映了所有样本中被解释的方差比例[33,54]。

相反，SVN和MLP模型的性能较弱。它们的训练R2值显著较低，同时RMSE_train值也较高。SVM模型的测试R2较低，RMSE_test较高，表明其泛化能力较差，在测试数据上的预测误差较大，这表明它可能不适合这项预测任务。尽管MLP的测试R2具有竞争力（0.76），但其RMSE_test为1.47，表明预测误差中等，且并未始终优于RF和QRF模型。

总体而言，RF模型表现最佳，展示了在训练和测试阶段之间偏差和方差之间的有效平衡。这种优越的性能归因于其捕捉环境预测因子与Tair之间复杂非线性关系的能力，这在像埃里温这样的异质城市环境中尤为明显。QRF的表现也很不错，尽管在泛化方面存在一些限制；然而，它通过不确定性量化提供了额外的价值，这在空间建模中非常重要。相比之下，SVM由于对参数选择的敏感性以及处理高度复杂空间交互作用的灵活性较低而明显受限。尽管MLP在测试方面表现尚可，但它缺乏基于树的模型的整体稳健性和稳定性，可能是由于数据集相对较小和过拟合的风险。这些结果突显了集成树基方法在具有强烈空间变异性和观测数据有限复杂的地形条件下建模城市温度的优势。

考虑到Tepanosyan等人（2023年）的先前研究结果，其中部分最小二乘回归（PLSR）模型被用于城市Tair估计和时间预测，并取得了令人满意的结果，因此重新评估了其是否适合空间映射[48]。基于本研究中观察到的比较性能，选择了PLSR、QRF和FR用于埃里温Tair分布的映射。其他方法——SVM和MLP被认为不值得在后续研究阶段进一步考虑，因此被排除在外。

3.2. 城市Tair的映射
基于历史数据训练的模型被应用于整个城市，以构建温度估计地图，提供了全面的空间洞察而不仅仅是单个局部估计。本小节中展示的地图显示了2020年7月27日研究区域的绝对温度值的空间分布（图4）。
图4. 使用回归模型预测的2020年7月27日的Tair空间映射：(a) PLSR；(b) QRF；(c) RF。红色圆圈表示气象站的位置。RF模型显示的温度范围在27°C到34°C之间。最高温度（32°C至34°C）主要出现在地图的东南部、西部和西北部，特别是西南角，表明这些区域温度最高。温度在27°C到30°C之间的较凉爽区域主要分布在中部、北部和东部。温度在30°C到32°C之间的适中区域作为凉爽区域和温暖区域之间的过渡带，占据了地图的大部分中部和南部。

PLSR地图显示出显著的Tair变化，值大致在26°C到42°C之间。城市北部和东部地区的温度相对较低， mostly 在26°C到32°C之间。相比之下，中部、西部和南部地区明显较暖，温度通常在34°C到40°C之间，最西部的少数地点甚至超过40°C。平均温度区域（30°C到34°C）位于中央区域周围。

在QRF模型中，Tair的范围较窄，从28°C到36°C。较凉爽的区域，特别是28°C到30°C之间的区域主要集中在北部和北中部，温度显著较低。温度在30°C到32°C之间的区域广泛分布在中部，表明温度较为适中。过渡带（32°C到34°C）位于凉爽区域和温暖区域之间，分布在多个部分，表明这些区域温度适中。温度在34°C到36°C之间的最暖区域主要位于南部和东南部。这些较高的温度可能受到局部气候和地理因素的影响，如较高的太阳辐射和较低的海拔，尤其是东南部地区温度最高，约为36°C。值得注意的是，QRF的映射准确性得到了进一步的支持，因为地图最北部没有出现异常高温区域，这一特征在其他模型中并未出现，因为这片植被区域本质上应该比周围区域更凉爽。

如图4所示，所有三个模型都呈现出一致的模式：北部和东北部较凉爽，对应于高度较高的密集城市化区域[46]；而南部/西南部较温暖，可能表明海拔较低、城市化程度较低且植被较少，这可能反映了城市热岛效应，导致土地表面干燥暴露。

尽管有城市化现象，北部温度较低主要是由于海拔的影响。虽然凉爽区域和温暖区域之间的温度转换在所有地图中都是一致的，但强度和整体温度范围略有差异。PLSR展示了更宽的温度范围（26°C至42°C），尤其是在西部地区，温度超过40°C的情况更为明显。相比之下，QRF和RF的温度范围较窄（QRF为28°C至36°C；RF为27°C至34°C），并且温度分布更加均匀，没有超过36°C的极端热点。然而，PLSR在炎热和凉爽区域之间的对比更为明显，尤其是在西部地区，其预测的炎热程度超过了QRF和RF在同一区域的预测结果。由于参考数据的有限性，估计温度图中的完整变化受到了限制。作为替代方法，通过两种不同的合理检查进行了验证。研究重点关注了2020年7月27日，因为那是有记录以来最热的一天，意味着整个城市区域的温度对比最为强烈。首先，评估了逐点预测的准确性。将树状气象站记录的实际温度与站点位置对应的网格单元（瓦片）中的Tair值进行了比较。研究结果（在表格中呈现）表明，所有三个模型得到的Tair值与实测值没有显著差异。值得注意的是，PLSR模型的可靠性最高，仅显示出0.3–1.9°C的差异。然而，RF模型在温度范围和空间分布方面显得更为稳健。此外，在城市中心西南部观察到一个冷点，那里有一个大型水库（埃里温湖），这解释了该区域相对于周边地区的较低温度。其次，根据已知的地理和城市特征，检查了预测温度的空间模式进行修正。城市西南部和西部区域的Tair值最高，这可能是由于埃雷布尼机场和兹瓦尔特诺茨机场的存在以及潜在的工业区的影响。相反，城市中心和东北部的较低温度可以归因于赫拉兹丹河谷、埃里温湖和达尔马花园的冷却效应，其中后者两个地方植被茂密。此外，地图清楚地显示出西北部的Tair值相对较低，这与该地区的较高海拔相吻合，包括在东北端的赫拉兹丹河峡谷内的一个明显的冷点。

对几个机器学习模型的比较分析表明，RF和QRF在训练和测试阶段都表现出良好的预测能力。值得注意的是，QRF适合作为城市Tair的空间预测工具，不仅具有稳健的统计性能，还能准确反映已知的微气候特征，如植被较凉爽的区域，而这些特征在其他模型的输出中有时是不明显的。虽然PLSR在逐点预测方面也显示出可靠性，但QRF和RF提供了更加均匀和一致的空间分布，避免了某些基于PLSR的地图中出现的极端情况。针对现场站点数据的验证以及预测空间模式与已知地理和城市特征的一致性进一步支持了这些模型的可靠性，特别是QRF在Tair绘图方面的能力。本研究中实现的Tair绘图精度与其他已发表的研究结果相当，甚至在某些情况下更为优越。

4. 局限性
本研究的主要限制是地面站点的数量有限且分布不均，这对于像埃里温这样地形复杂的城市尤为重要。一个主要约束是用于空间验证的地面参考数据有限——尽管现有的三个气象站提供了逐点验证数据，但如果有一个更密集的网络，可能通过额外的来源（如移动气象站）来扩展，将能够实现更加全面和稳健的定量验证。因此，所进行的验证在某种程度上是定性的，还依赖于当地知识和专家对温度模式的理解以及独立测量。这限制了对少数固定站点附近空间地图准确性的明确定量评估。

5. 结论
本研究探讨了使用不同机器学习模型预测埃里温城市Tair空间分布的应用，该城市以复杂的地形和有限的地基气象数据为特点。研究证明了遥感数据和先进机器学习算法在克服传统稀疏气象站网络限制方面的高效性。在评估的模型中，RF和QRF展示了最可靠的Tair空间预测能力，RF在定量性能方面表现最佳，而QRF最准确地反映了埃里温城市景观的已知微气候特征。尽管结果令人满意，但仍需承认某些局限性。一个主要约束是地面参考数据的有限性。虽然现有气象站提供了一些验证点，但如果有一个更密集的网络，可能通过包括移动气象站在内的其他温度数据来源来扩展，将能够实现更加全面和稳健的定量验证。因此，所进行的验证在某种程度上是定性的，也依赖于当地知识和专家对温度模式的理解以及独立测量。这限制了对少数固定站点附近空间地图准确性的明确定量评估。

地形复杂性在影响模型空间性能方面起着重要作用，因为异质地形（如陡峭的坡度和强烈的海拔梯度）会增加预测的不确定性。这种不确定性主要是由于更强的空间不连续性和局部微气候效应造成的，这些效应使用现有的输入数据更难以表示。因此，模型输出在整个研究区域并不完全均匀，相对平坦和地形复杂的区域之间存在明显的性能差异。尽管如此，模型保持了总体上的稳定预测能力，显示出良好的整体稳健性。后续研究可以探索以下几个方向：整合更多多样化和更高分辨率的遥感数据（如高光谱图像或LiDAR数据），以进一步细化Tair预测，特别是在高度异质的城市景观中；整合包括风玫瑰图和降水在内的其他环境变量；利用这些先进的映射技术研究城市热岛效应的日变化和季节变化，从而提供对埃里温城市气候的更动态理解。此外，所开发的方法也可以应用于其他面临类似数据稀缺问题的复杂城市环境，为气候变化适应和城市规划提供支持。因此，这项研究为开发更准确和空间上更全面的城市热监测系统奠定了基础，这对于埃里温的有效气候行动和可持续城市发展至关重要。

热点排行