利用系统性消融设计评估云多发的山区环境中光学、SAR(合成孔径雷达)和地形测量技术在景观利用与覆盖(LULC)制图中的协同效应
Karen Escalona
Johnny Valencia-Calvo
Gerard Olivar-Tost
Valentín Alexis Solís Olave
《Geomatics》:Assessing Optical, SAR, and Topographic Synergy for LULC Mapping in Cloud-Prone Mountain Environments Using a Systematic Ablation Design
Karen Escalona,
Johnny Valencia-Calvo,
Gerard Olivar-Tost and
Valentín Alexis Solís Olave
【字体:
大
中
小
】
时间:2026年05月10日
来源:Geomatics 2.8
编辑推荐:
**亮点**
**主要发现是什么?**
系统性的消融设计显示,将Sentinel-1 SAR和地形数据与光学数据相结合,在复杂地形中将Macro-F1得分提高了5.5个百分点。年度SAR合成图像在地图一致性方面优于季节性聚合图像,尽管季节性聚合图像在统计指标上表现优异,但引入了
**亮点**
**主要发现是什么?**
系统性的消融设计显示,将Sentinel-1 SAR和地形数据与光学数据相结合,在复杂地形中将Macro-F1得分提高了5.5个百分点。年度SAR合成图像在地图一致性方面优于季节性聚合图像,尽管季节性聚合图像在统计指标上表现优异,但引入了几何伪影。
**主要发现的意义是什么?**
纳入结构和地形变量有效地解决了过渡区域(如城乡交界处和陡坡上的湿地)的光谱歧义。所提出的开源工作流程为克服高纬度地区的持续性云层覆盖问题提供了可扩展的解决方案,使得在数据稀缺的环境中进行生态系统监测成为可能。
**摘要**
在高纬度山区进行准确的土地利用和土地覆盖(LULC)制图面临持续性云层覆盖和复杂地形的重大挑战,这些因素限制了被动光学传感器的应用效果。为了填补这些数据稀缺环境中的证据空白,本研究采用了系统性消融设计,量化了在智利巴塔哥尼亚阿森河流域内光学数据(Sentinel-2)、合成孔径雷达(Sentinel-1 SAR)、地形数据以及季节内物候指标的边际和协同贡献,开发出具有高迁移潜力的地理空间工作流程。使用随机森林分类器,比较了五种渐进配置:季节性光学基线(A)以及结合季节内百分位数的配置(A + P)、地形数据(A + T)、SAR数据(A + R)及其完全集成(A + P + T + R)。基线模型的总体准确率为89.2%,Macro-F1得分为80.5%;完全集成模型的总体准确率为92.5%,Macro-F1得分为86.0%。选择Macro-F1作为主要指标,因为它对所有11个类别赋予了相同的权重,而不管它们的空间分布如何,从而能够捕捉到OA可能忽略的少数但生态上关键的类别的改进。SAR和地形变量是最大的贡献者,分别在结构复杂和受地形条件影响的类别中产生了非冗余的改进。此外,年度SAR合成图像在地图空间一致性方面优于季节性聚合图像,尽管后者在类生态过渡区引入了纯粹的地图几何伪影,但在基于点的统计指标上略有提升,这种差异是由于混淆矩阵验证对边界区域分类错误的空间盲性造成的。
**1. 引言**
准确监测土地利用和土地覆盖(LULC)动态对于广泛的科学和应用学科至关重要。LULC的变化会改变基本的生态系统过程,包括水文调节、碳封存、土壤侵蚀动态和生物多样性栖息地结构,并直接影响生态系统服务的提供,如水质净化、洪水减缓和景观连通性[1,2,3]。这些生物物理后果使得LULC制图成为地方和区域尺度上进行领土规划、自然灾害评估、环境脆弱性分析和可持续资源管理的重要输入[2]。在国际层面上,LULC信息还支持实现可持续发展目标(SDGs)并服务于政府间气候变化专门委员会(IPCC)提出的气候缓解策略[2]。在过去十年中,开放数据政策和基于云的处理技术的发展在四个具体方面从根本上改变了地球观测能力:(i) 免费和开放获取数十年的存档卫星图像(Landsat自1972年起,Copernicus Sentinel自2014-2015年起);(ii) 提高空间分辨率,Sentinel-2提供10米多光谱数据,Sentinel-1提供10米SAR数据;(iii) 提高重访频率,双卫星星座Sentinel-1A/1B和Sentinel-2A/2B实现了5-6天的重复周期;(iv) 通过Google Earth Engine(GEE)等平台实现可扩展的基于云的地理空间处理,能够进行拍字节规模的多时相分析,而无需本地数据处理的计算和存储限制[3]。
尽管取得了这些进展,但在山地生态系统中系统性地制作LULC地图仍然受到严重限制,即使使用了机器学习分类器[4,5]。持续的云层覆盖在光学时间序列中造成了大量数据缺失,而复杂的地形则引入了降低模型性能的辐射度失真[6]。这种失真是由于地形阴影减少了直接受阳光照射斜坡的光谱信号质量;坡向不同导致的差异性光照使得相同土地覆盖类别的光谱响应不同。此外,传感器在陡峭地形上的观测几何分布产生了图像像素与地表特征之间的空间对应关系失真。这种观测缺陷在国家级文献中产生了关键的地理和主题偏见。最近的一项系统评价[7]显示,智利的LULC研究主要集中在中心地区,而阿森和马加兰尼斯等地区的发表研究不足2%。鉴于智利巴塔哥尼亚是一个具有显著东西向生态梯度的全球重要自然实验室,这一差距尤为令人担忧,该梯度涵盖了温带森林、灌木丛、草原和湿地[8,9]。此外,迄今为止进行的有限监测工作主要集中在森林动态上,导致过渡性土地覆盖类别的特征描述存在大量空白[10,11]。现有的全球或国家级地图产品并未弥补这一研究不足。虽然像ESA World Cover和CONAF土地登记这样的项目提供了为一流的主题参考,但它们在阿森流域的实际应用受到特定技术原因的限制。CONAF土地登记虽然是最详细的国家参考,但并非作为系统监测工具设计的:其更新在全国范围内缺乏标准化周期,而且其方法随时间发生了变化,影响了不同版本的可比性。另一方面,像ESA World Cover这样的全球产品在描述结构复杂的生态系统中的过渡类别时存在主题局限性[11,12]。此外,这些产品均未设计出关于在高云覆盖山区分类土地覆盖所需的数据源组合的可复制操作指南,也没有说明每个数据源各自的贡献。这种缺乏基于证据的方法框架来选择传感器的方法在多云山区是一个关键的操作缺口,这也促成了本研究的开展。
为了克服这些限制,有必要超越传统的仅依赖光学数据的方法。结合使用来自时间分布的稳健统计量(例如中位数和百分位数)已成为一种有效策略,可以在观测数据有限的情况下减轻大气噪声并捕捉光学时间序列中的物候变化[13]。然而,在南纬地区,仅依赖光学数据仍然存在脆弱性[14]。因此,集成合成孔径雷达(SAR),特别是Sentinel-1,作为一个关键的补充解决方案,因为它提供了与大气条件无关的物理结构和表面粗糙度信息[15]。然而,在以陡峭地形为特征的环境中,有效的SAR使用需要明确结合地形变量,不仅是为了根据地形几何形状来解释雷达信号,也是为了表示生态相关的海拔梯度[16]。
本研究在方法论上做出了三项具体贡献,使其区别于LULC文献中普遍采用的标准的Sentinel-1/Sentinel-2融合工作流程[5,17,18]。多传感器LULC制图的主要范式是将光学波段、SAR后向散射通道和DEM派生的变量合并到一个特征堆栈中,并在组合系统上训练分类器。这种方法相对于单传感器基线提高了总体准确性,但无法量化每个数据源对观测增益的贡献。虽然消融风格的传感器比较已经在一些孤立环境中应用,例如热带季风环境和选择性砍伐的热带森林[19,16],但此前没有任何研究在多云的亚极地安第斯流域构建了一个完整的渐进式模块化消融框架。
本研究在三个方面不同于传统的堆叠范式。首先,系统的渐进式消融设计(A → A + P → A + T → A + R → A + P + T + R)在固定的实验条件下隔离了每个主题块的边际和协同识别能力,使得可以直观地推断数据来源对其性能的影响,这对数据采集决策具有直接意义。其次,通过在该框架内明确比较年度与季节性SAR时间聚合策略,该研究记录并物理解释了基于点的统计准确性与地图空间一致性之间的反直觉差异,这是之前在多云安第斯山区多传感器LULC制图中未曾报道的发现。第三,该研究提出了一个明确的操作建议:将年度SAR合成图像作为时间低通滤波器,用以抑制介电瞬变,同时保留结构性的土地覆盖特征。这一建议在现有的高纬度数据稀缺环境的Sentinel-1/2融合指南中尚未出现,并且可以直接在Google Earth Engine中使用免费的Copernicus数据实现。
在此背景下,本研究在阿森河流域实施了一个系统的消融实验设计,以量化光学、地形和雷达领域对LULC分类的相对和互补贡献。提出了三个工作假设,将传感器物理属性与景观结构联系起来:
- **物候假设(H1)**:基于分布的百分位数指标预计能比中心趋势测量更有效地捕捉物候信号的幅度,从而区分具有不同年内动态的相似光谱特征的土地覆盖(例如落叶植被与常绿植被)。如果A + P配置相对于光学基线模型(A)在Macro-F1上有所改进,并且在光谱动态植被类别中也有持续的类别级改进,那么这一假设得到支持。
- **结构假设(H2)**:假设Sentinel-1的SAR后向散射提供的信息与光学反射率正交,有助于基于表面粗糙度和体积结构来区分土地覆盖类型,特别是对于结构不同的类别(例如城市区域与裸露土壤)。如果A + R配置相对于光学基线模型(A)在Macro-F1上有所改进,特别是在结构复杂的类别中,这种假设得到支持,这反映在类别级别的性能提升上。
- **地形-生态假设(H3)**:预计地形变量可以作为海拔梯度的环境代理,限制类别发生的空间概率,并减少安第斯过渡区的主题混淆(例如植被、雪和湿地的分布)。如果A + T配置相对于光学基线模型(A)在Macro-F1上有所改进,特别是在受地形梯度限制的类别中,这种假设得到支持,这反映在类别级别的性能提升上。
基于这些背景,本研究追求三个具体目标:(1) 通过受控的消融设计量化光学、SAR、地形和物候数据对多云安第斯山区LULC分类准确性的边际和协同贡献;(2) 评估在不同SAR时间聚合策略下统计准确性与地图空间一致性之间的权衡;(3) 为数据稀缺、高云环境中的多传感器数据集成制定明确、可复制的操作指南。
通过填补现有Sentinel-1/2融合研究在亚极地安第斯流域中尚未解决的传感器选择指南的空白,本研究为土地管理机构及地理空间从业者提供了一个可复制的、开源的框架,可以直接应用于南半球的类似环境。以下部分详细描述了研究区域、数据和实验设计。
**2. 材料与方法**
**2.1 研究区域**
阿森河流域位于智利巴塔哥尼亚南部的阿森德尔卡洛斯伊巴涅斯德尔坎波地区,大约位于南纬45°00′–46°16′和西经71°20′–73°00′之间(图1)。根据General Water Directorate(DGA)的国家水文盆地清单的官方划分,该流域总面积为1,142,537公顷。
**图1. 智利南部研究区域的位置。**
(A) 人口普查区域内显示红色标记的阿森地区的太平洋沿岸。
(B) 阿森区域内研究流域的行政和地理背景。
(C) 研究流域的地形概览,包括海拔、主要亚南极河流网络和城市区域。
CRS:面板(A, B):WGS 84 (EPSG:4326);面板(C):WGS 84/UTM zone 18S (EPSG:32718)。
该地区地形崎岖,从阿森峡湾的海平面延伸到安第斯山脉的顶峰。流域的地形从东部的山谷逐渐上升到西部的安第斯山脉,那里是最高海拔和最陡峭的斜坡。该地区的海拔达到2227米,平均坡度为32%[20]。
气候上,该流域表现出明显的西-东梯度。西部地区的年降水量超过3000–4000毫米,伴随持续的云层覆盖,促进了温带常绿森林和伦加(Nothofagus pumilio)林的分发[20,21]。向东,降水量降至621毫米/年,巴尔马塞达地区以寒冷干燥的气候为主,以巴塔哥尼亚草原为主[8]。这种环境对比驱动了从沿海雨林到内陆半干旱环境的重要生物地理转变。此外,艾森河流域当前的景观配置是大规模人为干扰的直接结果。历史上,在农业和畜牧业殖民时期(19世纪末至20世纪中叶),该流域经历了大规模且系统的原生森林燃烧,以清理土地用于放牧[22]。据估计,近60%的原始森林被破坏,导致严重的景观破碎化和连通性丧失[8,20]。西部地区受到的影响最为严重;在这里,植被覆盖的丧失促进了土壤侵蚀,并促使人们采用外来物种(主要是松树属植物)进行重新造林。这些人工林改变了景观结构,并成为该地区重要的生产组成部分[20]。这种退化的遗产形成了广阔的过渡带或人为生态过渡带,由密集的次生灌木丛(南极南洋杉)、退化的草地以及直立的枯木组成。由于这些自然因素和人为因素的相互作用,艾森河流域目前呈现出高度异质的环境马赛克。温带雨林、泥炭地、灌木丛、农业草地、岩石区、雪地以及冰川与生产区和分散的定居点共同存在。这种地形、气候和历史的多样性反映了20世纪的环境与社会生态变化,使该流域成为智利巴塔哥尼亚地区的代表性景观,其中保护、生产利用和生态再生过程相互交织[8,22]。
2.2. 数据获取
本研究使用的卫星和地形数据来自Sentinel-2、Sentinel-1和SRTM的公共产品,通过Google Earth Engine平台进行访问和处理[12]。为了确保具有不同原始地面采样距离(GSD)的数据集之间的兼容性,所有数据集都被统一到10米的工作空间分辨率,这与Sentinel-2光学数据的原始网格相对应。在Google Earth Engine中,分析的空间分辨率由输出比例决定;因此,通过在采样和导出操作中指定10米的输出比例,所有变量都在统一的空间框架内进行处理。具有较粗原始分辨率的数据集(例如,Sentinel-2的SWIR波段为20米,SRTM衍生的变量为30米)在处理过程中通过隐式重投影进行整合。除非另有说明,否则Earth Engine在重投影时应用最近邻重采样,以确保变量之间的一致性同时保持空间边界。所有输入变量的详细信息,包括其主题块、数据源、描述、原始空间分辨率和最终工作分辨率,都在附录A中提供。
2.2.1. Sentinel-2(光学)
我们使用了欧洲航天局(ESA)哥白尼计划下的Sentinel-2A和Sentinel-2B卫星上的多光谱仪器(MSI)获取的图像。所使用的产品对应于二级A级(表面反射率),这是通过Sen2Cor大气校正从一级C级数据获得的[23]。这种处理级别提供的表面反射率适用于土地利用和土地覆盖分析[18]。每张图像包含13个光谱波段,空间分辨率为10米、20米和60米。在本研究中,我们使用了10米波段(B2–B4、B8)和20米SWIR波段(B11、B12),后者被重新采样为10米以保持空间一致性。SWIR波段特别适用于区分雪和云,因为雪在短波红外区域有强烈的吸收,而云在这一光谱范围内具有高反射率[24],这在巴塔哥尼亚典型的高云覆盖情况下是一个关键因素。
2.2.2. Sentinel 1(SAR)
C波段(5.405 GHz)合成孔径雷达数据来自Sentinel-1A/B星座,该星座作为一个主动双极化传感器,提供VV(垂直发射/垂直接收)和VH(垂直发射/水平接收)极化的观测[25]。Sentinel-1允许每六天系统地获取图像,不受天气条件或时间的影响。SAR数据用于补充光学信息,因为它们对物理表面属性(如结构、粗糙度和含水量)敏感,这在山区和环境复杂的景观中尤为重要[25,26]。通过COPERNICUS/S1_GRD集合在Google Earth Engine(GEE)中获取地面范围检测(GRD)产品。摄取前的预处理遵循标准的Sentinel-1仪器处理设施(IPF)流程,包括热噪声去除、放射度校准到标准化后向散射系数(σ0)、使用SRTM 30米DEM的地形校正以及地理编码[27]。没有应用轨道方向 filter;因此,将上升和下降采集的图像都包括在年度堆栈中,以在地形复杂的 study 区域最大化空间覆盖,因为侧视雷达几何可能导致阴影和缩短效应[28]。VV和VH后向散射波段以原始分贝(dB)尺度进行了年度像素级中值合成。为了计算衍生的极化指数(DOP、RVI、CR、PRVI、NPRVI),后向散射值从dB转换为线性功率尺度,因为线性单位对于基于比率的物理一致性公式是必需的。没有对VV和VH波段应用额外的空间斑点滤波器,因为年度图像堆栈的时间聚合通过时间多视角有效减少了斑点[27,29]。仅对衍生的指数应用了3 × 3像素平均滤波器,以减轻残余的像素级噪声。由于陡峭地形,叠影和阴影效应没有明确遮盖,因此被认为是限制因素;通过包含局部入射角和使用多时相合成部分缓解了它们的影响。局部入射角作为额外的预测因子被包括进来,以考虑山区SAR采集特有的地形-传感器交互效应[28]。
2.2.3. 数字高程模型
使用来自航天飞机雷达地形任务(SRTM)的数字高程模型(DEM)作为地形信息来源,其空间分辨率为30米。该模型基于C波段雷达干涉数据生成,据报道其垂直精度为±16米[30]。尽管SRTM在崎岖地形区域可能由于雷达阴影或雪盖和冰川表面的去相关而表现出更高的不确定性,但版本3(在本研究中使用)结合了基于辅助数据的空洞填充过程,提供了近乎全局的无间隙覆盖[30,31]。在GEE管道中,直接加载了SRTM v3产品(USGS/SRTMGL1_003[32]),无需额外预处理:没有对高程层应用空间平滑滤波器,也没有进行额外的空洞填充,因为研究区域内的残余空洞已在v3产品中得到解决[25],也没有应用水文条件处理。地形变量是从原始SRTM v3表面使用ee.Algorithms.Terrain()函数派生的,该函数在3×3像素邻域上实现Horn有限差分算法[33]。坡度以度数表示,方位角被分解为北向(方位角的余弦值)和东向(方位角的正弦值),以便在0°/360°边界处无圆形不连续性地将其作为连续预测因子纳入。随后将DEM从其原始的30米分辨率重新采样为10米分类网格,如2.4.3节所述。
2.2.4. 辅助数据
(a) PlanetScope高分辨率影像
非常高分辨率的卫星影像可以作为土地覆盖研究的视觉解释的宝贵支持[34]。在本研究中,使用了PlanetScope影像,该影像对应于由Dove卫星星座(Planet Labs)获取的SuperDove(PSB.SD)多光谱产品,作为高分辨率空间参考(3米空间分辨率),以支持ArcGIS Pro 3.2(Esri,加利福尼亚州雷德兰兹)中的视觉解释和均匀多边形的绘制。这些数据对应于Level 3B PlanetScope正射场景表面反射率产品,包括八个光谱波段(海岸蓝、蓝、绿I、绿、黄、红、红边和近红外)[35]。PlanetScope提供几乎每天一次的重新访问能力,选择了2021年的影像,基于视觉质量和研究区域的无云条件。其作用是支持土地覆盖类别的识别和验证,确保参考标签的一致性,特别是在Sentinel-2空间细节有限的区域。这些数据仅作为视觉辅助用于参考样本的生成和验证支持,并未包含在分类器中。视觉解释由具有遥感和土地覆盖分析专长的受过培训的人员进行,遵循与生物物理类别定义一致的标准,以确保一致性和最小化主观性。
(b) CONAF土地使用登记册
CONAF的“植被资源和土地使用登记册”是官方导航图,比例尺为1:50,000,通过多时相卫星图像分析、GIS辅助的光谱解释和现场验证生成。在本研究中,使用2020–2022年的更新作为辅助信息,以支持主题验证和一致的土地利用和土地覆盖(LULC)类别的空间一致性,特别是在森林生态系统和人为过渡区域[36]。然而,由于其基于向量和多时相的特性,该数据集不提供具有直接像素级空间和时间对应关系的实际观测结果。
(c) 哥白尼土地覆盖产品
来自ESA World Cover 10米(v200;[11])的土地覆盖产品提供了基于多时相光学卫星影像分析的全球一级分类。在本研究中,该产品用作辅助信息,以建立一级主题参考框架。它包括主要的土地覆盖类别,如树木覆盖、灌木丛、草地、建筑区、裸露或稀疏植被、雪和冰、水体和湿地。WorldCover用于支持训练多边形的绘制,并帮助识别选定类别的均匀区域,特别是那些在两种分类方案之间有直接对应的类别(例如,雪、水、城市和湿地),有助于标签期间的主题一致性。最终的11类LULC方案是通过手动绘制和专家解释定义的,整合了多种信息源,因此并不代表WorldCover分类的直接细化。两种方案之间的对应关系在附录B的表A2中呈现。
2.3. 预处理和合成生成
2.3.1. 时间过滤和遮盖
检索了2021年与研究流域重叠的所有Sentinel-2 SR场景。云过滤采用了两阶段程序。在第一阶段,应用了70%的云覆盖阈值(CLOUDY_PIXEL_PERCENTAGE ≤ 70),以确保有足够的时间样本进行季节性合成。在该地区,云覆盖经常超过80%,更严格的阈值(例如20–30%)会大大减少可用场景的数量,特别是在流域的西部地区,导致采样不足。在第二阶段,使用Cloud Score+(CS+)算法在像素级别遮盖云、卷云和阴影。该算法由Google Earth Engine团队开发,是对[37]方法的扩展,通过弱监督深度学习估计大气能见度,在最近的LULC分类应用中表现出稳健的性能[38]。只有CS+ ≥ 0.60的像素被保留用于合成构建。在这种两阶段方法中,最终合成质量主要在像素级别控制,而场景级别阈值确保了足够的时间覆盖。
2.3.2. 图像合成
遮盖后,构建了不同聚合级别的多时相镶嵌图,以表示平均表面状态及其时间动态。层次合成策略如下:
(a) 季节性合成
有效的Sentinel-2场景按南半球季度分组,分别对应夏季(DJF)、秋季(MAM)、冬季(JJA)和春季(SON)。计算每个时期的每像素中值反射率。使用中值可以减少异常值的影响,并避免与极端物候高峰相关的偏差,提供稳定且可比较的季节性表示[39,40]。每个合成根据时间可用性和云持续性,在每个像素之间整合5到15次观测结果。从反射率合成中计算关键光谱指数(NDVI、EVI2、NDWI、NDSI和NBR),生成一组多波段的季节性合成图。
(b) 百分位数合成
为了表征季节内的变异性,计算了光谱指数NDVI、EVI2、NDWI、NDSI和NBR的25百分位数(P25)和75百分位数(P75),这些指数被选为基于百分位数的特征提取子集。这种方法已被证明可以改善异质环境中的动态类别的可区分性[41]。这些指标的鉴别价值在2.4.2节中有描述。
(c) 年度合成和空洞填充
使用年度所有有效后遮盖观测的中值生成了2021年的年度合成图。该产品专门用于填充由于持续云覆盖或阴影导致的季节性镶嵌图中的数据空白。这种优先考虑季节性级别而非年度级别的层次合成方案确保了空间连续性,同时不牺牲主导的物候信号。该策略与[42]中描述的“最佳可用像素”算法一致,并且在方法论上与全球产品(如ESA World Cover [11])保持一致。(d) 年度合成孔径雷达(SAR)合成图像由于合成孔径雷达(SAR)不受云层覆盖的影响,因此不需要采用填充空缺的策略,这与光学情况不同。在本研究中,通过年度合成图像整合了Sentinel-1数据,该合成图像是根据VV和VH后向散射系数以及衍生的SAR指数的时间中值计算得出的。2.4 预测变量提取基于生成的合成图像,构建了一个空间分辨率为10米的多时相数据立方体。该分辨率对应于数据协调期间定义的标准工作网格(第2.2节)。为了评估不同信息来源的互补性,将变量组织成四个主题块(A、P、T、R);它们的详细数学公式在表1中给出。为了确保预测变量与其时间起源之间的可追溯性,本文中使用了一种系统的双组分符号体系对所有变量进行标记:变量名称或波段标识符(前缀)后跟一个三个字母的季节后缀(_djf = 南半球夏季;_mam = 秋季;_jja = 冬季;_son = 春季)。对于季节内的百分比变量,百分比级别被嵌入在指数名称和季节后缀之间(例如,ndsi_p75_jja = NDSI的冬季季度P75百分比)。2.4.1 块A—多光谱光学(基线)该块代表了表面的平均物候状态和光谱组成。它整合了Sentinel-2波段(B2、B3、B4、B8、B11、B12)以及为每个季节计算的一组光谱指数。选择这些指数的依据是它们对研究区域关键生物物理属性的敏感性,包括植被状况(NDVI、EVI2)、表面湿度(NDWI)、积雪覆盖(NDSI)和土壤或建筑特征(SAVI、BSI、NDBI),从而能够对多样化的安第斯景观进行特征描述。除了标准的植被(NDVI、EVI2)、水体(NDWI)和积雪(NDSI)指数外,还纳入了针对干旱和人工化区域的特定指数:SAVI用于减少稀疏草原中的土壤背景噪声,BSI用于表征裸露的土壤,NDBI用于建筑区域。尽管某些指数可能存在相关性,但保留它们是为了捕捉在不同环境条件下的互补响应。此外,随机森林分类器对多重共线性具有鲁棒性,从而最小化了相关预测变量对模型性能的影响[43](总计:56层)。2.4.2 块P—百分比(时间动态)该块旨在捕捉中位数倾向于平滑的季内变化[6],它包括为五个光谱指数(NDVI、EVI2、NDWI、NDSI和NBR)计算的25th(P25)和75th(P75)百分位数,这些指数是在四个南半球季节(DJF、MAM、JJA、SON)中计算的。选择这些指数是因为它们对植被物候(NDVI、EVI2)、地表水动态(NDWI)、积雪持续性(NDSI)和植被扰动(NBR)敏感,这些指标代表了研究区域中最具时间动态性的信号。(总计:5个指数×2个百分比×4个季节=40层)。2.4.3 块T—地形(地貌背景)从高程模型(SRTM,重采样)中提取了四个静态变量:高程、坡度以及朝向组件(北向和东向)。这些变量作为安第斯环境中影响植被分布的热量和日照梯度的代理指标。需要注意的是,SRTM衍生的变量原始空间分辨率为30米;因此,将它们整合到10米的工作网格中并不会增加其固有的空间细节。因此,这些变量被解释为代表广泛的地貌梯度,而不是细尺度的地形特征。(总计:4层)。2.4.4 块R—极化雷达(结构和粗糙度)该块基于年度Sentinel-1合成图像,提供了与太阳光照无关的目标几何信息。它包括后向散射强度(VV、VH)、局部入射角以及一组对树冠结构敏感的先进极化指数:交叉极化比(CR)、极化度(DOP)、双极化雷达植被指数(RVI)和标准化极化RVI(NPRVI)。这些变量允许在任何大气条件下表征生物量和结构复杂性。(总计:8层)。表1. 预测变量的数学定义和参考文献。2.5 实验设计:模块化贡献评估为了量化不同信息来源的具体贡献,我们实施了一种模块化贡献评估实验设计。目标是衡量每个主题块(第2.4节中描述的模块P、T、R)在集成到主干配置时所提供的性能提升。实验通过定义一个仅包含标准物候信息的基线(模型A)来构建。然后以受控方式向此基础添加额外的信息模块。这种方法能够隔离时间动态、地形和雷达的区分能力,而简单的堆叠策略则可能导致每个来源的个体贡献被稀释或掩盖。五种实验配置在表2中总结。表2. 模块化贡献评估的实验配置。参考:光学基线(A)。边际贡献:增强模型(A + P、A + T、A + R)用于评估每个模块的具体互补性。总协同作用:完全集成(Full)用于评估最大多传感器场景。为了确保统计可比性,在所有运行中保持了分类算法(随机森林)、其超参数(ntree = 200,mtry = √p)以及训练(70%)和验证(30%)的空间分割不变。因此,准确度指标(OA、F1分数)的变化完全可归因于所评估传感器模块提供的信息。2.6 采样和类别定义参考数据是通过一个三步工作流程生成的,旨在保持标记过程与用于分类的卫星预测变量之间的主题独立性。第一步,通过系统地视觉解释PlanetScope图像(3米分辨率)来划分同质参考多边形,这是主要的参考来源;CONAF植被资源和土地利用名录(2020-2022年更新)和ESA WorldCover仅作为空间上下文指南,用于识别主要土地覆盖单元的大致边界和一级主题方向,而不直接确定多边形标签。第二步,每个多边形的主题标签由解释分析师根据PlanetScope的视觉证据单独分配,遵循表3中的生物物理类别定义,确保参考标签源自与分类器预测变量(Sentinel-2、Sentinel-1、SRTM)物理和操作上独立的传感器。第三步,对标记的多边形应用分层随机采样,每个类别选择1500个点,总共16,500个样本,在70/30的多边形级保留分割下,防止任何多边形同时向训练和验证子集贡献点。表3. 土地利用和土地覆盖类别的定义。为了减少潜在的空间依赖性,实施了多边形级保留分割策略。在提取点之前,每个划分的同质多边形被随机分配到两个互斥的子集中:70%用于模型训练,30%用于外部验证。在这种设计下,来自给定多边形的所有样本点都属于一个分区,防止训练和验证数据之间的直接像素级泄漏。然而,这种方法并不能完全消除相邻多边形之间的空间自相关性,这是地理结构化数据集的固有特征。最终的分类方案包括11个土地利用和土地覆盖(LULC)类别;它们的生物物理定义在表3中详细说明。2.7 分类器配置使用随机森林(RF)算法[43]进行了监督分类,这是一种基于多个决策树聚合的集成学习方法。选择RF是因为它能够模拟非线性关系,并且对高维特征空间中的噪声具有鲁棒性[58]。系统评价表明,RF的性能始终优于传统的参数化分类器(例如,最大似然),并且其准确性与更复杂的机器学习方法(如支持向量机(SVMs)相当或更高。这些优势伴随着参数调整要求的降低和计算成本的降低[17,18]。模型实现依赖于以下超参数设置来稳定泛化误差:树的数量(ntree):每个模型配置共生长了200棵决策树。这个值是基于预期的袋外(OOB)误差收敛行为选择的,并且之前的研究表明,随机森林在遥感应用中的性能对树的数量增加相对不敏感,超出中等集成规模[12,59]。在这种条件下,选定的值提供了保守且计算效率高的配置。虽然可以在未来的实现中探索更彻底的超参数敏感性分析,但选定的配置确保了在所有消融阶段算法的稳定性。每个分割的变量数量(mtry):在每个节点分割时评估的预测变量数量设置为预测变量总数的平方根。分割标准:使用Gini不纯度标准来优化节点分割,这与GEE实现中默认且唯一可用的分割函数ee.Classifier.smileRandomForest()一致。节点t处的Gini不纯度定义为G(t) = 1 ? Σ? p?2,其中p?是该节点处类别k样本的比例。在这种配置下,训练了五个独立模型,对应于第2.5节中定义的实验块(A、A + P、A + T、A + R、A + P + T + R),使用固定的随机种子以确保实验的完全可重复性。这个超参数配置在所有模型中保持不变,以确保直接的可比性,并隔离消融框架中每个特征模块的相对贡献。2.8 准确性评估和性能指标使用独立的验证数据集(30%)评估模型可靠性。对于每个实验配置,计算了混淆矩阵,并根据标准验证协议[34]得出了准确度指标。计算了以下指标:总体准确率(OA):正确分类样本的比例相对于验证样本的总数。Kappa系数(κ):一个经过机会校正的一致性度量,用于历史比较,并考虑到最近关于其适合性用于主题地图评估的争议[60]。生产者准确率(PA)和用户准确率(UA):分别用于量化遗漏误差和错误分类的类别特定指标。此外,鉴于研究区域固有的类别不平衡,还计算了最近推荐的稳健指标以减少评估偏差[61]。4. 平衡准确率(BA):类别别敏感度(召回率)的算术平均值,这是一个关键指标,以确保主导类别不会掩盖与少数类别相关的错误。5. 宏观F1分数:精确率和召回率的调和平均值,对所有11个类别给予同等权重。由于OA在类别面积不平衡时偏向于空间主导类别且在少数类别上不敏感,Macro-F1被作为消融比较的主要评估指标。最后,通过量化多传感器模型(A + P、A + T、A + R和Full)与光学基线模型(A)之间这些指标的绝对差异进行了比较分析。为了估计报告的准确度指标的不确定性,使用非参数自助重采样程序(B = 1000次迭代)通过百分位数方法得出了95%置信区间,而配置之间性能差异的统计显著性是基于这些区间不重叠来评估的,这一标准大致对应于p < 0.01[62]。第2.2节、第2.3节、第2.4节、第2.5节、第2.6节、第2.7节和第2.8节中描述的方法论组件的整合在图2中进行了说明,构建了从数据获取到模型验证的完整工作流程。图2. 使用随机森林和块级变量评估(光学A、百分位数P、地形T和雷达R)在Aysén河流域进行LULC分类的工作流程。10米的空间分辨率网格代表了所有传感器输入中最细的共性分辨率:Sentinel-1 GRD IW和主要Sentinel-2波段(B2、B3、B4、B8)原本就是10米;较粗糙的层(Sentinel-2 SWIR波段为20米;SRTM DEM为30米)在GEE中被重采样到这个参考网格。3. 结果 3.1 随着额外的变量块被整合到季节性光学基线模型(A)中,整体LULC分类性能逐步提高。表4总结了每种实验配置获得的全球准确度指标。表4。全球性能指标(整体准确率、Kappa系数、平衡准确率和Macro-F1)的总结,这些指标是针对五种评估的分类模型配置(A、A + P、A + T、A + R和Full)获得的。仅基于季节性光谱信息的光学基线模型(A)实现了89.2%的整体准确率(OA)、0.871的Kappa系数、86.1%的平衡准确率(BA)和80.5的Macro-F1。尽管这些数值表明了整体上的出色表现,但基线模型中OA(89.2%)和Macro-F1(80.5%)之间8.7个百分点的差距是由于类别面积不平衡造成的:像水、雪和天然森林这样的主导类别在光谱上被很好地区分开来,从而提高了OA,但掩盖了自然草地/灌木丛(F1 = 48.4%)和裸土/冲积海滩(F1 = 53.4%)等少数类别的较低性能。这种结构偏差使得Macro-F1成为评估消融配置时更具信息量的主要指标,因为它能够捕捉到在少数类别中每个额外数据块所提供的最显著的区分效益,而这些效益在OA中会被系统性地低估。随后引入多时相百分位数(A + P)相对于基线模型有轻微但一致的改进,OA提高了0.4%,Macro-F1提高了1.2%。这一结果表明年内的信息有助于稳定不同土地覆盖类型的光谱响应,尽管其对整体性能的单独影响仍然有限。相比之下,添加地形变量(A + T)产生了更明显的改进,特别是在对类别级性能敏感的指标上,如BA(+1.3%)和Macro-F1(+3.8%)。然而,最大的单一贡献来自于雷达信息的整合(A + R)。与基线模型相比,A + R使OA提高了2.5%,κ系数提高了0.028,Macro-F1提高了3.8%,这突显了SAR数据在区分光谱相似且结构复杂的土地覆盖类型方面的关键作用。最后,Full模型(A + P + T + R)整合了所有数据源,在所有评估指标中实现了最佳的整体性能,OA为92.5%,BA为89.0%,Macro-F1为86.0%。与光学基线相比,Macro-F1累计提高了5.5个百分点,这表明多传感器集成既非常有效又具有协同作用。地形和雷达的贡献不是重复的,而是互补的,可以纠正不同代表性不足类别的误分类问题。
为了可视化每个变量领域的边际影响,图3展示了相对于基线模型的相对改进。图3显示了不同实验配置相对于光学基线模型(A)的性能提升。条形图代表了整体准确率(OA)、平衡准确率(BA)和Macro-F1分数的改进。综合来看,图3强调了观察到的性能提升是渐进和累积的,突出了地形信息尤其是雷达数据的主要贡献,以及Full模型所实现的累积效应。这些结果为下一小节中详细进行的类别分析奠定了定量基础。
类别分析显示,不同变量块的影响在各个土地覆盖类别中差异显著,如图4所示。图4展示了按土地覆盖类别和评估模型(A、A + P、A + T、A + R和Full)划分的准确性指标(生产者准确率—PA、用户准确率—UA和F1分数)的热图。在几个土地覆盖类别中观察到的持续分类挑战有明显的物理原因,这些原因源于光谱混合、结构相似性和物候重叠。自然草地/灌木丛是所有配置中最具挑战性的类别(模型A中的F1 = 48.4%;Full模型中的F1 = 70.4%),它受到三个同时存在的混淆来源的影响:(i)在近红外-红光反射率空间中与饲料草地的光谱重叠,因为这两个类别在生长季节表现出相似的冠层绿色信号;(ii)沿东西干旱梯度的结构相似性;(iii)类别内部的高异质性。这一过渡类别涵盖了从先锋灌木斑块到密集的南极诺索福加斯灌木丛的连续体,产生了广泛且内部重叠的光谱分布。裸土/冲积海滩(模型A中的F1 = 53.4%;Full模型中的F1 = 76.0%)主要与岩石地形混淆,因为它们具有共同的高反射率并且植被覆盖很少;其次与城市表面混淆,因为这些表面的矿物基质在短波红外波段产生类似的高反射率特征。饲料草地(Full模型中的F1约为81.0%)在南半球冬季(JJA)期间与自然草地出现物候混淆,因为管理的牧场进入休眠期,在光谱上与周围的自然草本植被无法区分。最后,湿地(Full模型中的F1约为83.0%)在永久淹没的区域与水体混淆,在季节性饱和的沼泽(湿地草甸和泥炭藓沼泽)中与自然草地混淆,这里的生态转换是渐进的而不是空间上离散的,从而在传感器使用的空间分辨率下产生了混合像素。具有明确光谱特征的类别,如水、雪/冰和森林覆盖,显示出较高的F1值(≥90%)。相比之下,那些具有更大光谱和结构异质性的类别表现明显较差,尤其是自然草地/灌木丛(F1 = 48.4%)和裸土/冲积海滩(F1 = 53.4%),其次是饲料草地(F1 = 72.9%)和湿地(F1 = 75.2%)。对于自然草地/灌木丛来说,高PA和非常低的UA的组合表明了该类别的误分类占主导地位。
引入多时相百分位数(A + P)带来了有限且特定于类别的改进,饲料草地的F1提高了6.6个百分点,城市类别的F1提高了2.9个百分点。对于其余类别,变化较小,没有显著改变光学基线模型中观察到的混淆模式。相比之下,地形块(A + T)为受地形条件影响的类别带来了更一致的改进,特别是裸土/冲积海滩(F1提高了15.6个百分点)、自然草地/灌木丛(F1提高了13.7个百分点)和岩石地形(F1提高了7.4个百分点),以及湿地的F1也有所改善(F1提高了6.3个百分点)。已经分类良好的类别相对稳定。同样,雷达信息的添加(A + R)有助于减少结构复杂类别之间的持续混淆。在这种配置下,自然草地/灌木丛的F1相对提升最大(约+16个百分点),而城市类别(约+6个百分点)和饲料草地(约+4个百分点)也显示出中等程度的改进。裸土/冲积海滩的提升较小(约+3个百分点),而湿地则显示出中等程度的增加(约+4个百分点)。相比之下,水和雪/冰几乎保持不变,这与使用光学信息已经实现的高分离度一致。最后,Full模型(A + P + T + R)巩固了观察到的改进,大多数类别的F1值都很高,并大幅减少了基线模型的性能差距。尽管如此,自然草地/灌木丛仍然是表现最差的类别(F1约为70%),其次是裸土/冲积海滩(F1约为76%)和饲料草地(F1约为81%)。
使用随机森林分类器进行的变量重要性分析允许识别每个模型配置中最具影响力的预测因子,并评估它们在整个增量方案中的层次结构变化。为了便于比较不同配置,图5展示了每种情况下相对重要性最高的15个变量,这些变量是使用平均基尼指数降低(MDG)估算的。图5显示了每种分类模型配置(A、A + P、A + T、A + R和Full)中最重要的15个变量,这些变量是使用随机森林分类器内的平均基尼指数降低估算的。变量名称遵循一致的命名法:前缀表示光谱带、指数或传感器衍生的指标,后缀表示复合季节(djf:夏季;mam:秋季;jja:冬季;son:春季)或百分位数统计(p25, p75)。地形和SAR衍生的变量在表1中有描述。在季节性光学基线模型(A)中,重要性层次结构主要由短波红外(SWIR)带主导,特别是B11_son和B12_jja。这些变量伴随着与雪、水分以及植被覆盖与非植被表面对比相关的光谱指数(NDSI、NBR、NDWI、NDBI和BSI)。这一模式表明,分类主要依赖于与表面水分条件、季节性雪的存在以及土地覆盖状态区分相关的光谱对比。引入多时相百分位数(A + P)保持了SWIR带的重要地位,但引入了年内的极端统计指标。特别是,与雪和表面/植被覆盖状态相关的指数的高百分位数(如NDSI_p75和NBR_p75)变得更加重要。这表明某些事件在整个年份中的持续或最大强度提供了关键信息,补充了季节性中位数所包含的数据。在包含地形的模型(A + T)中,重要性层次结构发生了显著变化,高程和坡度占据了最高排名位置,并显著优于单个光谱预测因子。尽管季节性光学变量仍在列表中,但它们的相对权重下降了。这一模式证实了地形和海拔梯度在研究区域内土地覆盖空间分布中的基础性作用。
雷达集成模型(A + R)的分析显示,重要性层次结构由采集几何变量(角度)主导,其次是VV和VH后向散射强度,以及对结构和散射敏感的衍生SAR指数,如PRVI和NPRVI。这些变量的重要性超过了光学带,后者保持在中间排名位置。这一模式表明,在这种配置中,SAR的主要贡献在于捕捉地形的几何和结构信息。最后,在Full模型(A + P + T + R)中,最具影响力的变量集由物理景观描述符主导,高程和坡度是权重最高的预测因子之一,采集几何变量(角度)也在其中。在这种情况下,SAR变量在前10个中占有突出地位,包括PRVI、NPRVI、VV、VH和CRV。光学变量从第七位开始排名(例如,B12_djf和B11_son)。总的来说,这一模式突显了地形梯度、观测几何和SAR描述符在实现最高全球性能方面的综合贡献。有关更多详细信息,附录D提供了每种模型配置的 Top 20 个变量的完整列表。
最佳性能配置(Full模型,A + P + T + R)生成的整个研究区域的土地利用和土地覆盖的空间分布显示在图6中。在流域尺度上,地图充分再现了该地区的主要生态和土地利用梯度,从东部的草原和灌木丛,经过中间的农业-森林镶嵌体,到西部的常绿森林,以及主要城市中心的位置。图6显示了来自最佳性能配置(Full模型,A + P + T + R)的阿森河流域(Aysén River Basin)的土地利用和土地覆盖(LULC,2021年)的空间分布(CRS:WGS 84/UTM zone 18S (EPSG:32718))。(a)案例1:Lago Misterioso区域的湖泊-草原过渡(图7)。图7显示了2021年4月8日获得的参考图像(RGB合成图像)与A、A + P、A + T、A + R和Full(A + P + T + R)配置对应的分类地图之间的空间比较,Lago Misterioso区域以高度异质的湖泊-陆地镶嵌体(湿地、草原、天然森林和森林种植园)为特征(CRS:WGS 84/UTM zone 18S (EPSG:32718))。在参考图像(图7)中,天然森林和森林种植园之间的界面清晰可辨,这与天然森林在秋季物候阶段的红色色调以及常绿种植园更均匀的纹理和规则几何形状相关联。这一模式在分类图中得到了一致的再现。
在光学基线模型(A)和A + P配置中,城市类别存在持续的误分类错误,表现为用户准确率值较低(UA分别为72.0%和75.4%),以及在较高海拔地区对湿地类别的过度分配,两种配置中的UA均为73.4%。这些混淆在视觉上表现为在城市和湿地区域出现了错误的分类,而根据地面参考信息,这些区域并不应该出现这种覆盖类型。加入地形变量(A + T)后,高海拔地区的湿地数量明显减少,城市覆盖(UA)增加到81.6%,F1分数增加到81.5%,这与视觉上移除了斜坡和陡峭地形上的错误湿地相符。在这种配置下,草原和裸土等类别的空间稳定性也有所提高;然而,这种改进并没有降低城市类别的错误率,其UA仅下降到68.8%。加入雷达信息(A + R)后,城市覆盖的错误率明显降低,UA增加到77.6%,F1分数增加到86.8%,这与更准确地划分湖泊和陆地边界相符。对于湿地类别,改进较为温和(UA = 80.4%;F1 = 79.5%)。最后,完整模型(A + P + T + R)巩固了之前的改进效果,城市类别的UA达到88.9%,F1分数达到93.0%,湿地的UA达到83.8%,F1分数达到83.1%,而已经定义明确的类别(如水域、天然森林和人工林)则保持稳定(F1 ≥ 93%)。总体而言,这些结果反映了分析区域内湖泊和陆地边界的空间稳定性得到了增强。
(b)案例2:Puerto Aysén城市的城乡结合环境(图8)。图8显示了2021年4月8日获取的参考图像(RGB合成图像)与Puerto Aysén城乡结合环境中的A、A + P、A + T、A + R和完整模型(A + P + T + R)对应的分类地图之间的空间对比。该地区特征是紧凑的城市区域、活跃的冲积平原、河岸湿地以及与河滩相关的裸土表面。坐标参考系统:WGS 84/UTM zone 18S(EPSG:32718)。此案例探讨了在复杂的城乡结合环境中地图绘制的空间一致性,该环境包括紧凑的城市区域、活跃的冲积平原、河岸湿地以及与河滩相连的裸土表面。在A和A + P配置中,城市类别存在持续的错误,表现为错误地扩展到河岸区域和非建筑表面,这与较低的UA值(分别为72.0%和75.4%)相符。这些混淆主要集中在城乡结合界面以及与裸土/沙地和湿地之间的过渡区。加入地形信息(A + T)后,河流走廊及其相邻冲积表面的空间一致性得到了提高,但并未降低城市类别的错误率(UA = 68.8%),表明地形信息稳定了地貌背景,但没有直接区分城市覆盖类型。相比之下,A + R配置显著降低了城市类别的错误率,UA增加到77.6%,F1分数增加到86.8%,的城市轮廓划分更加精确。对于湿地类别,改进较为温和(UA = 80.4%;F1 = 79.5%),其空间分布逐渐稳定。完整模型(A + P + T + R)进一步巩固了这些改进效果,城市类别的准确率达到最高(UA = 88.9%,F1 = 93.0%),城乡结合界面的空间稳定性也得到了增强。
3.5. 对SAR变量时间聚合的敏感性作为补充分析,通过比较主要实验设计中使用的年度聚合方案与另一种季节性聚合方案,评估了集成模型(A + P + T + R)对SAR变量时间聚合的敏感性。从定量角度来看,季节性聚合方案在全局指标上相比年度聚合的完整模型获得了额外的提升(OA = 92.5%;Macro-F1 = 86.0%),分别提高了0.4和3.5个百分点。然而,空间一致性的定性检查显示了不同的结果:图9展示了Coyhaique城乡结合环境中,年度聚合的完整模型(图9B)与其季节性聚合变体(图9C)的对比。年度聚合保持了与参考图像一致的城市轮廓,而季节性聚合则导致城市类别错误地扩展到农村和城乡结合区域。对于牧草草地,季节性聚合也表现出类似但不那么明显的空间碎片化现象。
4. 讨论结果表明,多季节光学数据、多时相SAR观测和地形变量之间的协同作用显著提升了安第斯山脉复杂生态系统中的土地利用类型(LULC)分类精度。完整模型的表现(OA:92.5%;Macro-F1:86.0%)证实了多传感器集成不仅仅是简单的叠加,而是真正的互补,特别是在缓解类别不平衡方面效果显著(表4)。除了实现高统计精度外,这项研究的贡献还在于通过系统化的消融设计,实证量化了不同数据域所提供的边际效益,并评估了年度SAR中值合成图像作为云覆盖山区保持地图一致性的稳健替代方案。
4.1. 多传感器协同作用与模型性能光学、雷达和地形数据的集成对于在Aysén流域复杂地形中进行准确的土地利用类型映射至关重要。总体精度从光学基线模型的89.2%逐步提高到了完整模型的92.5%。这一性能提升与智利的国家尺度地图绘制工作形成对比,后者由于持续的云覆盖和复杂地形,精度随纬度增加而系统性下降[14]。这些结果不仅展示了超越以往报告的区域性能水平,还说明了多数据域集成如何解决单传感器方法难以处理的分类歧义。此外,Macro-F1指标增加了5.5个百分点,与先前在异质景观中进行的研究结果一致,这些研究表明融合光学和雷达信息能够系统性地提高复杂土地覆盖类型的区分能力[19,63]。这些结果共同表明,基于消融的设计为了解析复杂山区中光学、SAR和地形变量的单独和综合贡献提供了系统框架。关于光学数据,高纬度或湿润山区特有的持续云覆盖对保持季节性光谱完整性构成了重大挑战。为了确保空间连续性,我们采用了分层合成策略,使用年度中值作为像素级别的备选方案来填补数据空缺。虽然时间插值常用于重建物候[64],但在数据稀缺的环境中,由于其所需的可靠重建所需的时间一致观测数据有限,因此应用受到限制[65]。在这种情况下,插值可能会引入观测数据未直接支持的光照轨迹,特别是在存在较大时间间隔时,凸显了在云覆盖环境中重建时间一致信号的挑战[66]。通过优先考虑观测到的反射率值(即年度中值),这种方法保持了输入数据的物理一致性。这种方法与Google Earth Engine和大规模土地覆盖映射中广泛使用的合成方法一致,其中基于中值的合成图像常用于减少云相关噪声并确保异质景观的空间连续性[67,68]。这种方法的局限性在于年度合成图像用于填补数据空缺的频率没有明确量化。不过,由于所有实验配置都采用了相同的合成策略,模型之间的相对比较未受影响。总体而言,这些证据支持了在持续云覆盖条件下光学数据的一致性。
尽管光学数据(Sentinel-2)有效捕捉了物候变化,如基线模型中SWIR波段(B11, B12)以及与雪和植被相关的指数的主导地位,但这些信息不足以区分具有相似光谱响应但几何或结构不同的类别。此时,加入Sentinel-1 SAR后向散射(A + R配置)带来了最大的边际性能提升(OA增加了2.5%)。这种改进归因于雷达数据能够引入对表面粗糙度和三维树冠结构敏感的描述符,从而有助于区分结构复杂的类别,如城市区域、裸土和灌木丛[19]。这些不同数据域的稳健贡献还得到了变量重要性排序(图5)的支持。多个光谱指数的引入引入了一定程度的冗余,因为一些预测因子来自相似的光谱波段,捕获了相关的表面特性。然而,随机森林算法通过在每个节点随机选择特征来减轻多重共线性[43,69],从而减少了集合中相关预测因子的主导地位。在本研究中,重要性值反映了在控制性消融框架内特征组的相对贡献,而不是严格独立的物理驱动因素。非共线特征(如海拔、坡度和SAR衍生的指标)的一致突出表明了它们的重要贡献,即使在高维光学数据中也是如此。
4.2. 地形和SAR在结构区分中的作用我们的研究发现地形是景观的关键结构因素。海拔和坡度在变量重要性排序(图5)中的主导地位与Aysén河流域的环境梯度一致,其中海拔决定了湿地的分布和树线上限。然而,必须承认模型的地形影响受限于SRTM产品的30米原始分辨率。尽管这些数据被重新采样到10米以进行多传感器集成,但这并没有提升潜在的地形细节。因此,本研究中的地形变量代表了广泛的环境梯度,而不是细尺度的地形特征,在解释极端地形破碎区域的结果时需要考虑这一点。在这种情况下,加入地形变量(A + T)有效地纠正了陡峭坡地上湿地的错误分类(图7),这是仅依赖光学信息时常见的问题,因为地形阴影或高土壤湿度的表面可能会模拟湿地光谱特征[70]。然而,结果还表明,尽管地形是自然土地覆盖的稳健预测因子,但在巴塔哥尼亚复杂环境中,它不足以区分城市类型。在A + T配置下,地形变量引入了系统性的偏差,将城市类别的用户准确率(UA)从72.0%降低到68.8%(图4)。这一限制与智利国家尺度地图绘制工作的发现一致,即在地理复杂性高的地区,即使整合了数字高程模型和多时相光学数据,也难以区分土地覆盖类型[14]。这种行为可以通过地理协方差来解释,即低坡度可以作为定居点的位置预测因子。在Aysén河流域,像Puerto Aysén和Coyhaique这样的城市中心位于河流阶地和冲积平原上,与牧草草地和河滩共享这一地貌特征。在随机森林分类器中,预测变量根据它们在节点分裂过程中减少类别杂质的能力来贡献分类性能,通常通过Gini增益来量化[43]。当不同的土地覆盖类型占据特征空间的重叠区域时,例如高度和坡度范围相似的城市区域和牧草草地,基于地形变量的分割产生的子节点具有相似的类别组成,从而减少了杂质减少的效果。因此,这些变量在均匀地貌域内的区分能力有限。相比之下,地形变量在海拔梯度显著的区域(如雪地、森林和草原)中仍具有高度的信息量。这种行为与变量重要性排序(图5)一致,在分层条件下,海拔和坡度占主导地位,但在引入结构信息变量(如SAR指标)以解决低海拔区域的分类歧义时,它们的相对重要性会降低。在这个框架内,SAR(合成孔径雷达)和地形变量能够解决不同的分类错误来源:SAR提高了对结构相似类别的区分能力,而地形信息则解决了由于地形引起的光谱歧义。通过结合Sentinel-1 SAR信号(A + R),可以消除这种偏见。雷达对表面粗糙度和二次散射机制的敏感度使得能够有效区分人造基础设施和自然基底,这在之前的SAR-光学融合城市制图研究中已有文献记载[59,71]。此外,Full模型中局部入射角变量的重要性反映了其作为地形补偿预测因子的作用:通过将传感器观测几何结构和局部坡度的综合效应呈现给分类器,该模型无需额外的归一化步骤即可间接考虑地形引起的辐射变化。由于年度中值合成图像汇总了上升和下降的观测数据,每个像素的角度值趋向于一个由地形决定的中心趋势,而非特定于某次观测的几何形状,从而减少了与系统轨道效应相关的潜在伪影[28]。
4.3. 空间一致性与统计指标之间的差异
对SAR时间聚合的敏感性分析揭示了统计性能指标与地图质量之间的关键差异。尽管Full模型的季节性SAR变体在数值上优于年度聚合(Macro-F1:89.5% vs 86.0%;OA:92.9% vs 92.5%),但视觉检查显示,这种性能提升掩盖了空间一致性的显著下降,表现为虚假的城市扩张和景观生态边界处类别碎片化的增加(图9)。这种悖论源于两个原因:一个是物理上的,即季节性合成图像汇总的观测数据不足以抑制西部巴塔哥尼亚水文循环中降雨和融雪事件引起的临时介电异常[72],导致在类别边界区域产生辐射混淆;另一个是方法论上的,基于点的验证协议仅从均匀的多边形内部采样,无法观察到生态边界处的几何碎片化现象。年度中值合成图像通过汇总每个像素约40-60次观测的数据,抑制了由水分变化引起的随机后向散射方差,同时保留了每个类别的结构特征[66],从而在基于点的统计指标的边际提升上优先考虑了地图的一致性。在表面粗糙度高或含有岩石成分的人造表面与自然基底之间的这种辐射歧义,在基于Sentinel-1的地图制图中是一个常见的挑战,尤其是在地形复杂且土地覆盖类型多样的环境中,这些环境可能导致相似的信号响应[28]。这些发现支持了一个方法论建议:在持续云覆盖条件下,使用时间聚合的SAR特征(尤其是年度合成图像)作为提高空间一致性的有效策略。这种效应可以通过C波段SAR后向散射对表面水分、介电性质、粗糙度和植被结构的短期变化的物理敏感性来解释[55,72]。在动态环境中,降雨或融雪后表面水分的暂时增加会改变自然表面的有效介电性质,从而改变后向散射响应,偶尔产生与结构复杂或人造环境相似的信号。
在这种情况下,使用季节性聚合数据增加了分类器捕捉与短期环境条件相关的临时辐射变化的可能性,而不是土地覆盖的永久性结构。关于SAR预处理的方法学研究表明,关于时间聚合和辐射稳定的决策直接影响衍生产品的稳健性和伪影的抑制[27]。相比之下,年度中值合成图像作为一个稳健的时间过滤器,可以平滑临时噪声,并在全局统计指标的边际提升上优先考虑永久性结构的地理一致性。
4.4. 自然草原地区的持续挑战
自然草原/灌木丛类别在分类方案中代表了主要的挑战,在Full模型中的性能最低(F1 = 70.4%)。在季节性光学基线模型中,这一类别出现了系统性的高估,这是因为它与饲料草地在光谱和物候上的高度相似,这限制了仅基于光学反射率的区分能力[69]。结合地形和雷达信息减少了误分类率,提高了用户准确性(UA = 67.3%)。然而,这种改进伴随着敏感性的降低,反映了具有高内部异质性的过渡性土地覆盖类的典型权衡。从生物物理学的角度来看,这可以通过光学域内的物候重叠[73]以及C波段SAR在解决细微结构差异方面的有限能力来解释。在像素尺度上,稀疏灌木丛的体积散射响应与密集管理的草地相似[70]。这表明,仅依靠像素级的光谱和结构信息可能不足以完全区分这些高度异质的过渡区域。在这种情况下,采用显式空间上下文的方法,如GEOBIA或深度学习架构,可能有助于捕捉基于像素特征无法表示的纹理和邻域模式。这些方法在解决具有相似物理特征的土地覆盖类别之间的持续混淆方面展现出潜力[70,74]。虽然这些局限性突显了类别特定区分的挑战,但考虑实验设计的影响也同样重要。使用平衡的采样方案(每个类别1500个样本)是一个方法论上的权衡,有助于确保模型训练期间所有土地覆盖类别的充分代表。在像Aysén盆地这样的异质景观中,少数但重要的类别(如城市区域或湿地)仅占小部分面积,按面积比例采样可能导致多数类别占据主导地位,从而降低模型学习代表性不足类别的区分性光谱-结构特征的能力[58,75,76]。从验证的角度来看,尽管多边形级别的分区策略防止了直接在像素级别上的数据泄露,但它并未完全消除相邻单元之间的固有空间自相关。然而,由于所有模型配置都在相同的采样和验证框架下进行了一致的学习和评估,因此量化的相对性能提升是稳健且可比的。这种集成设计支持这样的解释:观察到的协同效应主要与多传感器数据的信息内容相关,而不是与类别比例或空间伪影的差异有关,特别是在总体准确性(OA)可能不足以反映不平衡条件下的分类性能的情况下[77]。
5. 结论
实施的消融设计表明,在复杂的安第斯山区环境中,多传感器融合对于克服光学遥感的局限性非常有帮助。尽管这一发现基于单一盆地和单一年份的观测数据,但它与高纬度山区普遍存在的持续云覆盖和崎岖地形的物理限制一致。除了提高整体性能外,这种方法还允许分离和量化来自互补信息领域的贡献。尽管中心趋势基线在捕捉组成异质性方面不够充分(Macro-F1 = 80.5%),但加入物候指标(P)提高了植被区分能力,随后结合地形(T)和雷达(R)变量带来了关键的、非冗余的性能提升(各增加3.8分),这些变量起到了地貌过滤器和结构描述符的作用。集成模型(A + P + T + R)最大化了整体性能(OA = 92.5%;Macro-F1 = 86.0%),验证了关于物候动态(H1)、物理结构(H2)和地形景观背景(H3)之间必要互补性的假设。方法论上,本研究提醒不要为了优化统计指标而牺牲地图产品的空间合理性。研究表明,尽管季节性SAR数据聚合改善了数值指标,但它引入了噪声和几何伪影;相比之下,年度合成图像作为稳健的时间调节器,优先考虑了地图的一致性而非边际的统计指标提升。尽管如此,在草原/灌木丛等过渡性类别中仍然存在挑战(F1 ≈ 70%),这表明结合显式空间上下文(如GEOBIA或深度学习技术)可能有助于提高类别的可区分性,这些方法能够更好地捕捉异质景观中的空间模式。从潜在的操作实施角度来看,所开发的工作流程完全基于Copernicus计划的开放数据和基于云的GEE处理,构成了一个成本效益高且可扩展的框架,用于在广阔且难以到达的地区系统地生成土地利用类型(LULC)地图。其依赖于免费且全球一致的数据源,增强了可重复性。然而,要确认其在实际操作条件下的稳健性,需要多年验证,以评估在不同水文和物候条件下的分类准确性稳定性。这种方法在类似云覆盖的山区环境中具有强大的应用潜力,例如在流域管理和火灾监测以及气候变化适应规划中,它可以促进土地覆盖数据的频繁更新。然而,还需要在类似的环境或其他盆地中进行进一步评估,以确认其在不同条件下的性能。需要注意的是,这里的发现基于在Aysén河流域使用2021年影像进行的单一案例研究。虽然结果展示了强大的性能和在多种特征配置下的稳定行为,但提出的框架在智利巴塔哥尼亚其他地理和环境中的更广泛适用性仍需进一步评估。未来的研究应评估其在智利巴塔哥尼亚其他易受云影响的高纬度地区以及其他类似环境中的可重复性和分类性能。