一种高分辨率土壤有机碳测绘框架,整合了机器学习技术和经过高程校正的气候数据,应用于高山峡谷地区

《International Soil and Water Conservation Research》:A high-resolution soil organic carbon mapping framework integrated machine learning and elevation-corrected climate data in alpine canyon region

【字体: 时间:2026年05月04日 来源:International Soil and Water Conservation Research 7.3

编辑推荐:

  焦豆|张恩伟|魏胜照|刘晨莉|林红红|杨万涛|李琦|段兴武 中国云南省土壤侵蚀防治与绿色发展重点实验室,国际河流与生态安全研究所,云南大学,昆明650500 **摘要** 土壤有机碳(SOC)作为陆地生态系统中的主要活性碳库,在调节碳预算中起着关键作用。在高山峡谷地

  焦豆|张恩伟|魏胜照|刘晨莉|林红红|杨万涛|李琦|段兴武
中国云南省土壤侵蚀防治与绿色发展重点实验室,国际河流与生态安全研究所,云南大学,昆明650500

**摘要**
土壤有机碳(SOC)作为陆地生态系统中的主要活性碳库,在调节碳预算中起着关键作用。在高山峡谷地区,由于地形陡峭导致微气候异质性强烈,SOC的测绘仍然存在不确定性。现有的测绘框架往往忽略了这些细尺度的气候梯度,从而导致系统性偏差。在这里,我们开发了一个集成海拔校正气候数据的机器学习框架,分辨率为30米。与未进行海拔校正的基线模型相比,该框架提高了17.04%的R2值,并将RMSE降低了8.35%。所得到的SOC地图显示出了明显的空间异质性,北部冷温带地区的储碳量最大,而南部热带地区的储碳量最小。气候和地形协变量共同解释了76.24%的SOC空间变异性,其中温度和海拔是主要控制因素,SOC含量在0–5°C时最高,并且在3000米以上急剧增加。森林地,特别是温带针叶林,比耕地或果园储存了更多的SOC,天然森林中的SOC含量约为人工林的1.5倍。我们的研究结果表明,结合海拔校正的气候数据和机器学习方法,为山区SOC测绘提供了一种可扩展的解决方案,有助于改进高山峡谷地区的碳管理。

**1. 引言**
全球土壤有机碳(SOC)库估计约为1550 Pg,主要集中在土壤表层1米以内,大约是大气碳库(780 Pg)的两倍,也是生物碳库(560 Pg)的2.7倍(Lal, 2004b),使其成为陆地生态系统中的主要碳储存库(Piao et al., 2022)。SOC是碳-气候反馈的关键环节,每1 Pg的土壤碳变化大约会影响大气CO2浓度0.47 ppm(Lal, 2008)。表层土壤(0–20 cm)储存了全球SOC总量的41%(Guo & Gifford, 2002; Jobbágy & Jackson, 2000),其空间异质性直接调节着生态系统的碳平衡和气候调节功能。因此,高分辨率地表SOC分布的表征已成为量化碳封存潜力和支持《巴黎协定》中提出的温度控制目标的核心科学任务。
全球高山生态系统储存了约150–200 Pg的SOC,占全球土壤碳库的5–8%(K?rner & Kèorner, 1999)。高山地区的SOC动态对区域和全球碳循环都至关重要。目前的SOC测绘工作主要集中在相对平坦的地区,如中国东北的黑土区、长江中下游平原、尼泊尔的冲积平原以及中欧和西欧的农业带(Castaldi et al., 2019; He et al., 2021; Jiang et al., 2024; Lamichhane et al., 2021; Luo et al., 2024; Nocita et al., 2015)。尽管取得了显著进展,但现有方法在复杂地形的高山地区缺乏适用性。在高山生态系统中,陡峭的海拔梯度导致光照、温度和湿度的明显垂直分带(Wan et al., 2019; Zhao et al., 2019b)。这种垂直分层导致土壤物理化学性质和植被的显著变化(Abalori et al., 2022; Yang et al., 2020),有机质输入和微生物分解速率随海拔非线性变化(Fierer, 2017; Román-Sánchez et al., 2018; Sun et al., 2023)。传统方法适用于平坦地形,但严重依赖于水平空间均匀性的假设(Daly et al., 1994; Stahl et al., 2006)。这一假设忽视了地形梯度对微气候的深刻影响,无法捕捉由地形起伏引起的SOC空间分布模式(Chen et al., 2016; Qin et al., 2018; Zhu et al., 2017),从而严重阻碍了高山生态系统的高分辨率SOC测绘(Wu et al., 2021)。因此,严格估计SOC的空间分布仍然是一个紧迫的优先事项。为高山生态系统量身定制新的框架不仅有助于提高精度,还能通过多源数据融合弥补地形障碍造成的观测盲点,确保在这些脆弱生态系统中进行更准确的碳储量评估。

传统的SOC估算方法依赖于大量的土壤采样和后续的实验室分析。然而,在高山生态系统中,野外采样困难且难以到达,离散采样点无法充分捕捉土壤性质的显著空间变异性(Khaledian et al., 2017; Tajik et al., 2020)。因此,从点数据开发区域尺度的SOC地图具有挑战性。随着信息技术的进步,基于模拟的SOC测绘方法已被引入。例如,综合生态系统服务与权衡(InVEST)模型通过根据土地利用类型分配值来估算土壤碳密度并生成空间分布图(Zhao et al., 2019a),但它忽略了相同土地利用类型内的异质性(Fang et al., 2007)。Century模型通过模拟植物生长和土壤碳转化等生物过程来动态预测SOC(Parton et al., 1988),但它忽略了地形的影响,这在山区至关重要,并且需要在每个采样点进行独立参数校准,严重限制了其空间可扩展性(de Araújo Neto et al., 2021)。一些研究使用插值技术(如普通克里金法和逆距离加权法)来估算SOC空间分布(Li et al., 2023; Mondal et al., 2017; Sulieman & Algarni, 2019),但这些方法受到采样点密度和位置的严重限制,由于忽略了环境异质性,无法准确反映大型复杂景观的空间模式(Zhang et al., 2025)。相比之下,机器学习(ML)算法利用迭代优化自动捕捉多维数据集中的非线性模式和复杂特征交互,从而建立从预测变量到目标结果的高维映射,特别是在有大量数据集的情况下,这促进了它们在生态和环境建模中的广泛应用(Gon?alves et al., 2021; Liu et al., 2016; Shafizadeh-Moghadam et al., 2022)。然而,确定用于准确SOC测绘的特征变量和ML算法的最佳组合仍然是一个重大挑战。选择合适的方法需要仔细考虑区域特征、数据可用性和模型复杂性,以可靠地捕捉SOC的空间异质性。

在ML应用中整合多源环境协变量对于捕捉SOC的空间异质性至关重要。先前的研究强调了纳入多种预测因子的必要性,包括气候驱动因素、地形特征、土壤属性以及来自遥感平台的光谱指标(Ben-Dor et al., 2009; Castaldi et al., 2018; Gao et al., 2018; Lamichhane et al., 2019)。例如,He et al.(2021)证明,在随机森林(RF)模型中加入融合的Sentinel–2(S2)图像可以将决定系数(R2)提高92.8%。Liu et al.(2025)应用极端梯度提升(XGBoost)模型估算中国东北地区的SOC分布,确定土壤性质(容重(BD)、粉砂含量、pH值)和气候因素(温度和降水量)是空间变异性的主要驱动因素。值得注意的是,先前的研究强调了气候相关协变量在提高SOC测绘精度方面的显著作用(Gomes et al., 2019; Luo et al., 2023),解释了17.4–30%的SOC空间变异性(Liu et al., 2025; Yang et al., 2015a; Zhou et al., 2020)。虽然这些变量的协同作用显著推进了各种景观中的SOC测绘,但在环境梯度极端的地区,传统测绘框架的有效性往往受到限制。在高山峡谷地区,山脊和山谷之间巨大的海拔差异导致陡峭的海拔梯度,从而形成明显的山地气候垂直分带。传统方法往往无法充分量化海拔和气候的耦合,导致高山地区的SOC测绘结果稀疏且相对不准确。为了解决这一限制,三变量薄板样条插值方法将海拔作为第三个独立的空间维度(Peel et al., 2007; Wahba, 1990)。在地形起伏剧烈的高山生态系统中,这种方法有效捕捉了由海拔引起的局部气候变化。所得到的气候表面与山地微气候的物理分布更为吻合,比仅依赖经度和纬度的传统双变量插值更为准确(Simane et al., 2013)。这种技术提供了一种稳健的方法论途径,克服了地形和微气候复杂性的限制,实现了高山生态系统中的高精度SOC测绘。

中国西南部的高山峡谷地区是一个具有极端地形复杂性和显著垂直气候梯度的关键生态屏障,为推进SOC测绘方法提供了严峻挑战和独特机遇。因此,准确理解该地区的SOC空间分布对于生态系统碳管理和数字土壤测绘的方法创新至关重要。本研究提出了一个基于机器学习的SOC测绘框架,整合了遥感数据、海拔校正气候数据、地形指数、植被指标和土壤性质(图1),从而克服了复杂山区传统方法的局限性。这项研究不仅解决了中国西南部高山峡谷地区的SOC测绘问题,还为类似地形和生态环境的测绘过程提供了宝贵见解。它增强了人们对复杂山地生态系统碳储存动态的理解,并为区域碳管理策略提供了科学支持。

**2. 材料与方法**
**2.1. 研究区域**
中国西南部的高山峡谷地区(北纬21.14°–29.23°,东经98.02°–104.42°)面积达218100平方公里(图2)。该地区地形崎岖,海拔超过6500米,平均坡度为25.92°,约65%的面积位于3500米以上。年降水量平均为1156.73毫米,分为明显的湿润季节(5月至10月)和干燥季节(11月至4月)(Liu et al., 2020),分别贡献了总降水量的85%和15%(Jiang et al., 2017; Wang & Yu, 2021)。该地区拥有从北部热带到冷温带的多种气候类型以及多样的植被。这种异质的气候组合支持了大量的碳积累:1954–2010年间,总SOC储量每年增加了0.013 Pg C,SOC密度每年增加了26.94 g C/m2(Gu et al., 2014; Liu et al., 2024)。作为连接南亚和东南亚的重要生态走廊,该地区在中国西南部建立了生态安全屏障(He et al., 2005)。

**2.2. 数据获取**
**2.2.1. 野外采样和实验室测量**
2022年4月至2023年12月,我们进行了土壤采样调查,采用随机采样设计。为了确保广泛的代表性,我们在11种生态系统类型中收集了525个表层土壤样本(0–20厘米深度)(图3(a))。采样地点根据每种类型的相对面积进行空间分配,以捕捉多样的生态系统条件,同时避免空间聚集。采样的类别包括常绿阔叶林、灌木丛、人工林、耕地、暖温带针叶林、果园、落叶阔叶林、温带针叶林、草地、雨林和竹林。在每个采样点,建立了一个标准化的土壤样方(1.5米×0.8米×1米),沿S形剖面收集了九个子样本,并将其混合成一个复合样本。所有样本均经过风干、轻度研磨,并通过2毫米筛网处理。SOC含量通过重铬酸钾氧化-加热法测定(Nelson & Sommers, 1974),容重使用环刀法测定(g/cm3),pH值通过电位法测量。遥感数据选择与预处理
Sentinel-1(S1)是由两颗地球成像卫星组成的星座,这两颗卫星都配备了C波段侧向孔径雷达(SAR)。这些卫星在下降和上升轨道上捕捉图像,提供广泛的覆盖范围(250公里)和高空间分辨率(5米×20米)。在Google Earth Engine(GEE)平台上,使用各种算法处理了这些图像,以获得垂直发射/垂直接收(VV)和垂直发射/水平接收(VH)的后向散射系数(Singha等人,2020年)。S2星座的 revisit周期为6天,四个可见近红外波段的分辨率为10米,四个红边波段和两个短波红外波段的分辨率为20米。此外,S2的红边波段能够敏感地捕捉植被生长情况,为了解土壤特性提供了关键信息(Cui & Kerekes,2018年;Wang等人,2019年)。S1和S2是土壤研究中最广泛应用的遥感平台之一。

在这项研究中,S1和S2的空间分辨率为30米×30米。通过时间过滤从GEE中检索了2022年3月至2024年4月期间的多时相S1和S2图像,以便与土壤采样日期对齐。从S1数据中使用了双极化(VV和VH)信息。从S2数据中使用了11个波段(Gholizadeh等人,2018年;Vaudour等人,2019年):B2–B8A、B11和B12波段,以及来自“QA60”波段的云层掩蔽。鉴于研究区域持续的云层覆盖,我们将收集到的图像分为两个时间段(雨季5月至10月和旱季11月至4月),并对每个时间段应用了中值滤波器。这种干湿季节分类方法有效地捕捉了该地区明显的气候节奏、植被物候和地表过程差异(Lai等人,2023年;Li等人,2025年;Li等人,2022年;Nepal等人,2024年;Wang & Yu,2021年),这些因素共同构成了土壤有机碳(SOC)空间分布的核心驱动因素。通过关注干湿季节,这种方法减少了瞬变大气条件带来的噪声,从而分离出与SOC动态密切相关的年度内变化。此外,先前的研究表明,中值合成图像能有效过滤有效像素,并且相比平均值受极端异常值的影响较小(Griffiths等人,2019年;Teluguntla等人,2018年)。

2.2.4 气候数据
本研究使用四个协变量的长期平均值来表示特定的区域气候:年平均降水量(MAP)、年平均温度(MAT)、年平均相对湿度(MARH)和年平均潜在蒸散量(MAET0)。从中国气象数据网络获取了1980年至2022年间阿尔卑斯峡谷地区及其周边184个站点的日气象数据,以得出这些长期平均值(图A.1)。ET0是根据联合国粮食及农业组织(FAO)推荐的修正Penman-Monteith(P-M)模型计算得出的(Allen等人,1998年),该模型在欧盟和美国的比较研究中显示出了一致的准确性。为了精确描述空间气候分布,本研究采用了三变量薄板样条插值方法来空间化气候协变量(称为三变量插值气候数据,CD-3V)。该方法考虑了经度、纬度和海拔作为独立变量因素,并且在地形校正后可以有效减少地形对气候数据空间插值的影响(Hutchinson等人,2009年),特别是在阿尔卑斯生态系统中。作为对比基准,还选择了常用的普通克里金插值方法(称为双变量插值气候数据,CD-2V)。该方法不考虑海拔的影响,仅使用经度和纬度作为独立变量因素(Yang等人,2015b)。两种插值方法生成的空间分布图分别显示在图A.2中。使用研究区域内59个气象站的观测数据验证了准确性(表A.2):两种方法在低海拔地区的准确性相当,但随着海拔升高,CD-3V的准确性显著优于CD-2V,尤其是在温度方面(图A.3、图A.4和图A.5)。此外,气候协变量与SOC之间的相关性分析表明,CD-3V与SOC的相关系数显著高于CD-2V,尤其是在MAT和MAET0方面(图A.6)。总体而言,这些结果表明在阿尔卑斯峡谷地区采用三维薄板样条方法是合适的,得到的高分辨率气候数据集为后续分析奠定了基础。所有气候协变量都被重新采样为30米×30米的空间分辨率。与常见的公里级产品相比(图A.7),这种高分辨率对于捕捉阿尔卑斯峡谷中的微气候梯度和地形效应至关重要(Xiao等人,2023年)。我们采用了三变量薄板样条插值方法,这种方法在山区已被证明优于传统的双变量插值方法(Boer等人,2001年;Du,2016年)。这种基于海拔的插值在数据稀疏的阿尔卑斯地区对于准确反映垂直递减率至关重要(Jobst等人,2017年),为高分辨率SOC制图提供了坚实的基础。

2.2.5 地形数据
在本研究中,通过GEE使用了NASA DEM数据集。该数据集来源于航天飞机雷达地形测绘任务(SRTM)期间使用C波段干涉合成孔径雷达(InSAR)获取的高程测量数据。该数据由NASA、美国地质调查局(USGS)和加州理工学院的喷气推进实验室(JPL)提供,是原始SRTM数据的增强版本。具体来说,通过多源数据(包括ASTER GDEM、ICESat GLAS和PRISM)进行了空洞填充,并应用了改进的干涉处理算法来提高垂直精度和减少噪声(NASA,2020年)。将DEM裁剪到研究区域后,我们计算了以下地形指数作为模型输入:海拔、坡度、长度、地形湿润指数(TWI)、地形崎岖度指数(TRI)、地形位置指数(TPI)、剖面曲率和平面曲率。

2.2.6 植被指数
为了评估植被覆盖和生长动态,我们计算了10个植被指数:归一化差异植被指数(NDVI)、核归一化差异植被指数(kNDVI)、增强植被指数(EVI)、三角植被指数(TVI)、土壤调整植被指数(SAVI)、改良土壤调整植被指数(MSAVI)、特定叶面积植被指数(SLAVI)、绿色归一化差异植被指数(GNDVI)、绿色-红色植被指数(GRVI)和比率植被指数(RVI)(见表A.1(A. Sudduth & W. Hummel,1991年;Dalal & Henry,1986年;Daniel等人,2004年;Shepherd & Walsh,2002年))。这些指数结合了可见光(VIS)、近红外(NIR)和短波红外(SWIR)成像波段,这些波段对SOC非常敏感。每个指数强调植物覆盖的不同属性,并相互补充,从而全面描绘植被特征。所有指数都是从S2多光谱图像生成的,其中使用了特定的光谱波段组合来捕捉植被特性。

2.2.6 土壤特性
本研究关注了五个关键土壤特性:沙子、粉砂、粘土、pH值和BD。粘土、沙子和粉砂的数据来源于1986年云南省土壤特性数据库,包括在中国第二次全国土壤调查(1979-1994年)期间收集的253个典型土壤剖面。pH值和BD值是根据该土壤调查中525个采样点的实地测量得出的。假设同一土壤类型内的空间变化较小,我们通过将它们与土壤分类关联起来绘制了这五个特性的分布图。使用了由中国科学院土壤科学研究所数字化的1:750000比例尺土壤地图,该地图基于遗传土壤分类系统进行空间划分。

2.3 建模过程
2.3.1 预测模型
使用了三种机器学习模型来预测SOC:随机森林(RF,Breiman,2001年)、支持向量机(SVM,Vapnik,2000年)和XGBoost(Chen & Guestrin,2016年)。其中,RF和XGBoost是基于决策树结构的集成算法,利用内部树结构有效探索和捕捉非线性关系(Belgiu & Dr?gu?,2016年;Chen等人,2019年;Wang等人,2026年)。RF通过多个决策树独立地对数据进行分类投票,多数投票决定最终结果。与单个决策树相比,这种算法可以显著减少方差并提高泛化能力,从而提高模型准确性(Zhang等人,2017年)。在本研究中,我们将树的数量固定为400棵,以平衡预测准确性和模型稳定性(Luo等人,2024年;Mahdianpari等人,2019年)。XGBoost以其卓越的处理速度和准确性为特点,通过嵌入正则化的损失函数来防止过拟合。这种正则化包括对深层树和叶节点大小的惩罚,共同促进了模型在复杂建模任务中的高性能和稳定性(Pham等人,2020年)。SVM是一种非线性模型,通过核函数将数据投影到更高维的特征空间来实现复杂拟合(Keskin等人,2019年;Zhang等人,2022年)。在本研究中,选择了一种典型的通用核函数——径向基函数。与传统的线性模型相比,这种算法可以在一定程度上减少“维度灾难”问题,而不会显著增加计算负担(Jia等人,2017年)。这三种机器学习算法是目前土壤数字制图中最为常用的三种(Dahhani等人,2024年;Lamichhane等人,2019年;Wang等人,2018b;Zhou等人,2020年)。

2.3.2 特征选择
为了减少不相关协变量对模型准确性的不利影响,我们进行了Spearman相关性分析,以评估SOC与潜在协变量之间的关系(Schober等人,2018年)。只保留了与SOC具有统计显著相关性(p < 0.05)的变量。随后进行了方差膨胀因子(VIF)分析,以量化预测变量之间的多重共线性,VIF < 10表示可接受的共线性水平(Mousavi等人,2022年)。为了进一步精炼变量选择,我们进行了递归特征消除(RFE),这是一种根据重要性对特征变量进行排序并逐步剔除影响最小的变量的向后选择算法,以提高模型效率(Jeong等人,2017年;Lu等人,2022年)。在这项工作中,RFE与RF、SVM和XGBoost结合使用。模型优化通过10折交叉验证进行指导,最低的均方根误差(RMSE)决定了最佳变量集。所有特征选择和模型训练过程都是在R版本4.4.1中使用的“caret”和“caretEnsemble”包中执行的。

2.3.3 准确性评估
在本研究中,我们将土壤样本分为394个(75%)用于训练,131个(25%)用于测试。为了评估模型性能,使用了四个统计指标:R2、均方根误差(RMSE)、平均绝对误差(MAE)和校正后的赤池信息量准则(AICc)(Williams,1987年):
(1)(2)(3)(4)
其中n是样本数量, 是样本i的测量SOC含量, 是样本i的预测SOC含量。SS是残差平方和,M是特征变量数量。较低的AICc值表示更好的模型,因为该指标考虑了预测变量数量的影响,以防止过拟合。

2.3.4 不同协变量对SOC的影响
使用具有最有效协变量集构建的RF模型分析了特征重要性。首先,我们使用了RF特定的方法来确定变量重要性,该方法估计了每个协变量随机排列时预测准确性的降低程度(Prasad等人,2006年)。其次,在R 4.4.1中使用了“plspm”包来开发偏最小二乘路径模型(PLS-PM),以研究协变量对SOC的直接和间接影响(Sanchez,2013年)。这是一种基于偏最小二乘的结构方程建模技术,不需要对变量或误差分布做任何假设,并允许构建稳健的解释模型(Fernandes等人,2019年)。模型结构的选择由R2和拟合优度(GOF)指导。GOF大于0.4被认为是可接受的,而高于0.7的值表示模型非常满意(Benitez等人,2020年)。

3 结果
3.1 样本信息
为了描述阿尔卑斯峡谷地区的SOC空间分布,我们通过实地调查确定了总共525个样本。大约4.12%的样本来自1500至2000米之间的海拔(图2(b))。约61.71%的样本位于10°至30°之间的坡度上(图2(c))。超过一半的样本来自年平均温度在10°C到20°C之间、年降水量在1000到1500毫米之间的地区(图2(d–e))。图3(b–c)显示了训练和测试数据集中测量的土壤有机碳(SOC)的描述性统计信息,其范围为3.20–175.60克/千克(平均值:33.32克/千克;中位数:23.10克/千克)。SOC数据呈现出明显的偏态分布,标准差(SD)为28.87,偏度为1.83,表明存在强烈的空间异质性。通过对数据进行自然对数转换后,所有数据集的标准差和偏度分别显著降低到0.77和0.26。因此,我们使用SOC的自然对数(LnSOC)构建了映射模型,以减轻原始SOC分布的右偏态(图2(f))。

3.2. 模型准确性评估
在这里,RF_CD-3V、SVM_CD-3V和XGBoost_CD-3V分别表示结合了海拔校正气候数据的随机森林(RF)、支持向量机(SVM)和XGBoost模型,而RF_CD-2V则表示结合了未校正海拔气候数据的RF模型。我们的SOC预测结果被认为是可靠的,因为大多数数据点在散点图中的1:1参考线附近聚集(图4)。RF_CD-3V模型的表现优于SVM_CD-3V模型和XGBoost_CD-3V模型,其R2最高为0.563,RMSE最低为0.538,MAE为0.419,AICc为-110.339(表1)。与RF_CD-2V模型相比,RF_CD-3V模型的R2提高了17.04%,RMSE降低了8.35%。因此,基于结合海拔校正气候数据的RF模型的SOC映射框架对于高山峡谷地区非常重要。

下载:下载高分辨率图片(910KB)
下载:下载全尺寸图片

图4. 不同模型下训练和测试数据集的测量和预测SOC的散点拟合图。(a-b) RF_CD-3V, (c-d) SVM_CD-3V, (e-f) XGBoost_CD-3V, (g-h) RF_CD-2V

表1. 使用不同模型的SOC映射准确性
模型 R2 RMSE MAE AICc
RF_CD-3V 0.563 0.538 0.419 -110.339
SVM_CD-3V 0.513 0.568 0.445 -90.518
XGBoost_CD-3V 0.533 0.557 0.442 -98.605
RF_CD-2V 0.481 0.587 0.455 -90.80

3.3. 在高山峡谷地区进行SOC映射
我们选择了RF_CD-3V模型进行SOC映射。SOC显示出明显的空间异质性(1.00–91.02克/千克),平均SOC含量为24.32克/千克,标准差为12.49。高SOC值的区域主要分布在西北部,而低SOC值的区域则集中在南部(图5(a))。SOC含量随海拔显著增加(图5(b))。在3000米以下,平均SOC含量(20.07克/千克)相对较低,但在3000米以上显著上升,超过6000米时达到62.33克/千克。坡度的影响较弱(图5(c)),只有超过50°的坡度的平均SOC含量(32.62克/千克)略有增加,这明显高于50°以下坡度的平均SOC含量(24.38克/千克)。SOC与年平均温度(MAT)之间存在强烈的负相关(图5(d)),在MAT < 5°C时SOC水平显著高于MAT > 5°C时(59.63克/千克 vs 23.47克/千克)。随着平均年降水量(MAET0)的增加,SOC显著下降(图5(f):当MAET0低于600毫米时平均SOC含量为63.69克/千克,降至600–1000毫米时为40.79克/千克,超过1000毫米时进一步降至18.43克/千克)。MAP与SOC之间存在非线性的单峰关系(图5(e),SOC在2000–2500毫米范围内达到峰值35.42克/千克)。较高的年相对湿度(MARHU)通常会增强SOC的积累(在90–95%的湿度范围内达到56.96克/千克)(图5(g)),但极端的降水量和湿度条件会导致SOC水平下降。

下载:下载高分辨率图片(895KB)
下载:下载全尺寸图片

图5. SOC空间分布图和SOC含量统计。(a) 预测的SOC地图,(b) 按海拔划分的平均SOC,(c) 按坡度划分的平均SOC,(d) 不同MAT范围内的平均SOC含量,(e) 不同MAP范围内的平均SOC含量,(f) 不同MAET0范围内的平均SOC含量,(g) 不同MARHU范围内的平均SOC含量,(h) 不同气候区的预测SOC箱线图,(i) 不同生态系统类型的预测SOC箱线图。缩写的完整名称可以在表A.4中找到。

我们进一步比较了不同气候区和生态系统类型的SOC含量。如图5(h)所示,寒温带地区的平均SOC含量最高(42.69克/千克),而北热带地区的平均值最低(18.41克/千克)。其他气候区依次为:中温带地区(38.05克/千克)、暖温带地区(28.46克/千克)、北亚热带地区(27.61克/千克)、南亚热带地区(19.58克/千克)、中亚热带地区(18.56克/千克)。在不同生态系统类型中(图5(i)),温带针叶林的SOC含量最高,平均SOC含量为43.00克/千克,其次是其他森林类型,依次为:落叶阔叶林(33.71克/千克)、暖温带针叶林(28.03克/千克)、常绿阔叶林(24.64克/千克)、竹林(19.17克/千克)、雨林(18.98克/千克)和人工林(18.87克/千克)。比较自然森林和人工林,自然森林的平均SOC含量(27.92克/千克)大约是人工森林的1.47倍。在非森林生态系统中,灌木丛的平均SOC含量最高(27.92克/千克),其次是草地(26.90克/千克)、农田(19.45克/千克)和果园(19.42克/千克)。

3.4. 不同协变量对SOC的影响
为了研究光学数据和SAR数据(来自S1和S2)、气候、地形、土壤和植被协变量如何影响SOC映射,我们应用了PLS-PM方法,发现地形变量与气候变量和植被指数呈负相关(图6),而气候协变量与土壤特性和光学数据呈正相关,与SOC呈负相关(图6(a))。气候协变量对SOC的直接影响和总影响最大,标准化效应分别为-0.64和-0.83。地形变量对SOC的间接影响最大,标准化效应为0.75;总影响排名第二,标准化效应为0.57(图6(b))。使用RF算法估计了每个特征的相对重要性(图6(c))。在20个特征变量中,最重要的10个变量是年平均温度(MAT,0.191)、海拔(0.136)、平均年降水量(MAET0,0.129)、年相对湿度(MARHU,0.054)、坡度(0.052)、年降水(MAP,0.046)、湿润度指数(BD,0.044)、湿润度指数(EVI_Wet,0.034)、干旱指数(VH_Wet,0.032)和植被覆盖指数(SAVI_Dry,0.031)。总体而言,气候、地形和土壤协变量对SOC映射至关重要,分别解释了45.23%、31.01%和12.72%的变异。年平均温度(MAT)是最有影响力的气候协变量,而海拔是最重要的地形协变量。PLS-PM的结果进一步强调了气候因素在山地SOC映射中的重要性。

下载:下载高分辨率图片(588KB)
下载:下载全尺寸图片

图6. SOC映射模型的影响分析。(a) PLS-PM结果揭示了气候、地形、植被、土壤、光学和SAR协变量对SOC映射的影响。路径宽度反映了系数的大小;红色和蓝色箭头分别表示正效应和负效应,虚线黑色线条表示无显著路径。显著性水平标记为:*,p<0.05;**,p<0.01;***,p<0.001。拟合优度值为0.577,(b) SOC映射的标准化总效应、直接效应和间接效应,(c) 不同特征协变量的相对重要性。缩写的完整名称可以在2.2部分找到。

4. 讨论
4.1. RF_CD-3V模型在高山峡谷地区的优势
SOC映射的准确性不仅取决于预测算法的性能,还取决于环境协变量捕捉区域地理特征的能力。本研究表明,结合了海拔校正气候数据的RF模型(RF_CD-3V)在预测精度和误差指标方面显著优于SVM_CD-3V和XGBoost_CD-3V(表1),这反映了处理高度异质性山地数据集时的内在机制差异。RF的优越稳定性源于其装袋集成机制(Were等人,2015年)。在高山峡谷地区,由于地形破碎和复杂的气候带状分布,土壤采样点常常包含局部噪声和极端值。通过自助采样和随机特征子集,RF有效减少了模型方差,并表现出对异常值的强大抵抗力(Venter等人,2021年)。相比之下,基于提升的XGBoost算法虽然具有强大的学习能力(Emadi等人,2020年),但其对残差的迭代拟合使其容易过拟合局部噪声,导致其泛化能力略低于RF(Gao等人,2009年)。同时,SVM严重依赖核函数进行特征空间映射,但在处理超过20个高维协变量的复杂非线性交互时难以建立全局最优超平面。总体而言,大多数研究表明RF在预测准确性方面表现更好,证实了其在不同地形条件下的广泛应用性(Dahhani等人,2024年;Garosi等人,2022年;Lamichhane等人,2021年;Tajik等人,2020年)。

4.2. 高山峡谷地区的SOC空间分布
高山峡谷地区的SOC分布图高度异质,高SOC值区域主要集中在西北部,而低SOC值区域则分布在南部。这种分布模式与之前关于西南高山峡谷地区和云南省土壤碳储量的研究结果一致(Duan等人,2014年;Gu等人,2014年)。在较高海拔的北部地区,低温限制了有机物的分解过程,导致SOC积累较多。相反,温暖、低海拔的南部地区促进了微生物对SOC的分解,并受到更强烈的人为影响。该地区的平均SOC含量为24.32克/千克,高于中国的其他地区(表2),表明高山峡谷地区具有显著的碳封存潜力。

表2. 高山峡谷地区与其他中国研究的平均SOC比较
研究区域 土壤层 SOC(克/千克)
来源 0-20厘米 22.28 Luo等人(2020年)
中国黑河盆地 0-20厘米 24.14 Zhou等人(2020年)
中国东北部 0-20厘米 20.3 Liu等人(2025年)
中国东北黑土区 0-20厘米 19.1 Zhang等人(2007年)
中国渤海湾沿海地区 0-30厘米 6.23 Zhang等人(2023年)
中国黄土高原丘陵流域 0-20厘米 9.03 Xin等人(2016年)

地形和气候的综合效应决定了高山峡谷地区SOC分布的地理分区。SOC含量随海拔增加而增加,在3000米以上急剧上升:3000米以上的平均SOC是3000米以下的2.79倍。这种模式与Duan等人(2014年)和Zhou等人(2023年)在云南省的研究结果一致,但与Wu等人(2023年)和Zhang等人(2009年)在天山和祁连山脉报告的“单峰”海拔分布模式相反。这种差异可能源于高山峡谷地区独特的亚热带湿润气候条件,低温和高湿度抑制了有机碳的分解,随着海拔升高促进了SOC的积累。同时,复杂的地形促进了高海拔植被区的发展,进一步增加了生物量碳的输入。这与干旱和半干旱地区(如天山和祁连山脉)形成对比,在这些地区,高海拔区域受到干燥气候和稀疏植被的限制,加速了有机物的分解。温度在调节SOC分布中起着重要作用。当温度超过5°C的阈值时,SOC含量迅速下降;5°C以下的平均SOC是5°C以上的2.54倍。Duan等人(2014年)在云南省也报告了类似的现象,临界阈值为6°C。SOC含量随着降水量和相对湿度的增加而先增加后减少。Zhang等人(2022年)在长江源头的永久冻土区发现了一个类似的趋势,即降水量和相对湿度增加时SOC含量先增加后减少。适度的降水量和湿度增加促进了植被生长和微生物活动,从而促进了SOC的积累。然而,极端的降水量和湿度会导致土壤饱和,产生厌氧条件,引发可溶性有机碳的淋溶。此外,陡峭的高山峡谷坡度加剧了侵蚀,最终导致SOC下降。相比之下,长江源头的永久冻土区是一个干燥、寒冷的高海拔地区,温度始终较低,降水量也较低。因此,SOC的储存更多依赖于低温而非水分控制。降水量增加有利于植被生长,含水量高的土壤减少了微生物对SOC的分解(Chen等人,2020年),从而增强了植被的碳输入。这些差异反映了不同山区生态系统对有机碳积累的不同响应。

为了更深入地了解高山峡谷地区的SOC分布,我们研究了其与不同气候区和森林类型的关联。研究结果表明,SOC在不同气候区和森林类型中的空间变化与地理区域观察到的模式相似。Jobbágy和Jackson(2000年)指出,植被分布与气候区紧密相关,表明SOC在其空间分布中显示出明显的地带性模式。SOC(土壤有机碳)在温带针叶林中最高,这主要是由于在寒冷温带条件下有机物的分解速度较慢,凸显了自然植被在土壤碳积累中的积极作用。雨林和人工林主要分布在北部热带地区,由于有机物的快速分解,这些地区的SOC水平最低(Lal, 2004a)。进一步比较表明,天然森林中的SOC(27.92克/千克)大约是人工林(18.87克/千克)的1.47倍,这证明了天然森林在土壤碳封存方面的优越能力,与先前的研究结果一致(Liao等人,2012年;Shen等人,2024年;Yang等人,2009年)。尽管该地区天然森林的平均SOC含量低于全国平均水平(0-5厘米深度为34.18克/千克)(Xu等人,2024年),但该地区人工森林的平均SOC含量超过了全国平均水平(0-60厘米深度为14.8克/千克)(Wang等人,2014年),这证实了该地区人工林生态系统的巨大碳封存潜力。灌木丛和草地生态系统的平均SOC含量分别为27.92克/千克和26.90克/千克,均高于农田(19.45克/千克)和果园系统(19.42克/千克)。这种差异可能与农田和果园长期的土地利用和集约化管理导致的土壤碳损失有关。然而值得注意的是,高山峡谷地区的农田SOC含量仍然高于全国农田表层土壤的平均水平(12.67克/千克)(Yan等人,2011年),表明这里的独特生态环境仍对农田中的土壤碳储存提供了一定程度的保护。总体而言,这些结果为理解高山峡谷地区不同生态系统中土壤碳储量的空间分布模式提供了科学依据,并为制定区域碳封存增强策略提供了有价值的参考。

4.3. 高山峡谷地区SOC的关键影响因素
我们的研究发现,在高山峡谷地区,气候(特别是温度)和地形(尤其是海拔)是影响SOC变化的最重要因素(图5),分别解释了45.23%和31.01%的SOC变化。这是因为高山峡谷地区具有较大的海拔差异(山脊和山谷之间高达6544米),独特的地貌,显著的气候垂直差异,以及处于不同发育阶段的土壤和植被,所有这些因素共同导致了该地区极其复杂的空间异质性。在高海拔地区,较低的温度抑制了微生物的分解,促进了SOC的积累;而在低海拔地区,较高的温度增强了微生物活动,加速了SOC的矿化过程,尽管植被覆盖度较高,但SOC含量仍然较低。这些结果与其他地貌区域的SOC分布驱动因素明显不同。许多学者发现,在相对平坦的地区(如沿海湿地、东南部丘陵地区、冲积平原和欧洲农业区),光学数据和土壤特性是影响SOC分布的最重要因素(Castaldi等人,2019年;Lamichhane等人,2021年;Liu等人,2025年;Luo等人,2024年;Yang & Guo,2019年;Zhang等人,2023年)。总之,SOC测绘的准确性受到不同地貌和气候背景下区域特征的影响。在平坦的地形中,多光谱光学数据与土壤特性相结合,光学传感器能够捕捉更丰富的地表信息,而在均匀的环境中,土壤变量起着更重要的作用。相反,高山峡谷地区则更强调气候和地形的控制作用。此外,土壤特性、植被指数以及光学和雷达数据共同解释了23.76%的SOC空间变异(图5)。光学数据主要依赖于OH、CH和NH等极性共价键对红外波长的吸收,这在可见光到短波红外光谱(350-2500纳米)范围内产生了强烈的相关性,尤其是在450、590和664纳米处具有显著的敏感性(Ben-Dor等人,1997年;Castaldi等人,2016年)。随着SOC含量的增加,光谱吸收增强,导致反射率降低(Bartholomeus等人,2008年)。对于雷达数据,VH极化方式能更有效地捕捉土壤水分,由于富含SOC的土壤通常保持更多的水分,因此提高了其预测能力(Bauer-Marschallinger等人,2018年)。相比之下,高BD值的土壤通常具有较低的孔隙度、较差的水分渗透性以及有限的氧气和养分输送,这限制了微生物和根系的活性,最终阻碍了SOC的积累(Wang等人,2018c)。此外,较低的土壤pH值被认为是促进有机物积累的关键因素(Wang等人,2023年)。

4.4. 局限性与未来研究进展
我们的SOC测绘框架通过明确考虑由海拔驱动的垂直气候梯度,很大程度上克服了以往在高山峡谷地区研究的局限性。通过引入三变量薄板样条插值,建模过程整合了传统方法常忽略的微气候异质性,从而更真实地反映了高山生态系统中SOC的空间差异。这一方法论的进步不仅提高了测绘精度,还为全球复杂山区数字土壤测绘提供了一个可扩展的技术模板,表明精细的气候校准显著提高了传统测绘范式受限地区的模型预测能力。尽管RF_CD-3V模型表现出最强的整体性能,但它系统性地低估了SOC含量,尤其是在高SOC样本中。早期的研究也记录了类似的低估现象(He等人,2021年;Liu等人,2025年;Wang等人,2018a),这可能源于训练数据集中高SOC样本的代表性不足,限制了模型学习极端值模式的能力。未来的研究可以采用生成对抗网络(GANs)或扩散模型来生成符合高SOC分布特征的合成训练样本,从而弥补实际观测数据的不足(Padarian等人,2019年;Tian等人,2024年)。或者,可以采用集成学习方法分别优化模型在不同SOC含量范围内的表现。

5. 结论
本研究为高山峡谷地区的SOC测绘提供了新的视角。将RF分类与校正海拔的气候数据相结合是一种高效的方法,用于高山峡谷地区的SOC测绘,其测绘精度表现为R2值提高了17.04%,RMSE降低了8.35%。SOC含量估计范围为1.00至91.02克/千克,平均SOC含量为24.32克/千克,高于中国其他地区。高SOC值主要分布在北部地区的冷温带和中温带,而低SOC值则集中在南部地区的北部热带地区。气候和地形共同解释了76.24%的SOC变化,其中温度和海拔是最具影响力的因素。年温度在0-5°C之间的地区SOC含量最高,并且随着海拔的升高而显著增加,尤其是在3000米以上。森林和草地中的SOC含量高于农田和果园,其中温带针叶林的SOC含量最高(43.00克/千克)。天然森林中的SOC含量大约是人工森林的1.5倍,高山峡谷地区人工森林的平均SSOC水平也高于全国平均水平。这些结果表明,该地区的森林具有显著的碳封存潜力。未来的工作应考虑减少人为干预——包括种植、管理和采伐活动——以改善森林生态系统的土壤碳保护。本研究为复杂山区环境中的SOC监测提供了一种有效的技术方法,对区域碳循环研究和生态环境管理具有重要意义。

**作者贡献声明**
Jiao Dou:撰写 – 审稿与编辑、撰写 – 原稿、验证、软件、方法论。
Enwei Zhang:软件、方法论。
Shengzhao Wei:撰写 – 审稿与编辑、验证、方法论。
Chenli Liu:撰写 – 审稿与编辑、验证。
Honghong Lin:撰写 – 审稿与编辑、数据管理。
Wantao Yang:调查。
Qi Li:软件。
Xingwu Duan:撰写 – 审稿与编辑、项目管理、资金获取、数据管理。

**未引用的参考文献**
Belgiu和Dr?gu?, 2016;Daniel
通讯作者和Apisit, 2004;K?rner和Kèorner, 1999。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号