优化Sentinel-2时间合成影像用于土壤有机碳测绘和耕地管理分析

《Environmental Technology & Innovation》:Optimizing Sentinel-2 temporal composites for soil organic carbon mapping and cropland management insights

【字体: 时间:2026年05月11日 来源:Environmental Technology & Innovation 7.1

编辑推荐:

  《新时代杂志》| R. Venkatesha Prasad | Binyuan Liu | Balamuralidhar Purushothaman | P.V. Aravind 能源转换组,格罗宁根大学科学与工程学院能源与可持续性研究所,尼亨博尔赫6号,9747AG,格罗宁

  《新时代杂志》| R. Venkatesha Prasad | Binyuan Liu | Balamuralidhar Purushothaman | P.V. Aravind
能源转换组,格罗宁根大学科学与工程学院能源与可持续性研究所,尼亨博尔赫6号,9747AG,格罗宁根,荷兰

**摘要**
在集约化农田中准确绘制土壤有机碳(SOC)图谱对于减缓气候变化和指导可持续农业管理至关重要。尽管Sentinel-2复合影像的使用日益增加,但关于复合影像设计如何影响农田SOC图谱绘制精度,以及卫星观测是否能够捕捉与SOC相关的管理信号的证据仍然有限。本研究使用2015年和2018年的LUCAS观测数据,在意大利的波平原地区比较了四种不同的Sentinel-2光谱复合影像进行了SOC图谱绘制。训练了三种机器学习模型:随机森林(random forest)、XGBoost和CatBoost,并使用SHAP方法解释了各变量的贡献。在所有模型中,基于多光谱反射率和非光合植被指数的裸土时期的复合影像取得了最佳性能。特别是CatBoost表现最佳,为波平原地区生成了高分辨率的SOC图谱。相比之下,传统的植被指数(如NDVI和EVI)在所有复合影像中的相关性有限。重要的是,我们发现从多时相Sentinel-2观测数据中得出的裸土频率与SOC之间存在显著的负相关关系,即裸土频率越低,SOC含量越高。这表明裸土暴露时间是一个实用的模式监测指标,并提示缩短裸土期的管理措施有助于维持或提高SOC水平。总体而言,本研究通过机器学习优化了Sentinel-2的时间序列复合影像,提高了波平原地区的SOC图谱绘制精度,为集约化耕作区域的农田管理提供了实用见解。

**1. 引言**
土壤有机碳(SOC)是全球碳循环和农业生态系统中的关键组成部分。它在土壤肥力、植物生长和水分保持方面发挥着重要作用,因此与可持续作物生产和粮食安全密切相关(Crowther等人,2016年;Sanchez等人,2009年)。然而,在气候变化、土壤退化和人类活动的共同影响下,长期来看农田中的SOC储量一直在减少(Schlesinger和Amundson,2019年;Huang等人,2022年)。例如,有研究表明到2100年美国大陆可能会损失1.8拍克的SOC(Gautam等人,2022年)。同时,在改进的管理下,农田土壤也具有巨大的碳汇潜力(Gattinger等人,2012年;Paustian等人,2016年;Minasny等人,2017年)。因此,准确绘制SOC图谱并识别其关键驱动因素对于监测SOC动态和支持有效的农田管理至关重要。

数字土壤制图(DSM)已成为一种强大的方法,可以从局部到全球尺度预测土壤特性,包括SOC(Lamichhane等人,2021年;Rahmani等人,2022年;He等人,2021年;Zhang等人,2023年)。该方法通过识别测量的SOC数据与环境变量之间的关系,构建预测模型来估算整个研究区域的SOC空间分布(Ji等人,2024年)。卫星遥感数据(如Sentinel-2、Landsat和MODIS)以及从这些数据中衍生的光谱指数(SIs)已被广泛用于从局部到大空间尺度的SOC预测(Zhou等人,2020年;Liu等人,2023年;Urbina-Salazar等人,2023年;Zhang等人,2021年)。以往的研究通过整合不同类型的环境协变量(包括遥感和SIs)来比较预测精度(Jeong等人,2017年;Zhang等人,2022a;Taghizadeh-Mehrjardi等人,2021年;Ai等人,2025年)。然而,除了预测因子的选择和组合外,环境变量的采集时机也对SOC预测至关重要(Wang等人,2023a;Zepp等人,2023年;Sun等人,2023年;Yang等人,2020年)。在农田中,适合SOC预测的数据采集时间尚不明确且存在争议。一些先前的研究集中在作物生长期,利用NDVI和EVI等植被信息来表征SOC的空间变化(例如,Liu等人,2023年发现将MODIS衍生的物候因素纳入模型显著提高了中国黑河盆地的SOC预测精度;Wang等人,2023a证实地上生物量在棉花田中具有很高的SOC预测潜力;Takada等人,2009年还引入了植被高度,为SOC的空间变化提供了额外的解释力)。此外,Zhao等人(2014年)基于植被指数在生长高峰期改进了模型性能。另一方面,也有一些研究在裸土期采集遥感数据(Zepp等人,2023年)。Zhao等人(2014年)选择了春季和秋季的图像,此时大多数作物已经收获,土壤表面暴露。Kalambukattu等人(2018年)证实Landsat-8衍生的裸土指数与SOC含量高度相关。这些研究仅关注单一的采集时期(如裸土期或植被覆盖期),未能系统地评估多时相光谱变量和指数组合的效果。因此,目前仍缺乏关于不同时间序列遥感变量组合如何影响SOC预测性能的比较分析。

此外,在大面积农田中,由于空间异质性,不同田块的物候阶段很少保持一致。因此,在同一时间,裸土、部分覆盖和完全植被状态可能共存。多时相光谱观测可以捕捉整个观测期间的地表条件,从而构建特定状态的反射率复合影像和相应的光谱指数,同时有助于表征作物物候和管理情况(Shafizadeh-Moghadam等人,2022年;Castaldi,2021年)。从多时相观测中得出的裸土频率(BSF)反映了田块在裸土状态下的观测频率,可作为作物周期内非植被间隔时间的代理指标(de Sousa等人,2024年)。由于作物类型和管理措施强烈影响有机碳的输入与损失平衡,BSF的空间变化提供了一个可解释的时间指标,用于研究农田管理如何影响SOC水平及其空间分布。

波平原是意大利最大的平原,也是欧洲最富饶的农业区之一(Monteleone等人,2023年),但目前缺乏高分辨率的SOC图谱和裸土期相关研究。为填补这一研究空白并提供该地区的准确SOC图谱,本研究旨在探讨Sentinel-2图像采集日期如何影响DSM的SOC预测精度,并通过观察BSF来验证SOC分布是否与不同的农业管理措施相关。具体目标包括:(1)比较基于Sentinel-2的数据(包括多光谱波段和SIs)在不同时间序列复合影像中的性能和重要性;(2)评估三种模型(随机森林(RF)、极端梯度提升(XGBoost)和分类提升(CatBoost)在农田SOC预测中的有效性;(3)为波平原地区的农田开发并评估30米空间分辨率的SOC预测模型;(4)计算BSF并基于预测的SOC图谱研究其对不同作物类型SOC的影响。这项工作将有助于确定农业景观中SOC图谱的最优方法,并探究地表暴露时间对SOC水平的影响。此外,该研究还将为农田SOC的空间分布和管理提供见解。

**2. 材料与方法**
**2.1. 研究区域**
研究区域涵盖波平原的农田地带,经度范围为8.5°E至13.1°E,纬度范围为43.7°N至46.7°N。该区域北邻阿尔卑斯山脉,南接亚平宁山脉,位于伦巴第、艾米利亚-罗马涅和威尼托地区,总面积约为27300平方公里(图1(a))。该地区属于温带气候,年平均气温为11°C,年降水量为880毫米。区域平均海拔约50米,东部沿海地区海拔较低,有些区域甚至低于海平面。波平原的土壤主要是冲积土,由波河及其支流的沉积物形成(Costantini等人,2004年)。在该研究区域,主要种植的作物是玉米(占46.6%),其次是普通小麦(18.4%)、草(12.1%)以及林地和灌木丛中的多年生作物(8.3%)(图1(b))。这些作物统计数据来自欧盟作物地图(EUCROPMAP v1)数据集。

**2.2. 土壤样本**
本研究使用的土壤样本来自土地利用/覆盖面积框架统计调查(LUCAS)的表层土壤(0–20厘米)数据库,这是由欧洲土壤数据中心(ESDAC)提供的最大规模欧洲土壤光谱库(Orgiazzi等人,2018年)。LUCAS土壤采样活动始于2009年,每三年更新一次。目前,2009/2012年、2015年和2018年的数据集已公开发布。在单一实验室中测量了包括SOC在内的十二个物理和化学性质,以确保数据的一致性。SOC含量的测定采用了ISO 10694:1995标准的干烧法(Wang等人,2020年)。SOC的封存通常是一个中长期过程(Chenu等人,2019年)。以往的研究表明,SOC变化往往在6到10年前难以检测到,而为期三年或更短的研究可能无法可靠地评估SOC储量的变化(Chaplot和Smith,2023年;Smith,2004年)。为提高模型可靠性同时保持土壤观测的时间跨度,本研究从LUCAS 2015年和LUCAS 2018年的数据集中选取了农田样本。如果在LUCAS 2018年中再次访问了某个采样点,则仅保留2018年的最新SOC值。总共提取了210个土壤样本,其中170个来自LUCAS 2018年,40个来自LUCAS 2015年(图1(a))。这些样本被随机分为训练数据(70%)和测试数据(30%),用于进一步的模型训练和评估(Huang等人,2017年;Ji等人,2024年;Hu等人,2025年)。

**2.3. 环境变量**
本研究使用包括气候、地形和土壤性质在内的环境协变量,结合多光谱数据和SIs来预测SOC含量。所有这些变量均使用最近邻方法重新采样至30米空间分辨率,并重新投影到WGS 1984 UTM Zone 32N投影(Liu等人,2022年)。所有变量的预处理和计算均在Google Earth Engine(GEE)平台上完成。

**2.3.1. 气候和地形**
本研究选择年平均气温和年降水量作为气候变量。这些气候数据来自WorldClim版本2.1,提供了1970–2000年的长期气候数据(1公里分辨率,Fick和Hijmans,2017年)。研究区域的海拔数据来自Shuttle Radar Topography Mission(SRTM)V3产品,分辨率为30米,通过GEE平台获取。其他地形变量(包括坡度、朝向、地形湿度指数(TWI)、长度-坡度因子(LSF)、谷底深度(VD)、相对坡度位置(SP)、平面曲率(PC)和收敛指数(Conver)通过SAGA GIS从海拔图中导出。

**2.3.2. 土壤性质**
土壤性质与SOC含量密切相关。总氮(TN)和pH值被确定为DSM中预测SOC的关键预测因子(Deng等人,2018年;Castro-Franco等人,2015年)。本研究使用的TN和pH值来自SoilGrids 250米产品。通过加权平均技术合并了0–20厘米深度的原始深度层(0–5厘米、5–15厘米和15–20厘米)来获取土壤性质(Huang等人,2024年)。

**2.3.3. Sentinel-2数据**
本研究通过GEE平台在2018–2020年期间从Sentinel-2影像中提取了多光谱波段。Sentinel-2传感器可以捕获13个光谱波段,覆盖可见光到近红外(VNIR)和短波红外(SWIR)范围,适用于土地覆盖和土地利用监测、植被分析和农业管理(Segarra等人,2020年;He等人,2021年)。本研究选择了十个多光谱波段(B2、B3、B4、B5、B6、B7、B8、B8 A、B11和B12)。此外,使用Sentinel-2波段计算了基于光谱的植被指数,以作为植被和土地覆盖的指标。NDVI、EVI和土壤调整植被指数(SAVI)被广泛用于表示植被生长,以预测土壤有机碳(SOC),并且它们在建模中的重要性已在先前的研究中得到证实(Xiao等人,2019年;Yang等人,2020年;Nguyen等人,2022年)。核NDVI(kNDVI)是一种先进的植被指数,它改进了植被动态的表征,并提高了其灵敏度和稳健性(Wang等人,2023b年)。除了植被指数外,归一化燃烧比2(NBR2)用于评估土壤湿度水平以及秸秆和作物残留物的存在(Castaldi等人,2019年)。地表水指数(LSWI)是一个通过SWIR波段计算得出的湿度指数,对植被含水量的变化非常敏感(John等人,2018年)。粘土指数(CI)用于捕捉与土壤中粘土含量相关的光谱变化(Li等人,2025年)。非光合作用植被-土壤分离指数(NSSI)是由Tian等人(2021年)提出的一种新指数,旨在改进裸土和非光合作用植被之间的区分,在SOC制图中显示出了有希望的结果(Ji等人,2024年)。这八个指数的公式都在表A.1中给出。本研究仅使用了云量少于10%的图像,以确保数据的质量和可靠性。此外,图像的时间范围被限制在3月至10月之间,因为冬季太阳天顶角较高,导致Sentinel-2传感器接收到的能量较低(Vermote等人,2016年)。Sentinel-2图像被分为三个时间段,以探索时间复合体的影响。第一个时间段关注裸土情况,包括收获后和休耕期。使用NDVI值来识别裸土像素,低于0.3的值被分类为裸土(Davis等人,2019年;Xu和Zhai,2023年)。符合此标准的像素被提取并平均,以代表裸土条件。第二个时间段旨在考虑整个植被生长周期的影响。为此,收集了3月至10月期间NDVI值大于0.3的所有图像,并进行了平均,以得出代表植被覆盖完整生长期的变量。参考组涵盖了从3月至10月的整个观测期。根据这一标准,每个时间段处理了十个多光谱波段和八个植被指数。表1列出了每个组的环境变量以及基于Boruta算法选择的预测变量数量。组名包括的变量类别Boruta后的变量数量组1气候、地形、土壤属性、S2_b、SI_b3115组2气候、地形、土壤属性、S2_b、SI_v3114组3气候、地形、土壤属性、S2_v、SI_v3111组4气候、地形、土壤属性、S2_e、SI_e3112注:S2_e:整个观测期的Sentinel-2波段;S2_b:NDVI小于0.3时期的选定的Sentinel-2波段;S2_v:NDVI大于0.3时期的选定的Sentinel-2波段;SI_e:整个观测期的光谱指数;SI_b:NDVI小于0.3时期选定的光谱指数;SI_v:NDVI大于0.3时期选定的光谱指数。

2.4. 变量选择构建了四个变量组,以比较不同的Sentinel-2时间复合体对SOC预测的影响(表1)。组1包括来自裸土时期的多光谱波段和光谱指数(SIs)。组2将来自裸土时期的多光谱波段与来自植被覆盖时期的SIs组合。组3同时使用了来自植被覆盖时期的多光谱波段和SIs,而组4使用了3月至10月整个观测期的多光谱波段和SIs。在所有组中,这些Sentinel-2变量都与气候、地形和土壤属性结合起来进行SOC预测。为了在提取显著变量时避免多重共线性和冗余并提高预测准确性,使用了Boruta方法来选择用于SOC预测的显著预测变量(Rahmani等人,2022年)。Boruta方法是一种特征选择算法,通过比较原始特征与基于随机森林算法的随机阴影特征的重要性来识别大型数据集中的相关特征。它特别适用于高维数据集,以区分有用的预测变量(Keskin等人,2019年;Xu等人,2017年)。在这项研究中,对每个组应用了Boruta方法。为了提高特征选择的稳定性并识别更一致的预测变量子集,对每个组迭代了20次Boruta算法,以计算所有变量的平均重要性(Meinshausen和Bühlmann,2010年;Khaire和Dhanalakshmi,2022年)。在至少10次迭代中排名前十的变量被选为SOC建模的预测变量(Szul等人,2021年)。详细排名显示在补充材料中(图A.1)。因此,分别为组1、组2、组3和组4选择了15个、14个、11个和12个变量(见图2)。

2.5. 预测模型机器学习模型已被广泛用于模拟SOC与相应环境变量之间的非线性关系(Kalambukattu等人,2018年;Zeraatpisheh等人,2019年;Wang等人,2018年)。在这项研究中,为了研究Sentinel-2数据的时间复合体的性能,采用了三种常用的模型,包括随机森林(RF)、极端梯度提升(XGBoost)和分类提升(CatBoost)。每个模型都使用Boruta算法选出的预测变量来预测四个变量组的SOC。

2.5.1. 随机森林RF是一种集成模型,它采用装袋策略生成多棵决策树,并汇总它们的预测结果以提高模型的稳健性(Breiman,2001年)。与单棵树模型不同,RF在回归任务中对所有树的输出进行平均,从而减少噪声和变异性(Rasaei和Bogaert,2019年)。每棵树都是使用数据的自助样本和随机的特征子集构建的,这有助于减轻过拟合并提高泛化性能。在之前的SOC制图研究中(Hengl等人,2015年;Castro-Franco等人,2015年),RF已被证明是各种尺度上有效的SOC预测模型。

2.5.2. XGBoostXGBoost采用梯度提升框架,依次构建决策树,每棵新树都试图纠正前一棵树的错误(Chen和Guestrin,2016年)。XGBoost结合了L1/L2正则化和基于深度的后剪枝来减少过拟合,同时提高模型的泛化能力。XGBoost的一个关键优势是它支持并行计算,能够高效利用多核CPU和GPU来加速训练(He等人,2024年)。由于其出色的预测性能和速度,XGBoost逐渐被用于SOC制图(Chen等人,2024年;Batunacun等人,2021年)。

2.5.3. CatBoostCatBoost是一种专为有效处理分类特征而设计的先进梯度提升算法(Hancock和Khoshgoftaar,2020年)。它通过高效的有序目标编码方案天生处理分类变量,在训练过程中动态优化特征表示,同时消除手动特征工程。此外,其有序提升机制依次在排列的数据分片上进行训练,防止目标泄漏,显著减少预测偏差,并提高泛化性能(Mantena等人,2023年)。尽管它在医疗和金融等领域已被证明有效,但其在农田SOC预测中的潜力尚未得到探索。

2.6. 模型评估为了实现高预测准确性,进行了全面的网格搜索,并结合5折交叉验证来确定训练数据中每个模型的关键超参数的最佳值。通过最小化验证数据集上的平均均方根误差(RMSE)来确定最佳参数集,确保对测试数据的稳健泛化。测试数据用于评估每个模型预测SOC的性能。准确性评估指标包括决定系数(R2)、RMSE和Lin的一致性相关系数(CCC)。R2和CCC的较高值结合较低的RMSE表明模型的预测准确性更高,误差更低(Ugbemuna Ugbaje等人,2024年;Wu等人,2024年)。这些指标的公式如下:(1) R2 = 1 ? ∑(yi ? yi?)2 / ∑(yi ? y?)2 (2) RMSE = 1/n ∑(yi ? yi?i)2 (3) CCC = 2ρσy?2 / (σy2 + σy?2 + (y?? ? y?)2)其中y是测量的SOC含量,y?是预测模型预测的SOC含量,n是测试样本的数量,y?和y??是测量和预测的SOC含量的平均值,ρ是测量值和预测值之间的相关系数,σy2和σy?2是相应的方差。

SOC含量的空间分布及其不确定性是使用自助法通过预测模型进行的(Wu等人,2024年)。具体来说,预测模型通过在10次自助迭代中使用训练数据来映射整个空间范围内的SOC分布。最终的SOC预测是通过平均这些结果获得的,不确定性量化为这些迭代的标准差。Shapley加性解释(SHAP)框架用于评估变量的重要性。SHAP是一种博弈论方法,用于量化预测模型中每个变量的边际贡献(Li,2022年)。它还提供了全局特征重要性排序和实例级别的解释,确保了所有模型输出之间的一致性和公平性。这种严格的变量贡献量化方法弥合了复杂模型行为和可解释性之间的差距(Lundberg和Lee,2017年;He等人,2024年)。在这项研究中,我们使用SHAP框架来确定预测模型中每个时间复合体的预测变量的相对重要性。

2.7. 裸土频率效应的统计BSF已被用作农田裸土暴露的管理相关时间指标(de Sousa等人,2024年)。在此基础上,研究SOC沿BSF空间分布的变化是很重要的。这一分析进一步评估了BSF是否捕捉到可能导致SOC空间变化的管理相关差异。BSF是根据本研究期间(3月至10月)被识别为裸土的遥感观测比例计算得出的(Nascimento等人,2021年)。为了进一步评估其对SOC变化的影响,应用了方差分析(ANOVA)方法来测试BSF类别、作物类型及其相互作用的影响。计算的BSF值被分为三类:BSF较低的类别1(0–0.25)、BSF中等的类别2(0.25–0.5)和BSF较高的类别3(0.5–1)。此外,为了最小化环境协变量的空间异质性影响,我们旨在从预测的SOC图中选择三个不确定性较低的小区域。对于每个区域,从每个BSF类别的主要作物中随机抽取200个像素进行ANOVA分析。使用了对齐秩变换ANOVA(ART-ANOVA),因为它放宽了传统ANOVA所需的正态性和同方差性假设,非常适合经常偏离这些假设的生态和土壤数据集(Wobbrock等人,2011年;Zhou等人,2021年)。

表2. 预测模型的性能评估。模型变量R2 RMSE (g/kg) CCCRF组1 0.415 12.7 26 0.559空单元格组2 0.365 13.25 20.516空单元格组3 0.203 14.849 0.281空单元格组4 0.239 14.509 0.317XGBoost组1 0.416 12.712 0.555空单元格组2 0.407 12.807 0.519空单元格组3 0.106 15.728 0.160空单元格组4 0.187 15.001 0.238CatBoost组1 0.440 12.450 0.557空单元格组2 0.417 12.703 0.535空单元格组3 0.205 14.832 0.286空单元格组4 0.282 14.095 0.38

3. 结果3.1. 预测模型的性能表2显示了三种模型在四个变量组中SOC估计的预测性能。组1在所有模型中始终显示出更好的性能指标。结果表明,在裸土时期的Sentinel-2时间复合体获得了最高的准确性,R2范围为0.415至0.440,RMSE范围为12.450 g/kg至12.726 g/kg,CCC范围为0.555至0.557。相比之下,在整个植被时期选择的变量(组3)在这三个模型中的表现最差。在所有预测模型中,CatBoost在四个组中的表现优于RF和XGBoost,特别是在组1中,表明CatBoost模型在SOC预测中实现了最高的准确性和最低的误差。与组1中的RF和XGBoost相比,CatBoost的R2分别提高了6.02%和5.77%。组1中的CatBoost模型在预测SOC方面表现出最佳性能,具有最高的R2和CCC以及最低的RMSE。

下载:下载高分辨率图像(575KB)下载:下载全尺寸图像图2. 在CatBoost模型中,组1、组2、组3和组4的变量重要性通过|SHAP|值进行量化。“_b”:裸土时期的波段或SIs,“_v”:植被覆盖时期的波段或SIs,“_e”:整个观测时期的波段或SIs。时间组合对土壤有机碳(SOC)预测的重要性
图2展示了从Boruta方法中选出的变量及其在CatBoost模型中对SOC预测的重要性排名,涵盖了四个变量组。在所有组中,光谱反射率(TN)在预测农田SOC方面具有最高的重要性。地形变量对SOC预测也有显著影响。然而,Sentinel-2光谱数据在不同观测时期的表现有所差异。在第一组中,多光谱波段对预测的贡献最大,占总贡献的35.8%。此外,一些特定指标(SIs),如裸土中的NSSI_b,也发挥了重要作用。在第二组中,基于裸土的光谱波段的重要性与第一组相当(35.7%),但从植被期选出的SIs的贡献显著降低。在这一时期,只有NSSI被Boruta认为是重要的预测因子。在第三组中,与裸土期的遥感图像相比,植被期只有B6和NSSI仍然具有影响力。在第四组中,整个观测期的光谱数据并不比裸土期的数据更显著,但表现优于植被覆盖期的数据。总体而言,裸土期光谱波段和非植被指数的时间组合在SOC预测中表现良好,而广泛使用的植被指数,如NDVI和EVI,在所有组合中通过Boruta方法进行SOC mapping时并未显示出显著结果。

3.3 土壤有机碳的空间分布
图3(a-c)显示了使用最佳变量组合组(第一组)通过CatBoost模型预测的0-20厘米深度土壤有机碳(SOC)的空间分布(分辨率为30米)。研究区域的农田SOC含量在11.92克/千克到70.55克/千克之间,第一组的平均值约为19.84克/千克。高SOC含量集中在东北部和东部沿海地区,而SOC含量低的地区则分布在西北部。SOC预测的不确定性在图3(d-f)中展示。高不确定性值主要与高SOC区域相关,尤其是在东部沿海地区。尽管一些东部地区的不确定性较高,但研究区域的大部分地区的不确定性水平较低,平均值为2.82克/千克。在低不确定性区域选择了三个小区域来研究生物土壤因子(BSF)对SOC水平的影响(见图A.2)。图4显示了研究区域内主要作物类型和BSF类别的SOC分布。总体而言,SOC分布呈右偏态,反映出强烈的空间异质性。因此,平均值受到极端值的影响较大,中位数成为衡量中心趋势的更可靠指标。中位数SOC水平最高的是大豆,其次是草类、饲料作物以及林地和灌木带的永久作物。所有这些作物的SOC含量都超过了区域平均水平,表明它们可能在土壤中储存了更多的SOC。相比之下,马铃薯、向日葵、油菜和大麦的中位数SOC水平相对较低。BSF类别中的中位数显示,低BSF类别的SOC值高于其他两个类别。这一发现表明,较短的裸土期可能有利于更大的SOC积累和稳定性。

3.4 裸土频率对SOC水平的影响
在每个选定区域,不同作物类型和BSF类别的SOC含量分布有所不同(见图A.3)。对于普通小麦、玉米和草类,在所有三个区域,低BSF类别(第一类)的SOC值 tend to 较高,而中等和高BSF类别(第二类和第三类)的SOC分布较低。在第一区域,向日葵、饲料作物和马铃薯也观察到了类似的趋势。这些发现与基于预测SOC分布得到的整个研究区域的结果一致。ART-ANOVA结果证实,BSF对SOC值有统计学上显著的负面影响(p<0.001),并且作物类型也影响了SOC(见表3)。特别是,事后检验进一步显示,BSF第一类的SOC显著高于第二类和第三类(补充材料中的表A.2)。然而,交互作用效应在三个区域并不总是显著,仅在第二区域和第三区域显著(p=0.015,p=0.014)。这些结果强调了BSF与局部尺度上SOC分布之间的高度相关关系。在分析的所有区域中,较低的BSF与较高的SOC相关。这种模式表明,保持更多地表覆盖和减少裸土暴露的种植和管理实践与较高的SOC水平相关。

4. 讨论
4.1 农田SOC预测模型的比较
本研究使用了三种机器学习模型来预测四个变量组中的农业SOC。结果显示,CatBoost在所有组中的表现都优于RF和XGBoost,表明其在土壤Dead Weight(DSM)应用中的潜力。作为比较,van Wesemael等人(2024)使用卷积神经网络预测了欧洲农田的SOC,并报告了0.41的R2值。此外,一项基于67项不同空间尺度研究的最新综述报告称,农业用地SOC预测的中位数R2为0.47。因此,尽管本研究中最好的CatBoost模型没有达到很高的预测准确性,但其性能仍在通常报告的范围内,可以视为农田SOC映射的适中水平。

然而,几个因素可能导致观察到的预测误差。不确定性的一个来源可能是不同空间分辨率预测因子的协调问题(Garosi等人,2022;Zeraatpisheh等人,2023)。尽管所有变量都调整为30米的共同网格进行像素级建模,但一些重要协变量,如SoilGrids和气候数据,最初具有较粗的分辨率。这一步预处理对于空间对齐是必要的,但粗略的预测因子无法提供精细的空间细节,可能无法完全匹配分辨率更细的Sentinel-2变量,从而可能降低了模型捕捉局部SOC变化的能力,并限制了预测准确性(Guo等人,2019)。此外,有限的样本量可能限制了模型充分表示研究区域内农田SOC空间异质性的能力。这个问题对于SOC相对较高的区域尤其相关,这些区域在当前数据集中似乎表现不佳,且与较高的预测不确定性相关(Ji等人,2024;van Wesemael等人,2024)。因此,未来的工作应该增加野外观测的数量,特别是在SOC较高的区域,以提高训练数据的代表性。此外,可以探索迁移建模方法,在样本条件有限的情况下,通过从更大规模的数据集或环境相似的区域转移有用信息来改进局部SOC预测(Shen等人,2022;Zhang等人,2025)。

4.2 不同组合中变量的相对重要性
选择图像采集日期时应考虑农田表面条件。在本研究中,裸土期的组合提供了比其他时期组合更合适的时机来预测SOC含量。第一组中的变量在三种机器学习模型中均表现出最佳的SOC预测能力。裸土反射率在解释机器学习模型中的SOC变化方面具有重要性,尤其是在RF模型中,其相对重要性占43.4%(见图A.4)。在植被覆盖期(第三组),多光谱波段的重要性急剧下降,在RF和XGBoost模型中的排名最低。这种变化表明,基于裸土的光谱波段捕获了对SOC预测有直接贡献的有效反射率。相比之下,由于植被覆盖对土壤表面的干扰,单独使用光谱波段无法准确预测SOC。此外,从裸土期(第一组)获得的SI在SOC预测中的表现优于植被覆盖期(第二组和第三组)的SI。这一发现表明,基于遥感图像的SI的重要性受土地表面动态的影响。

在裸土组合中,非植被指数(包括NSSI、NBR2和CI)在SOC预测中发挥了关键作用(见图2)。它们专门设计用于捕捉裸土特征,并与第一组中的SOC高度相关,而在植被覆盖期或整个观测期间,只有NSSI被Boruta算法选为预测因子。这证实了NBR2和CI是为裸土条件量身定制的,当植被覆盖干扰土壤反射率信号时,它们的适用性有限。无论遥感图像的采集时间如何,NSSI都是最重要的植被指数。NSSI能够有效区分非光合植被和裸土(Tian等人,2021)。非光合植被(NPV),包括凋落物、死亡植被和根系,通过改变土壤结构、养分循环和侵蚀保护显著影响SOC(Li和Guo,2018;Jackson和Prince,2016)。特别是在收获后,大量的作物残余物是农业土壤中的主要SOC资源之一。因此,在裸土期,NSSI对SOC预测有显著影响。然而,很少有先前的研究显示量化NPV可以改善农田中的SOC预测。

在植被覆盖期,SOC预测性能下降,不仅因为植被遮挡了光谱波段捕获的土壤信号,还因为传统的植被指数(如NDVI和EVI)未能提供关于SOC的可靠间接信息。它们较低的预测能力可能源于植被覆盖与土壤条件(如湿度和粗糙度)之间的复杂相互作用,这些因素掩盖了植被生长与SOC之间的关系(Castaldi,2021)。Zeraatpisheh等人(2022)报告称他们的结果与我们的研究相似。他们指出,包括NDVI、EVI和土壤调整后的总植被指数(SATVI)在内的遥感时间序列指数与SOC没有显著相关性,且每个月派生的所有SI都没有足够的潜力来提高SOC预测的准确性。建议进一步研究广泛使用的植被指数(如NDVI和EVI)在SOC预测中的有效性。

总体而言,我们的结果强调了图像采集时间对SOC预测的强烈影响。裸土期提供了清晰直接的光谱反射率,而植被覆盖引入的干扰削弱了光谱波段和传统SI的实用性。在SI中,专门为裸土设计的指数(如NSSI、NBR2和CI)最为有效,而广泛使用的植被指数(如NDVI和EVI)即使在植被覆盖期也显示出有限的预测价值。尽管遥感数据对SOC预测很重要,但其他环境协变量(如土壤特性和地形)也起着至关重要的作用,特别是在光谱数据的贡献有限时。在本研究中,光谱反射率(TN)在所有组和机器学习模型中都是最重要的变量。许多先前的研究也报告了其重要作用(Deng等人,2018;Zhang等人,2022b)。TN通过改变养分循环和微生物活动与SOC的变化密切相关(Wu,2020)。地形变量在影响SOC分布方面起着关键作用。特别是在第三组中,由于遥感数据对土壤有机碳(SOC)预测的影响较弱,地形因素成为主导因素,占所有变量的51.2%。地形影响温度、水运动和水分布,从而导致植物生长、有机物积累和分解的变化(Maleki等,2014;Zhou等,2020)。Zhou等(2020)、Ji等(2024)和Wang等(2020.4.3)的研究都强调了地形对SOC预测的重要性。

农业管理对土壤有机碳(SOC)的可持续性至关重要。在这项研究中,发现SOC与裸土频率(BSF)显著相关,表明裸土暴露频率较低的农田区域往往具有较高的SOC含量。较低的BSF通常表示植被或残茬覆盖更连续,这可以增加来自根系和作物残茬的碳输入,从而促进SOC的积累(Jian等,2020;van Wesemael等,2024)。此外,较低的BSF也意味着裸土暴露时间较短,这可以减少径流和侵蚀,有助于保持富含碳的表土(Márquez-García等,2024;Mzid等,2021)。因此,这种负相关关系可能为农田中的SOC积累提供了一个可解释的管理相关视角。具体来说,在鄱阳湖平原上,草本植物和多年生作物的SOC含量显著较高,这可能归因于它们长期的植被覆盖,导致土壤扰动较少且有机物输入持续。相比之下,马铃薯和向日葵作物的SOC含量普遍低于其他作物(表A.3),这可能与它们的生长周期较短和裸土时间较长有关(Carter等,2003)。这些结果表明,对于收获后裸土时间较长的短季作物,管理应重点关注休耕期间,通过保持地表覆盖来缩短裸土时间并可能降低BSF。残茬保持和覆盖作物是在非植被期间维持地表覆盖的两种广泛采用的实际策略,可以减少裸土暴露并提供有机碳输入,从而通过微生物作用支持SOC的形成(Aertsens等,2013;Lal,2004)。交互作用效应的后分析表明,在低BSF条件下(第一类),普通小麦、玉米和向日葵作物的SOC含量高于高BSF条件下的SOC含量(表A.4)。减少土壤暴露可能有助于提高农田系统的SOC。

此外,合理的作物轮作设计可以提供额外的途径来维持地表覆盖,并通过改善土壤结构、养分循环和害虫管理来促进长期农业可持续性和碳封存(Cortignani和Dono,2020)。在鄱阳湖平原,轮作设计对于SOC管理尤为重要,因为它提供了一种将保持覆盖的阶段与高扰动阶段结合起来的实际方法。例如,大豆可以作为有价值的轮作作物,在我们的研究区域显示出相对较高的SOC含量。通过引入豆科作物阶段,轮作可以通过生物固氮作用支持土壤肥力,并可能减少后续作物的强烈土壤操作需求,这对维持SOC很重要(Drinkwater等,1998)。这对于以高扰动作物为主的系统(如马铃薯、甜菜、油菜和玉米)尤为重要,因为这些作物可能会加速SOC的矿化并限制碳积累(West和Post,2002;Merante等,2017;Piccoli等,2016)。因此,将大豆(或其他豆科作物)纳入轮作中可以帮助抵消SOC损失,通过改善养分供应和支持整个轮作周期中的连续覆盖和有机输入。先前的研究表明,将马铃薯与豆科作物或谷物轮作可以打破害虫循环,并从固氮作物中受益,从而提高土壤肥力并促进SOC的稳定性(Nelson等,2009)。

近年来,气候变化加剧了鄱阳湖平原干旱的频率和严重程度,给当地农业系统带来了更大的压力。在干燥和变化较大的条件下,长时间的裸土暴露会加剧土壤水分流失和退化风险,使得SOC的维持变得更加困难(Caddeo等,2019;Xie等,2024)。在这方面,本研究观察到的SOC与BSF之间的显著关联表明,减少裸土暴露是限制农田中SOC损失的关键管理措施。因此,应推广优先减少裸土暴露的农田管理策略,特别是在集约化种植区域和短季作物系统中。包括残茬保持、覆盖作物和多样化轮作在内的管理策略对于维持SOC和提高鄱阳湖平原农田的韧性可能变得越来越重要(Perego等,2019;Li等,2024;Corbari等,2019)。总体而言,使用BSF作为与管理相关的时间指标可以支持有针对性的作物规划和土地管理,以增强SOC和气候韧性。

在这项研究中,我们进一步探讨了在训练好的CatBoost模型中添加BSF类别是否可以提高SOC预测能力,利用其处理分类预测因子的能力(Hancock和Khoshgoftaar,2020)。然而,将BSF纳入第一组并没有显著改善基线模型(R2 = 0.437,RMSE = 12.485,CCC = 0.560)。这一结果可能反映了BSF捕获的信息与现有光谱变量和指数中的信息存在重叠。此外,由于样本数量有限,尽管在ART-ANOVA分析中作物类型与SOC显示出显著关联,但其预测贡献受到作物类别分布极度不平衡的限制,某些类型的作物在样本集中代表性不足或缺失。当这些分类预测因子在数据集中得到更好的表示和处理时,它们的预测准确性可能需要进一步测试。农业活动在塑造SOC动态方面发挥着越来越重要的作用(Herzfeld等,2021)。未来的研究可以进一步探索BSF与其他管理变量在机器学习模型中的相互作用,确保有足够的样本来使用统一的农业统计数据或精确的作物地图平衡作物类型的代表性。除了获取间接指标外,未来的研究还应结合遥感数据、田间观测和管理相关记录,以获得更多关于农业活动和作物条件的直接和动态信息。例如,可以将作物产量、作物氮含量和其他作物生长特性等变量纳入SOC映射中,以更好地捕捉与管理相关的SOC变化(Huang等,2022)。

总之,这项研究表明,采集时间对基于遥感的农田SOC制图至关重要。来自裸土期的Sentinel-2合成图像为SOC预测提供了最丰富的信息,其中NSSI始终是一个关键的预测因子,而NDVI和EVI在这个场景中的作用较小。CatBoost模型生成了高分辨率的SOC地图,显示大豆田的SOC水平最高。此外,本研究引入了BSF作为一个与管理相关的时间指标,它与多种作物类型的SOC呈负相关,裸土频率较低的类别通常显示较高的SOC含量。总体而言,这项工作强调了采集时间在基于遥感的SOC制图中的重要性。高分辨率的SOC地图和BSF研究为SOC分布提供了新的见解,并为鄱阳湖平原的可持续农业管理规划提供了宝贵的指导。

作者贡献声明:
- Xiande Ji:写作 – 审稿与编辑、撰写初稿、可视化、验证、项目管理、调查、资金获取、正式分析、数据管理、概念化。
- R. Venkatesha Prasad:写作 – 审稿与编辑、监督。
- Binyuan Liu:写作 – 审稿与编辑、资金获取。
- Balamuralidhar Purushothaman:写作 – 审稿与编辑、监督、概念化。
- P.V. Aravind:监督。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号