土壤厚度是一个基本的土壤属性,对广泛的生态系统过程和人类活动有着深远的影响。它控制着土壤水分的储存和运动(Cusano等人,2024;Swenson和Lawrence,2015),以及景观演化(?amonil等人,2020),还影响植被生长和农业生产力(Bernard-Verdier等人,2012)。同时,它是地球系统和全球变化建模中的关键输入参数(Fan等人,2019)。在以岩石沙漠化和薄土层为特征的喀斯特地区,土壤厚度尤为重要,因为它直接关系到生态稳定性和人类生计(D'Ettorre等人,2024;Jiang等人,2020;Wang等人,2019)。
尽管土壤厚度非常重要,但获取准确且空间详细的土壤厚度数据仍然是一个重大挑战。传统的基于野外调查的方法通常劳动强度大、成本高且效率低下,且无法捕捉到大范围或异质区域的土壤厚度空间异质性。非破坏性技术(如地面穿透雷达、电阻率层析成像)具有潜力,但在大规模应用中受到限制(Zhang等人,2025;Luo等人,2024)。因此,迫切需要高效准确的土壤厚度测绘方法。喀斯特地貌代表了土壤高度异质环境的典型例子。由于强烈的岩石溶解作用和复杂的生态动态,土壤分布通常不连续,土壤层薄且不稳定,容易受到侵蚀和退化(D'Ettorre等人,2024;Jiang等人,2014;Wang等人,2019;Wang等人,2004)。这些特点给准确的土壤厚度测绘带来了重大挑战。
地理空间技术、机器学习和遥感的快速发展使得数字土壤测绘(DSM)成为生成空间连续土壤信息的一种变革性方法(McBratney等人,2003)。DSM主要涉及建立将土壤观测与环境协变量关联的定量模型,这些协变量作为土壤形成因素的代理(Minasny等人,2016)。为了解决喀斯特地区的土壤厚度测绘问题,研究人员探索了多种DSM方法,包括空间插值(Yin等人,2014)、灰色关联分析结合逐步多元线性回归(Yang等人,2014)、基于伽马分布的概率模型(Cusano等人,2024),以及机器学习(ML)技术,如随机森林(RF)、支持向量机(SVM)和人工神经网络(ANN)(Zhang等人,2020,Zhang等人,2022;Wang等人,2022;Fang等人,2025;Chen等人,2025;Zhou等人,2025)及其集成模型(例如回归克里金法)(Scarpone等人,2016),为喀斯特地区的土壤厚度预测提供了重要参考。
在上述建模技术中,ML技术得到了越来越广泛的应用(Fang等人,2025;Zhou等人,2025;Chen等人,2025),其核心优势在于能够有效处理环境数据与土壤厚度之间的复杂和非线性关系。然而,ML在DSM中的性能主要受两个关键因素的限制:算法选择和环境协变量筛选(Khaledian和Miller,2020)。喀斯特环境的复杂性给这两个因素的优化带来了额外挑战,其中合理筛选环境协变量尤为重要(Fang等人,2025;Zhou等人,2025)。现有研究表明,协变量选择必须同时考虑与目标土壤属性的相关性、数据可获取性(Nussbaum等人,2018;Temme等人,2022)和区域特异性(Zhu等人,2025),因为准确捕捉土壤空间异质性的环境特征可以提升模型预测性能(Dharumarajan等人,2021;Gupta等人,2024;Ryland等人,2020)。在相对均匀的区域,少数协变量就可以充分解释土壤厚度的空间变化(Zhu等人,2025)。相比之下,在高度异质的喀斯特地貌中,强烈的岩石溶解作用和复杂的生态动态导致土壤层浅且不稳定,极易受到侵蚀和退化。这一过程加剧了基岩暴露,进一步恶化了岩石沙漠化;反过来,加剧的岩石沙漠化又破坏了土壤结构,加速了土壤流失,形成了一个自我强化的恶性循环(Wang等人,2004;Jiang等人,2014;D'Ettorre等人,2024)。这种反馈机制表明,岩石沙漠化指标可以整合侵蚀和基岩暴露的累积效应,有效反映土壤厚度的空间变化特征,在土壤厚度预测中具有巨大潜力(Scarpone等人,2016;Zhang等人,2020;Luo等人,2024)。此外,最近在岩石沙漠化监测技术方面的进展使得将这些信息作为关键环境协变量整合到喀斯特地区的大规模土壤测绘中成为可能(Fang等人,2025)。然而,大多数现有的土壤厚度建模研究忽略了这一关键因素;尽管一些研究尝试将岩石沙漠化状态作为响应变量(Scarpone等人,2016;Malone和Searle,2020)或环境协变量(Fang等人,2025;Karlsson等人,2014)纳入模型,但其对预测性能的影响程度及其与不同ML算法的交互作用仍不清楚。
在算法选择方面,许多研究比较了不同ML方法的性能,但尚未就最佳方法达成共识。每种算法都有其优势和局限性:例如,简单的线性回归方法具有很强的可解释性和高计算效率(Karlsson等人,2014;Patton等人,2018),但无法捕捉土壤形成的复杂非线性关系(Hengl等人,2004)。相比之下,集成决策树算法随机森林(RF)表现出强大的泛化能力和抗噪声能力(Breiman,2001),但像XGBoost和其他非线性算法一样,它常被视为“黑箱模型”,可解释性较差(Wadoux和Molnar,2022)。实际上,没有一种适用于所有土壤环境的通用最优算法(Khaledian和Miller,2020;Guevara等人,2018)。为了弥补单一模型的不足,基于堆叠的集成学习作为一种有前景的解决方案出现(Wolpert,1992)。它通过元模型整合多个基础模型的预测结果,从而利用了多种算法的优势,提高了整体预测性能。研究表明,集成模型可以显著提高地理空间建模的准确性和稳健性(Zandi等人,2022;Dasgupta等人,2023;Taghizadeh-Mehrjardi等人,2021)。通过结合具有不同学习机制的模型,集成模型可以降低预测不确定性并提高泛化能力,使其成为DSM的宝贵工具。
当前喀斯特地区土壤厚度预测研究中的另一个关键研究空白是缺乏全面的不确定性分析和模型可解释性评估(Zhu等人,2025;Wadoux和Molnar,2022;Chen等人,2022)。在喀斯特地区,这两个方面的研究尤为重要:一方面,该地区土壤厚度的高空间异质性显著增加了预测不确定性,因此量化不确定性是支持可靠决策的先决条件(Cusano等人,2024;Wang等人,2019);另一方面,ML模型的“黑箱”特性使得其内部机制难以解释。这种可解释性分析不仅有助于提出关于土壤演化过程的科学假设(Wadoux和Molnar,2022),还有助于揭示喀斯特地貌中土壤厚度变化的关键环境驱动因素,为优化生态恢复和土壤管理策略提供重要指导。没有这样的分析,预测结果的实际价值将大大降低,阻碍了对政策制定者和土地管理者的有效支持。
总之,在喀斯特地区应用ML进行土壤厚度预测方面仍存在显著的知识空白,特别是在环境变量选择、模型算法选择、不确定性估计和模型可解释性方面。本研究的目的是通过以下方法优化喀斯特地区的土壤厚度预测:(1)引入岩石沙漠化信息指数(RIs)作为环境协变量,评估其对模型准确性的影响;(2)比较各种ML算法的性能,包括集成模型,以确定最佳的土壤厚度预测算法;(3)将不确定性分析和模型可解释性技术整合到表现最佳的模型中,从而提供代表性的土壤厚度地图,支持喀斯特地区的可持续土壤管理。