将集成学习方法与岩石沙漠化指数相结合,可以提高喀斯特地貌地区土壤厚度预测的准确性和可解释性

《CATENA》:Integrating ensemble learning and rocky desertification indices improves accuracy and interpretability of soil thickness prediction in karst landscapes

【字体: 时间:2026年02月07日 来源:CATENA 5.7

编辑推荐:

  土壤厚度预测方法优化及不确定性分析在喀斯特地区研究。通过整合可解释机器学习与岩石沙漠化信息指数,构建的集成模型显著提升预测精度(R2=0.47),并揭示地形、植被覆盖和岩层裸露为关键驱动因素。研究采用基模型堆叠(包括随机森林、支持向量机等)结合线性回归元模型,通过Shapley解释和不确定性评估验证模型可靠性,为喀斯特地区土壤管理提供决策支持。

  
方发勇|子瑞怡|陈廷生|朱启莲|韩臻|侯瑞|余万洋|赵龙山
贵州大学林业学院,中国贵阳550025

摘要

土壤厚度是水文分异、生态系统功能和生物地球化学循环的关键参数,在复杂的喀斯特地貌中对其进行空间预测具有挑战性——这受到高异质性、复杂的自然/人为影响以及岩石沙漠化过程的阻碍。本文将可解释的机器学习(ML)与岩石沙漠化信息指数(RIs)相结合,以提高典型喀斯特地区的土壤厚度预测能力。我们评估了六个单独的ML模型和三个集成模型(包含/不包含RIs)。RIs显著提升了模型的解释能力和一致性(平均提高了7%,范围为4%–11%),捕捉到了与喀斯特特定土壤退化过程相关的土壤厚度异质性。集成模型降低了均方根误差(RMSE)(1.33–2.95厘米)和平均绝对误差(MAE)(0.99–2.73厘米);以线性回归为元模型的集成模型表现最佳(R2 = 0.47,RMSE = 31.50厘米),而Cubist基础模型的准确率最高(CCC = 0.63,R2 = 0.45)。Shapley加性解释和排列特征重要性突出了主要驱动因素(岩石暴露度、植被覆盖度和地形),提高了模型的透明度。不确定性评估(预测区间宽度和预测区间比率)验证了模型的稳健性,并识别出高不确定性区域(陡峭地形、严重岩石沙漠化、模型不一致性和采样稀疏)。我们提出的整合RIs的模型改进了喀斯特地区的土壤厚度预测,为类似复杂地貌提供了可扩展的框架,加深了对喀斯特系统中土壤形成过程的理解,从而为区域土壤管理实践提供了有针对性的决策支持。

引言

土壤厚度是一个基本的土壤属性,对广泛的生态系统过程和人类活动有着深远的影响。它控制着土壤水分的储存和运动(Cusano等人,2024;Swenson和Lawrence,2015),以及景观演化(?amonil等人,2020),还影响植被生长和农业生产力(Bernard-Verdier等人,2012)。同时,它是地球系统和全球变化建模中的关键输入参数(Fan等人,2019)。在以岩石沙漠化和薄土层为特征的喀斯特地区,土壤厚度尤为重要,因为它直接关系到生态稳定性和人类生计(D'Ettorre等人,2024;Jiang等人,2020;Wang等人,2019)。
尽管土壤厚度非常重要,但获取准确且空间详细的土壤厚度数据仍然是一个重大挑战。传统的基于野外调查的方法通常劳动强度大、成本高且效率低下,且无法捕捉到大范围或异质区域的土壤厚度空间异质性。非破坏性技术(如地面穿透雷达、电阻率层析成像)具有潜力,但在大规模应用中受到限制(Zhang等人,2025;Luo等人,2024)。因此,迫切需要高效准确的土壤厚度测绘方法。喀斯特地貌代表了土壤高度异质环境的典型例子。由于强烈的岩石溶解作用和复杂的生态动态,土壤分布通常不连续,土壤层薄且不稳定,容易受到侵蚀和退化(D'Ettorre等人,2024;Jiang等人,2014;Wang等人,2019;Wang等人,2004)。这些特点给准确的土壤厚度测绘带来了重大挑战。
地理空间技术、机器学习和遥感的快速发展使得数字土壤测绘(DSM)成为生成空间连续土壤信息的一种变革性方法(McBratney等人,2003)。DSM主要涉及建立将土壤观测与环境协变量关联的定量模型,这些协变量作为土壤形成因素的代理(Minasny等人,2016)。为了解决喀斯特地区的土壤厚度测绘问题,研究人员探索了多种DSM方法,包括空间插值(Yin等人,2014)、灰色关联分析结合逐步多元线性回归(Yang等人,2014)、基于伽马分布的概率模型(Cusano等人,2024),以及机器学习(ML)技术,如随机森林(RF)、支持向量机(SVM)和人工神经网络(ANN)(Zhang等人,2020,Zhang等人,2022;Wang等人,2022;Fang等人,2025;Chen等人,2025;Zhou等人,2025)及其集成模型(例如回归克里金法)(Scarpone等人,2016),为喀斯特地区的土壤厚度预测提供了重要参考。
在上述建模技术中,ML技术得到了越来越广泛的应用(Fang等人,2025;Zhou等人,2025;Chen等人,2025),其核心优势在于能够有效处理环境数据与土壤厚度之间的复杂和非线性关系。然而,ML在DSM中的性能主要受两个关键因素的限制:算法选择和环境协变量筛选(Khaledian和Miller,2020)。喀斯特环境的复杂性给这两个因素的优化带来了额外挑战,其中合理筛选环境协变量尤为重要(Fang等人,2025;Zhou等人,2025)。现有研究表明,协变量选择必须同时考虑与目标土壤属性的相关性、数据可获取性(Nussbaum等人,2018;Temme等人,2022)和区域特异性(Zhu等人,2025),因为准确捕捉土壤空间异质性的环境特征可以提升模型预测性能(Dharumarajan等人,2021;Gupta等人,2024;Ryland等人,2020)。在相对均匀的区域,少数协变量就可以充分解释土壤厚度的空间变化(Zhu等人,2025)。相比之下,在高度异质的喀斯特地貌中,强烈的岩石溶解作用和复杂的生态动态导致土壤层浅且不稳定,极易受到侵蚀和退化。这一过程加剧了基岩暴露,进一步恶化了岩石沙漠化;反过来,加剧的岩石沙漠化又破坏了土壤结构,加速了土壤流失,形成了一个自我强化的恶性循环(Wang等人,2004;Jiang等人,2014;D'Ettorre等人,2024)。这种反馈机制表明,岩石沙漠化指标可以整合侵蚀和基岩暴露的累积效应,有效反映土壤厚度的空间变化特征,在土壤厚度预测中具有巨大潜力(Scarpone等人,2016;Zhang等人,2020;Luo等人,2024)。此外,最近在岩石沙漠化监测技术方面的进展使得将这些信息作为关键环境协变量整合到喀斯特地区的大规模土壤测绘中成为可能(Fang等人,2025)。然而,大多数现有的土壤厚度建模研究忽略了这一关键因素;尽管一些研究尝试将岩石沙漠化状态作为响应变量(Scarpone等人,2016;Malone和Searle,2020)或环境协变量(Fang等人,2025;Karlsson等人,2014)纳入模型,但其对预测性能的影响程度及其与不同ML算法的交互作用仍不清楚。
在算法选择方面,许多研究比较了不同ML方法的性能,但尚未就最佳方法达成共识。每种算法都有其优势和局限性:例如,简单的线性回归方法具有很强的可解释性和高计算效率(Karlsson等人,2014;Patton等人,2018),但无法捕捉土壤形成的复杂非线性关系(Hengl等人,2004)。相比之下,集成决策树算法随机森林(RF)表现出强大的泛化能力和抗噪声能力(Breiman,2001),但像XGBoost和其他非线性算法一样,它常被视为“黑箱模型”,可解释性较差(Wadoux和Molnar,2022)。实际上,没有一种适用于所有土壤环境的通用最优算法(Khaledian和Miller,2020;Guevara等人,2018)。为了弥补单一模型的不足,基于堆叠的集成学习作为一种有前景的解决方案出现(Wolpert,1992)。它通过元模型整合多个基础模型的预测结果,从而利用了多种算法的优势,提高了整体预测性能。研究表明,集成模型可以显著提高地理空间建模的准确性和稳健性(Zandi等人,2022;Dasgupta等人,2023;Taghizadeh-Mehrjardi等人,2021)。通过结合具有不同学习机制的模型,集成模型可以降低预测不确定性并提高泛化能力,使其成为DSM的宝贵工具。
当前喀斯特地区土壤厚度预测研究中的另一个关键研究空白是缺乏全面的不确定性分析和模型可解释性评估(Zhu等人,2025;Wadoux和Molnar,2022;Chen等人,2022)。在喀斯特地区,这两个方面的研究尤为重要:一方面,该地区土壤厚度的高空间异质性显著增加了预测不确定性,因此量化不确定性是支持可靠决策的先决条件(Cusano等人,2024;Wang等人,2019);另一方面,ML模型的“黑箱”特性使得其内部机制难以解释。这种可解释性分析不仅有助于提出关于土壤演化过程的科学假设(Wadoux和Molnar,2022),还有助于揭示喀斯特地貌中土壤厚度变化的关键环境驱动因素,为优化生态恢复和土壤管理策略提供重要指导。没有这样的分析,预测结果的实际价值将大大降低,阻碍了对政策制定者和土地管理者的有效支持。
总之,在喀斯特地区应用ML进行土壤厚度预测方面仍存在显著的知识空白,特别是在环境变量选择、模型算法选择、不确定性估计和模型可解释性方面。本研究的目的是通过以下方法优化喀斯特地区的土壤厚度预测:(1)引入岩石沙漠化信息指数(RIs)作为环境协变量,评估其对模型准确性的影响;(2)比较各种ML算法的性能,包括集成模型,以确定最佳的土壤厚度预测算法;(3)将不确定性分析和模型可解释性技术整合到表现最佳的模型中,从而提供代表性的土壤厚度地图,支持喀斯特地区的可持续土壤管理。

研究区域

研究区域位于中国西南部的喀斯特地区(图1),具体来说是贵州中部喀斯特高原,面积约为54,000平方公里。这是长江和珠江流域土壤资源保护的关键区域,也起到了生态安全屏障的作用。地形从西向东倾斜,海拔范围从275米到2309米(平均值:1170米)。该地区属于亚热带季风气候,年平均温度约为15摄氏度。

模型性能评估与比较

图2显示了六个基础模型和三种不同集成策略的集成模型的性能。在模型解释能力方面,集成模型通常表现出最高的性能。三个集成模型的R2值高于基础模型,CCC值也呈现出类似的趋势。在集成模型中,使用线性模型作为元模型的集成模型(ST_LM)具有最佳的解释能力,其CCC值最高。

环境限制因素在喀斯特地区土壤厚度预测中的重要性

土壤生产与侵蚀之间的平衡决定了土壤厚度(Heimsath等人,1997),这种平衡主要受气候、地形、生物和其它相关因素的影响(McBratney等人,2003;Jenny,1941)。土壤属性之间存在相互依赖性(Van Der Westhuizen等人,2023),早期研究的土壤属性数据在本研究中显示出很高的重要性。早期研究的土壤属性地图提供了全面的信息存储资源。

结论

在复杂的地质环境中,协变量选择和模型选择对于准确的土壤厚度预测至关重要。结合与喀斯特岩石沙漠化相关的专门环境变量不仅突出了喀斯特地貌独特的土壤厚度特征,还解释了土壤厚度空间异质性的更大比例,从而显著提高了土壤厚度预测的准确性。集成模型

CRediT作者贡献声明

方发勇:写作——审稿与编辑,原始草稿撰写,方法论研究。子瑞怡:研究工作。陈廷生:研究工作。朱启莲:可视化处理。韩臻:写作——审稿与编辑。侯瑞:写作——审稿与编辑。余万洋:软件开发。赵龙山:写作——审稿与编辑,项目监督,项目管理,方法论研究,资金获取,正式分析,概念构思。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本研究得到了中国国家自然科学基金(42367045;42577378)、贵州省高层次创新人才项目(QKHPTRC-GCC[2023]015)和贵州省关键技术研发计划(QKHZC[2022]YB202)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号