细粒土壤中饱和水力传导率估计的改进方法:基于投票回归集成框架

《Journal of Hydrology》:Enhanced saturated hydraulic conductivity estimation in fine-grained soils: a voting regressor ensemble framework

【字体: 时间:2026年02月01日 来源:Journal of Hydrology 6.3

编辑推荐:

  准确预测饱和水力传导率(k_s)对水文、农业及污染物迁移建模至关重要。本研究通过SMOTE数据增强技术,对比XGBoost、CatBoost、随机森林(RF)、基因表达式编程(GEP)、支持向量机(SVM)和多层感知机(MLP)六种算法预测k_s的性能,发现SVM、MLP和GEP泛化能力最优。进一步提出基于投票回归器(VR)的混合模型,整合SVM、MLP和GEP优势,在细粒土k_s预测中实现R2=0.992和RMSLE=0.049 cm/s的优异性能,超越传统理论模型。该成果为精准灌溉和地下水污染评估提供可靠工具。

  
张红|高宇|孙德安
宁波大学土木与环境工程与地理科学学院,中国宁波315211

摘要

准确预测饱和水力传导系数(ks)对水文学、农业和污染物建模至关重要。传统的实验室方法成本高昂且耗时较长,而理论模型缺乏适应性,需要复杂的校准过程。为了解决这些问题,本研究使用合成少数类过采样技术,在一个扩展的数据集上比较了六种机器学习算法预测ks的性能:极端梯度提升(XGBoost)、分类提升(CatBoost)、随机森林(RF)、基因表达编程(GEP)、支持向量机(SVM)和多层感知器(MLP)。结果表明,XGBoost、RF和CatBoost存在严重的过拟合现象,外推能力较差。相比之下,SVM、MLP和GEP表现出更强的泛化能力,表明它们能够有效捕捉物理规律。为了进一步提高预测的稳健性,提出了一种基于投票回归器(VR)框架的混合集成方法,该方法整合了SVM、MLP和GEP的最佳基础模型;这种方法在插值和外推场景中均显著提高了准确性。所提出的VR模型仅使用基本的土壤物理参数就能准确模拟不同类型土壤的ks。与传统的理论模型相比,其性能更优(R2?=?0.992,RMSLE?=?0.049?cm/s),这一点已通过文献中的实测数据得到验证。这项研究为农业精准灌溉管理和地下水污染风险评估提供了可靠的计算工具。

引言

土壤饱和水力传导系数(ks)的研究与水文过程密切相关,包括优化农业灌溉、增强地下水补给以及理解污染物迁移(Mansour等人,2011年;Phogat等人,2013年;Aguilera等人,2022年;Bwambale等人,2022年)。这些过程对于理解水资源的可持续性至关重要(Kosugi等人,2006年;Abou Najm等人,2021年;Yang等人,2023年)。ks是一个受微观结构因素(如孔隙结构、迂曲度和颗粒大小分布)影响的土壤关键性质(Chapuis和Aubertin,2003年;Fueki等人,2004年;Ren和Santamarina,2018年;Zhang等人,2024年;Yu等人,2025年)。因此,准确确定ks对于环境和农业工程应用至关重要。
常用的实验室技术(如恒定水头试验和跌落水头试验(Sandoval等人,2017年;Boada等人,2020年)以及基于现场的方法(包括抽水试验和张力渗透法)被用来测定ks(Riggert等人,2019年;Picciafuoco等人,2019年;Waleed等人,2025年)。然而,这些方法可能耗时、成本高昂,并且容易受到尺度依赖性误差的影响(Godoy等人,2018年;Arshad等人,2020年;Castellini等人,2024年)。为了解决这些问题,许多理论模型被开发出来,其中Kozeny-Carman模型(Carman,1939年)是最著名的之一。随后,基于这一基础模型,ks预测模型得到了改进(Mbonimpa等人,2002年;Wang等人,2021年;Ruan和Fu,2022年;Li等人,2023年;Gao等人,2024年)。尽管这些模型能够较好地预测ks,但复杂参数的校准限制了它们的应用范围。
开发一种简单快速的ks预测方法至关重要。ROSETTA是一种旨在快速估算土壤水力参数的工具(Schaap等人,2001年;W?sten等人,2001年;Pachepsky等人,2006年)。虽然它常被描述为物理模型,但实际上它更像是一个经验模型,将输入变量(如土壤质地和其他基本土壤性质)与输出参数(如ks)相关联。其核心原理是建立统计关系来预测水力性质。ROSETTA的主要优势是输入要求少(只需几个土壤参数)和解释性强(Zhang和Schaap,2017年;Araya和Ghezzehei,2019年)。然而,其预测准确性受到模型所做简化假设的限制。
最近的研究表明,利用机器学习(ML)模拟非线性数据可以显著提高ks的预测准确性,通过有效调整土壤性质与水力行为之间的复杂关系。Singh等人(2020年)开发了一种结合小波变换和ML算法的创新集成方法,包括随机森林(RF)和多层感知器(MLP),基于物理性质预测ks>,从而提高了预测准确性。Li等人(2023年)系统评估了六种ML模型(如支持向量机(SVM)和人工神经网络(ANN)预测钠基膨润土土工合成粘土衬里的ks的能力。最近,Taherdangkoo等人(2024年)引入了一种结合遗传优化的受限分类提升(CatBoost)算法,旨在实现物理约束下的ML算法预测膨润土的非饱和水力传导系数。此外,许多集成算法框架(如堆叠泛化(Preethaa等人,2022年;Luo等人,2023年);加权平均集成(Jamshidi等人,2023年);投票回归器(VR)(Li等人,2024年);特征权重线性堆叠(Li等人,2024年))被用于提高环境和农业工程应用中的算法准确性。集成算法框架通过整合多个基础学习器的优势,显著提升了模型性能,从而提高了预测准确性和泛化能力(Li等人,2024年;Hosseini等人,2025年;Sun等人,2025年)。这些方法解决了单个模型的缺点,包括过拟合、高方差和偏差。目前预测ks的方法通常使用单一算法(如RF、SVM或MLP),未能充分利用集成框架的优势。这一空白为研究集成技术是否可以进一步提高水力行为的预测准确性提供了宝贵机会。
本研究的目的是评估通过VR集成框架预测ks所能实现的性能提升。首先,使用合成少数类过采样技术(SMOTE)在扩展的ks数据集上评估了六种ML算法的性能。此外,还全面评估了这六种ML算法的泛化能力,包括ks与干密度的关系以及外推预测。最后,为了进一步提高预测的稳健性,提出了一种结合SVM、MLP和基因表达编程(GEP)算法的最佳组合搜索的VR集成框架,并在文献中收集的土壤样本的ks值上进行了验证。这项研究为农业精准灌溉管理和地下水污染风险评估提供了可靠的计算工具。

数据收集

本研究中的ks测试数据来源于Gao等人(2024年)发表的文献,重点研究了细粒土壤的ks。根据ASTM D2487-17统一土壤分类系统(USCS),这些土壤的定义是颗粒大小小于0.075毫米(200号筛)的比例超过50%,主要由粉粒(0.002–0.075毫米)和粘粒(<0.002毫米)组成,沙粒含量通常低于50%,而粉粒/粘粒含量超过50%。该数据集包含171个数据点。

模型超参数调优

超参数调优对于优化ML模型性能至关重要。有效的超参数调优还能提高泛化能力并减少过拟合(Hutter等人,2011年;Bergstra和Bengio,2012年;Belete和Huchaiah,2021年)。在本研究中,采用了网格搜索方法来确定每个模型的最佳超参数值。为了确保可重复性,每次模型运行都使用了固定的随机种子。
每个模型的最佳超参数值列在表7中。

结论

本研究采用了六种ML算法和VR框架来开发细粒土壤ks的预测模型。主要发现总结如下:
  • (1)
    SMOTE被证明可以有效扩展数据集并减轻类别不平衡问题。随后的SHAP可解释性分析验证了ρdIP的关键指标表现出与土壤渗透性理论一致的影响模式。
  • (2)
    SVM和MLP在预测
  • 未引用参考文献

    ASTM International,2017年;Firoozi和Firoozi,2023年;Li等人,2024年;Li等人,2023年;Schober等人,2018年。

    CRediT作者贡献声明

    张红:撰写——原始草稿、方法论、研究、正式分析、概念化。 高宇:撰写——审阅与编辑、撰写——原始草稿、监督、资金获取、概念化。 孙德安:撰写——审阅与编辑、验证、监督、概念化。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文的研究工作。

    致谢

    作者感谢国家自然科学基金(编号:42272312)和宁波青年科技创新人才项目(编号:2024QL057)提供的资助。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号