基于符号回归的颗粒土壤渗透系数预测方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于符号回归的颗粒土壤渗透系数预测方法

《Engineering Geology》：Symbolic regression-based prediction of coefficient of permeability for granular soils

【字体：大中小】 时间：2026年01月30日 来源：Engineering Geology 8.4

编辑推荐：

　　本研究利用全球1278个样本的符号回归方法，开发出仅基于D10和D60颗粒尺寸参数的饱和颗粒土渗透系数预测公式，其平均绝对误差为0.419，优于现有十种模型，并通过独立数据集和实验室测试验证了其可靠性和普适性。

作者：杨艺琳（Yerim Yang）、崔亨硕（Hangseok Choi）、金允硕（Younseo Kim）、权基范（Kibeom Kwon）所属部门：韩国大学土木、环境与建筑工程系，首尔02841，韩国

摘要

预测颗粒土壤的渗透系数对于有效的地下水流动分析至关重要。然而，现有的预测模型往往受到数据集有限和缺乏可解释公式的限制。本研究利用符号回归方法，基于一个包含1278个样本的大规模全球数据库（CG/KAST/7/1278），开发了一个用于饱和颗粒土壤渗透系数的预测公式。探索性数据分析明确了颗粒大小和体积状态参数对土壤渗透性的单独及综合影响，从而指导了关键预测因子的选择。符号回归系统地探索了函数形式并优化了系数，最终得到了一个仅基于颗粒大小参数的封闭形式表达式。与十个现有模型相比，所提出的公式表现出更优的预测性能，其平均绝对误差最低为0.419。通过在整个渗透范围内的最小化过度预测和低估情况，进一步证明了其预测的稳定性。使用独立数据集进行的外部验证以及实验室渗透测试也证实了其通用性。总之，本研究提出了一个通用且易于解释的公式，有助于加深对颗粒土壤流动行为的理解，并改进了实际的渗透性估算方法。

引言

渗透系数（k）是量化土壤通过孔隙空间传输水能力的基本属性。根据达西定律，在特定的水力梯度条件下，流体通过饱和多孔介质的流速与k成正比。准确确定土壤渗透性对于广泛的工程和环境应用至关重要，包括地下水流动建模、污染物传输评估、排水系统设计以及边坡稳定性分析（Liu等人，2021；Rehman等人，2022；Eid等人，2023；Che等人，2025）。尽管可以通过示踪剂、抽水或脉冲试验直接在现场测量k，但这些方法通常成本高昂、耗时较长，并且受到严格的初始和边界条件的限制（Kotlar等人，2019；Kumar和Ahuja，2025）。因此，已经开发了几种基于更易测量的土壤属性来估算k的间接方法，这突显了高效可靠渗透性预测的实际重要性。土壤渗透性通常受内在土壤属性的影响，如颗粒大小分布（Liu等人，2025）、孔隙比（Amiri等人，2023）、含水量（Xu等人，2024）和矿物组成（Fang等人，2024）。颗粒土壤（即沙子和砾石）的渗透行为与细粒土壤有根本不同。在颗粒土壤中，渗流主要受颗粒大小分布和堆积几何形状的控制，而在细粒土壤中，则受到结构、矿物组成和应力历史的影响（Tang等人，2023；Nikbakht等人，2024）。在工程实践中，颗粒土壤尤为重要，因为它们是含水层的主要组成部分，并且常见于堤坝和水力结构的基础中。鉴于颗粒土壤的区域特征和工程重要性，开发专门针对颗粒土壤的预测框架是必要的。许多研究提出了基于实验方法的颗粒土壤k的估算经验模型（Hazen，1892；Terzaghi，1925；Kozeny，1927；Carman，1937；Beyer，1964；Navy，1971；Amer和Awad，1974；Chapuis等人，1989；Chapuis，2004，Chapuis，2012）。然而，由于这些模型依赖于数据范围狭窄的有限数据集，其预测结果往往与实际值存在显著偏差。例如，尽管Hazen模型是最广泛使用的模型之一，但它仅适用于纯净、均匀的沙子，无法捕捉土壤均匀性的变化，因为它仅依赖D10（即有效颗粒大小）作为单一独立变量。近年来，计算技术的进步激发了利用机器学习（ML）方法开发k预测模型的兴趣（Elbisy，2015；Zhang等人，2018；Granata等人，2022；Kim和Kim，2024；de Rijk等人，2025；Xu等人，2025）。这些方法通过利用ML算法检测大型多样化数据集中的复杂模式，提高了预测模型的准确性和适用性。然而，大多数基于ML的模型的主要缺点在于其“黑箱”性质，这使得难以解释输入变量与预测结果之间的关系。这种缺乏透明度的现象可能阻碍直观理解，并降低用户对模型预测的信心（Wang等人，2024b）。鉴于土壤渗透性在众多工程应用中的关键作用，预测模型不仅需要准确，还需要具有可解释性，能够清晰地展示输入变量如何影响k的值。只有少数ML研究提出了用于预测颗粒土壤k的可解释模型。具体而言，这些研究采用了符号回归方法，推导出能够捕捉土壤参数与k之间关系的封闭形式数学表达式（Rehman等人，2022；Zhang和Zhang，2024；Gulaly等人，2025）。作为机器学习技术，符号回归能够在不对模型结构做强假设的情况下自动发现最优数学表达式，特别适合捕捉岩土工程问题中的复杂性和非线性。Rehman等人（2022）使用多表达式编程（MEP）和基因表达编程（GEP）开发了多变量回归模型，这两种都是进化算法。类似地，Zhang和Zhang（2024）以及Gulaly等人（2025）分别利用GEP和MEP推导出了估算k的回归公式。这些模型提供了明确的公式，可以通过结合关键土壤参数（如颗粒大小、级配和孔隙率）直接计算k。然而，它们的适用性受到几个限制：所使用的数据集相对较小，Rehman等人（2022）使用了247个样本，而Zhang和Zhang（2024）以及Gulaly等人（2025）仅使用了81个样本。这种有限的样本量限制了模型捕捉土壤异质性和渗透性测试方法变化的能力。此外，尽管Rehman基于GEP的模型取得了较高的预测性能（R2 = 0.945），但它需要10个输入变量，其中一些可能是多余的。这种额外的复杂性降低了模型的适用性和可解释性。因此，一个有效的基于符号回归的k预测模型应具备准确性、可解释性、通用性和简洁性。本研究旨在开发一个用于估算饱和颗粒土壤k的数学公式。为此，对包含1278个样本的全球地理数据库进行了预处理，并研究了各种土壤参数与渗透性之间的关系。随后，使用Python和Julia实现的PySR通过符号回归推导出了预测公式，并对其预测性能进行了全面评估。此外，还通过独立数据集和实验室渗透测试验证了其通用性。

数据收集与分类

本研究利用符号回归方法，基于一个包含1278个样本的大规模数据库（CG/KAST/7/1278）推导出了饱和颗粒土壤的预测公式（Feng等人，2023）。该数据库汇集了来自53篇文献的渗透性测试结果。测试主要采用恒水头（74.6%）、落水头（8.1%）和三轴（14.7%）方法进行，也有少量使用渗漏仪和固结仪等其他方法。每条数据包括……

公式说明

本研究提出的用于估算颗粒土壤渗透系数（k）的PySR公式如公式（1）所示。在此公式中，k的单位为m/s，D10和D60的单位为mm。根据公式（1），PySR公式显示D10与k之间存在比例关系。值得注意的是，D10和D60的综合影响本质上反映了土壤孔隙结构的特性。当D10 < 0.415 mm时，……

与现有模型的比较分析

进行了比较分析，以评估PySR公式（公式（1）与表3中列出的十个现有模型在估算k方面的性能。由于Rehman模型过于复杂且原始数据库中缺乏某些必需的颗粒大小参数（D5和Deq），因此未将其纳入比较。图9展示了使用包含183个样本的测试集对PySR公式与十个现有模型进行比较的结果。

结论

本研究提出的PySR公式为估算饱和颗粒土壤（特别是沙子和砾石）的渗透系数（k）提供了一个简单而可靠的工具。与广泛采用的经验模型（如Hazen和Kozeny–Carman模型）相比，它在整个渗透范围内实现了更优且可靠的预测性能，同时保持了简洁的封闭形式表达式。该公式仅需要两个颗粒大小参数（D10和D60），并且……

作者贡献声明

**杨艺琳（Yerim Yang）**：撰写初稿、验证、方法论。 **崔亨硕（Hangseok Choi）**：撰写、审稿与编辑、监督。 **金允硕（Younseo Kim）**：数据调查与整理。 **权基范（Kibeom Kwon）**：撰写初稿、软件开发、概念构思。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

作者感谢国际土壤力学与岩土工程学会的TC304工程实践与风险评估管理委员会开发了该数据库，同时感谢Feng Shuyin和Paul Vardanega将其纳入TC304汇编。本研究得到了韩国基础设施技术促进机构（隶属于国土交通部）的支持（编号：RS-2022-00144188）。

联系信箱：

粤ICP备09063491号

摘要

引言

数据收集与分类

公式说明

与现有模型的比较分析

结论

作者贡献声明

利益冲突声明

致谢

热点排行