利用TabPFN算法实现中国地下水碳酸氢盐的高精度测绘及其空间分布风险分析

《Water Resources Research》：Leveraging the TabPFN Algorithm for High-Resolution Mapping of Groundwater Bicarbonate and Its Scaling Risk Across China

【字体：大中小】 时间：2026年05月04日 来源：Water Resources Research 5

编辑推荐：

　　摘要大规模地下水质量预测常常受到采样稀疏的限制，这限制了空间评估的可靠性。本研究引入了基于先验拟合网络的表格先验数据拟合网络（TabPFN）这一机器学习模型，以应对这一挑战，并实现对中国地下水中碳酸氢根（HCO3?）浓度的高精度映射。结果显示，在相同的采样条件下，TabPFN

　　摘要

大规模地下水质量预测常常受到采样稀疏的限制，这限制了空间评估的可靠性。本研究引入了基于先验拟合网络的表格先验数据拟合网络（TabPFN）这一机器学习模型，以应对这一挑战，并实现对中国地下水中碳酸氢根（HCO3?）浓度的高精度映射。结果显示，在相同的采样条件下，TabPFN的性能明显优于传统的机器学习模型。其预测准确性的R2值为0.830，而随机森林（Random Forest）、XGBoost和支持向量机（Support Vector Machines）的R2值分别为0.384–0.771。其均方根误差降低到了30.138，而其他模型的均方根误差在34.603–57.395之间。基于此，首次生成了中国全国范围内的高分辨率地下水HCO3?浓度分布图。通过整合可解释的人工智能方法，该研究进一步识别了空间异质性的关键环境驱动因素。对地下管道结垢风险的评估表明，易发生结垢的HCO3?浓度较高的区域主要分布在中国北部和西北部的半湿润（337.83 mg/L）和半干旱（304.35 mg/L）地区。这项工作为数据稀缺条件下的地下水质量评估提供了一种新的方法路径。除了方法上的进步外，这些发现还为改善地下水资源管理、减轻与结垢相关的基础设施风险以及支持可持续用水的政策制定提供了科学依据。

1 引言

地下水是全球饮用水供应、灌溉和工业发展的关键资源（Siebert等人，2010；Zabala等人，2016）。在许多地区，它是最可靠的淡水来源，尤其是在地表水稀缺或季节性变化较大的情况下（Famiglietti，2014；Gleeson等人，2012）。然而，地下水的可持续利用不仅取决于其可用性，还取决于其质量。在溶解成分中，碳酸氢根（HCO3?）是碱度的主要贡献者，也是水-岩相互作用的关键地球化学指标（Brhane & Mekonen，2024；Owor等人，2021；Y. Xiao等人，2022）。HCO3?浓度可以提供关于含水层岩性、地下水流动模式和长期地球化学演变的见解。然而，过高的HCO3?水平会增加水的硬度，并促进管道、热交换器和地热系统中的碳酸钙结垢。结垢会降低能源效率，增加运营成本，并可能危及供水安全。因此，绘制地下水HCO3?的空间分布图并评估相关风险对于地下水管理、基础设施规划和风险缓解至关重要。传统的地下水质量评估依赖于地质统计技术（如Kriging（Balacco等人，2023；Farzaneh等人，2022；Javed等人，2021；Karami等人，2018；Li等人，2018；Nas & Berktay，2010）和水文地球化学建模（Ejaz等人，2023；Gao等人，2020；He & Wu，2019）。地质统计利用空间自相关性在未采样位置插值（Islam等人，2017），而水文地球化学模型则基于热力学原理模拟化学演变。尽管这些方法在具有密集监测网络的局部尺度上有效，但在区域或国家尺度上却面临重大挑战。地质统计模型难以表示非平稳过程和水化学与环境协变量之间的高维依赖性。另一方面，水文地球化学建模需要详细的站点特定信息，如矿物学、反应动力学和地下水流动路径——这些数据在大范围内很少一致可用。在广阔区域实施此类模型计算密集且往往不可行。这些限制突显了需要可扩展且数据高效的方法来捕捉大陆含水层系统的复杂性和异质性。机器学习（ML）在这方面显示出了巨大潜力。诸如随机森林（Random Forest）、XGBoost和支持向量机（Support Vector Machines）等算法已成功应用于预测各种地下水污染物的浓度，包括硝酸盐、砷、硫酸盐、氟化物和卤代烃（Duan等人，2025；Podgorski等人，2020；Podgorski & Berg，2022；Ransom等人，2022；Tang & He，2026；Xiao等人，2024；Xie等人，2026）。与地质统计相比，ML方法可以灵活地结合多种环境协变量，捕捉非线性关系，并通常实现更高的预测准确性。然而，它们的有效性严重依赖于大规模、高质量的数据集。在国家尺度上，地下水监测点分布不均且稀疏，而广泛的采样活动成本高昂。这造成了“小样本”困境（Chen等人，2024；Machiwal等人，2018），传统ML模型难以同时实现稳定性和准确性。应对这一挑战对于超越特定站点的研究并走向稳健的国家尺度地下水质量评估至关重要。此外，传统机器学习模型存在几个局限性。未经重大修改，它们在分布外（OOD）预测中的表现通常较差，并且将知识从一个数据集转移到另一个数据集的能力有限。此外，由于它们不支持梯度传播，因此难以与神经网络端到端集成。上下文学习（ICL）提供了一个潜在的解决方案。TabPFN（Hollmann等人，2025）是一个专为表格数据设计的框架，它结合了Transformer架构和先验拟合网络，以实现强大的预测性能和有限的训练样本下的可靠不确定性量化。与传统ML不同，TabPFN利用从不同任务中学到的先验分布来快速适应新问题，特别适合于数据稀疏和不均匀的水文地球化学研究。尽管TabPFN在医学和金融等领域展示了有希望的结果，但它也被用于预测重金属固化效率、估算土壤有机碳以及基于质谱分析挥发性有机化合物（Chen等人，2026；Granitto等人，2025；Karabacak等人，2024；Li等人，2025；Zhang等人，2025），但其在地下水科学中的应用尚未得到探索。引入这种方法可以大大减少对大规模数据集的依赖，并在数据稀缺条件下实现高精度预测。在应用ML于水文地球化学中的另一个障碍是模型可解释性的缺乏（Barredo Arrieta等人，2020）。许多算法的“黑箱”（Guidotti等人，2019）特性限制了它们在科学理解和政策决策中的实用性。可解释的人工智能（XAI）技术，如SHAP（Shapley Additive exPlanations）值（Alam等人，2025；Aldrees等人，2024；Xiong, Li等人，2025；Xiong, Wang等人，2025；Zhu等人，2025），通过量化每个预测变量对模型输出的贡献来提供解决方案。这使得能够识别控制地下水HCO3?分布的关键环境驱动因素，从而将数据驱动的预测与基于过程的理解联系起来。因此，将高精度预测与可解释性分析相结合对于推进水文地球化学研究的科学基础和提高水质风险管理至关重要。在此背景下，本研究开发了一个基于TabPFN的少样本学习框架（图1），以预测中国国家尺度上的地下水HCO3?浓度并评估结垢风险。具体贡献有三个方面：

模型创新：我们系统地评估了TabPFN在小样本条件下预测地下水HCO3?浓度的性能，并将其结果与广泛使用的ML模型（包括随机森林、XGBoost和支持向量机）进行了基准测试。空间映射和解释：我们生成了中国首个高分辨率的国家尺度地下水HCO3?浓度地图，并使用可解释的ML方法识别驱动空间异质性的环境因素。风险评估：我们使用水质标准和结垢指数，对由HCO3?浓度升高引起的水输送系统中的结垢风险进行了初步分区评估。

2 方法和材料

2.1 地下水元数据收集和数据处理

本研究基于一个包含1,350个地下水质量样本的数据集，这些样本来自两个不同且权威的来源。基本数据包括来自中国地质调查局（CGS）国家地下水监测项目的1,051个样本，覆盖了中国34个省级区域中的33个。为了增加关键区域的空间密度并提高我们分析的总体稳健性，我们进行了系统的文献回顾，额外收集了299个质量控制样本。文献搜索策略的详细信息（包括时间范围2000–2020年）在支持信息S1中提供。由此产生的整合数据集增加了空间采样密度，扩展了地理覆盖范围，为中国主要河流流域和生态系统提供了更详细和稳健的建模基础。样本涵盖了15°N至55°N之间的热带、亚热带和温带气候区（图2a），分布在三种主要含水层类型中，包括喀斯特含水层、多孔含水层和裂隙含水层。空间分布显示明显差异，华北平原和松辽平原的HCO3?浓度相对较高，而南部沿海地区的浓度较低（支持信息S1中的图S1）。统计结果显示，HCO3?浓度范围为18至987 mg/L，整体呈正态分布。HCO3?浓度的平均值（293.8 ± 4.1 mg/L）与中国先前报告的地下水化学背景值相当（Li等人，2024；Wood等人，2022）。所有混合地下水样本通常遵循对数正态分布（图2b），这与先前的研究一致，证实了我们采样策略的有效性。总体而言，广泛的地理覆盖范围、主要含水层类型的包含以及代表性的浓度分布证实了我们整合数据集适用于国家尺度建模。

2.2 空间预测变量

基于中国多样的水文地质和水文地球化学机制，我们汇编了一套包含54个潜在预测变量的综合集。这些预测变量涵盖七个类别，包括气候、土壤和人类活动（支持信息S1中的表S1），数据来源于空间分辨率从7.5弧秒到0.1°不等的多样化数据集。为了创建一个空间和时间上一致的分析框架，实施了两个关键的协调步骤。首先，对于具有多年记录的变量，计算了长期平均值以代表当代基线条件。其次，所有数据集都使用ArcGIS 10.8中的双线性插值空间重采样到统一的0.1° × 0.1°网格，以确保变量之间的空间对齐。从标准化的多源栅格数据集中提取的一些预测变量由于原始网格产品中的空间间隙而包含缺失值（NoData值）。尽管缺失程度总体较低，但移除具有不完整预测变量的样本会减少空间覆盖范围并可能引入空间偏差。因此，为了在保持空间代表性的同时解决这些数据间隙，应用了多变量插补链方程（MICE）算法（Sharma等人，2025）。这种先进的统计技术通过将每个变量建模为其他所有变量的函数来稳健地估计缺失值，从而保留了数据的基本相关结构。在准备好了这54个预测变量网格的协调堆栈后，我们将这些环境变量与我们的地下水质量观测值进行了关联。使用ArcGIS 10.8地理空间平台，在1,350个地下水采样点的精确地理坐标处提取了每个预测网格的特定值。这一程序产生了最终的建模特征矩阵：一个包含1,350行的结构化数据集，每行代表一个采样点，54列对应其独特的环境特征集。该矩阵是机器学习模型的直接输入，确保每个HCO3?浓度测量都与一组一致且完整的相应地理空间属性配对。

2.3 模型开发和评估

2.3.1 特征工程

鉴于初始预测变量集的高维度（54个变量），实施严格的特征工程协议对于减少多重共线性、降低模型复杂性以及识别最简约和最有力的地下水HCO3?驱动因素子集至关重要。因此，我们仅使用训练集（总样本的80%）实施了严格的三阶段特征选择协议；测试集完全独立，专门用于样本外性能评估。首先，我们通过迭代移除方差膨胀因子（VIF）（Ahmad等人，2021）大于10的特征来解决多重共线性。在每次迭代中，移除了初始随机森林重要性最低的特征。这个过程还通过移除任何一对具有大于0.8的皮尔逊相关系数的特征中的一个特征来进行补充，保留与目标变量更相关的特征（图3a）。

2.3.2 特征重要性排序

其次，使用Borda计数方法（Dortaj等人，2020；Jamei等人，2025）为减少共线性的特征建立了稳健的重要性层次结构。这种集成排名方法的选择是为了通过聚合三种方法上互补的指标结果来确保稳定性：(a) 随机森林重要性，用于捕捉非线性关系和特征交互作用；(b) 皮尔逊相关系数，用于量化与目标的线性关联强度；以及(c) 互信息，用于评估总体统计依赖性（包括线性和非线性）。对于每个指标，所有N个特征都被排名，排名最高的特征获得N分，第二高的获得N-1分，依此类推。每个特征的最终Borda得分是其来自这三个指标的分数之和（图3b）。最后阶段通过一个基于性能的顺序前向选择（SFS）过程来确定最优特征子集。Borda计数分析显示，海岸线距离的得分显著高于所有其他特征；因此，我们选择它作为前向选择的唯一初始基础特征。随后，Borda层次结构中排名次高的特征被逐步添加到模型中。在每一步中，都会训练一个TabPFN回归模型，并使用5折交叉验证的平均决定系数（R2）对其性能进行严格评估。最终选择与最高交叉验证R2相对应的特征子集作为构建最终预测模型的最优配置（图3c）。

2.3.2 机器学习框架
为了空间预测地下水碳酸氢根（HCO3?）浓度，我们采用了基于Transformer架构的表格先验数据拟合网络（TabPFN）。TabPFN专门设计用于在中小型表格数据集上进行上下文学习，能够在不需要针对特定任务调整超参数的情况下实现快速准确的预测。TabPFN的基本原理与传统机器学习不同。它不是为每个特定的数据集训练一个新的模型，而是在一个庞大且多样化的合成数据集上预先训练一次。这种预训练过程旨在教会模型一个通用的预测算法。合成数据集是基于结构因果模型（SCMs）生成的，这些模型创建了复杂且真实的数据生成过程。这确保了模型能够接触到现实世界数据中固有的各种挑战，如非线性关系、特征交互作用和不同类型的数据。该网络通过参数θ来学习，通过最小化保留样本的负对数似然值来训练，该值是在整个合成数据集分布上平均得到的。目标函数是：

L_PFN = E[P(D) | θ] = ∪(D_train ∪ D_test) ～ p(D) [?log(q_θ(y_test | X_test, D_train)]

其中L_PFN是训练过程旨在减少的损失或误差。q_θ(· | ·)是由TabPFN模型预测的概率分布，它由一组神经网络权重θ参数化。?log(q_θ(·)是负对数似然值，这是一个标准分数，用于衡量预测分布与实际结果的匹配程度。E表示取平均值。p(D)代表生成数据集的规则，它不是一个特定的数据集，而是一个“生成器”或“蓝图”，可以创建无数个合成数据集。通过优化这个目标，模型学会了近似真实的贝叶斯后验预测分布。这一理论基础意味着TabPFN不仅提供点预测，还通过输出目标变量的完整概率分布来内在地建模不确定性。在推理时，整个训练数据集——包括带有12个预测特征的观测数据（X_train）和相应的碳酸氢根测量值（Y_train）——作为单一输入序列或“上下文”提供给预训练的TabPFN。该模型处理这个上下文，并在一次前向传递中预测目标位置（X_test）的碳酸氢根浓度。其架构具有双向注意力机制，适用于捕捉我们地球化学数据集表格结构中的复杂相互依赖性。这种方法使我们能够为中国生成高分辨率的碳酸氢根浓度空间预测，并附有稳健的不确定性估计。

2.3.3 模型比较
为了验证本研究中提出的TabPFN算法的适用性和有效性，我们对TabPFN与八种不同的机器学习模型进行了比较分析，这些模型涵盖了四种主流范式。为了确保公平和可复制的比较，所有模型都在相同的条件下进行训练和评估，包括相同的数据分割随机种子，以及相同的训练和测试集。每个模型都在相同的训练子集（数据的80%）上训练，其性能在相同的保留测试子集（数据的20%）上进行评估。模型超参数通过在训练集上进行5折交叉验证来优化。比较模型的超参数调整程序的详细描述提供在支持信息S1的表S2中。具体选择的模型如下：(a) 梯度提升框架：选择了XGBoost（简称XGB）和LightGBM（简称LGBM）。这两种模型通过顺序最小化残差来优化预测性能。(b) 集成装袋框架：以随机森林（RF）为代表，该模型通过并行构建多个决策树来减少预测方差，是这类方法中的典型基准模型。(c) 神经网络模型：采用了多层感知器（MLP），其核心优势在于能够有效建模非线性特征的复杂层次结构。(d) 传统机器学习方法：这一类别包括基于核的支持向量回归（SVR）、基于实例的k最近邻（KNN），以及两个基本线性模型——岭回归和Lasso回归——作为性能基线。上述多维模型选择涵盖了广泛的方法学类别，包括集成学习、深度学习和传统统计学习，为系统评估TabPFN算法的相对性能提供了可靠和全面的比较基础。为了全面评估模型性能，本研究采用了四个统计指标：决定系数（R2）、均方根误差（RMSE）、平均绝对误差（MAE）和皮尔逊相关系数（r）。这些指标分别表征了模型的解释能力、预测准确性、平均偏差幅度以及观测值和预测值之间的线性关系。详细方程和定义在支持信息S1中提供。

2.3.4 不确定性分析和区域验证
为了严格量化我们模型的预测不确定性，我们实现了一个基于20次迭代的Bootstrap重采样的计算框架。这种方法的核心原理是生成20个合理的模型集合，以实证估计训练数据固有变异性所带来的不确定性。在每次迭代中，通过从原始的1,350个样本中带替换地进行抽样来创建一个独特的基础数据集，然后在这个引导数据集上训练一个不同的TabPFN模型。然后使用这20个模型来预测每个单元格在0.1° × 0.1°国家网格上的HCO3?浓度。这个过程产生了每个地理位置的20个合理预测值的分布。然后使用这个分布的分布来推导两个关键的不确定性指标：20个预测值的SD和95%置信区间（CI）的宽度（定义为第97.5百分位数和第2.5百分位数之间的差异）。这个过程最终生成了空间地图，可视化了模型在中国的预测不确定性，提供了对其空间可靠性的稳健评估。

2.4 模型解释
随着机器学习模型复杂性的不断增加，许多模型由于难以解释其内部机制而常被标记为“黑箱”模型（Rudin, 2019）。可解释的人工智能（XAI）包括一系列技术方法，其核心目标是提高机器学习模型的透明度并使其决策过程更加可解释（Ali, 2025）。在各种XAI方法中，Lundberg和Lee（2017）提出的SHAP是一种主流技术。基于博弈论，这种方法利用Shapley值的概念构建了一个数学上严格且可解释的分析框架，能够量化每个输入特征对特定预测结果的贡献。它克服了传统特征重要性指标的局限性，特别是在表征非线性模型的行为方面显示出显著的优势。通过计算特征在所有可能的输入特征组合中的平均边际贡献，它提供了特征重要性的全面和统一的度量。在本研究中，使用SHAP来分析预测变量对碳酸氢根浓度预测的差异效应，从而识别出影响碳酸氢根变异性的关键因素。为了补充SHAP的分析结果，同时进行了部分依赖性分析，以进一步探索单个或成对输入特征对模型预测的边际效应。这种方法能够可视化响应变量与特定输入特征之间的关系，无论这种关系是线性的、单调的还是高度非线性的。SHAP特征重要性图根据特征对模型输出的总体影响对输入变量进行视觉排名，同时展示了每个特征的正面和负面贡献。这个过程有助于清楚地识别变量是施加线性影响、阈值驱动的响应还是非线性交互。此外，SHAP摘要图（也称为群体图）可以揭示特征效应在各个预测维度上的异质性。通过将特征值（由颜色梯度表示）与相应的SHAP值（沿水平轴绘制）相关联，这些图捕捉了全局模式，同时识别出局部异常，从而检测潜在的效果反转或异常样本中的交互作用。SHAP依赖性图展示了特征值与其对应的SHAP值之间的关系，解释了特征对模型预测的边际效应。水平轴代表特征的原始值，而垂直轴代表SHAP值（反映了特征对预测的贡献方向和强度）。

3 结果和讨论
3.1 地下水碳酸氢根预测的结果
通过实施的特征选择协议，最终确定了一组具有显著解释能力的12个预测变量（见支持信息S1中的图S2和表S3）。这些选定的变量分布在六个主要类别中：四个气候变量（占总选定预测变量的33.3%），两个土壤变量（16.7%），两个地理变量（16.7%），两个生物变量（16.7%），一个大气变量（8.3%）和一个地质变量（8.3%）。这一结果不仅与已建立的水文地球化学过程的理论理解高度一致，更重要的是，它揭示了地下水化学是对多尺度、多领域环境因素协同效应的综合响应。气候因素的主导地位，加上土壤、地理、生物和地质领域的贡献，提供了定量证据，支持了对研究区域碳酸氢根浓度关键驱动因素的全面理解。TabPFN模型在训练和测试数据集上都展示了优越的预测性能（见图4a和4b）。在测试集上，它在所有模型中实现了最高的预测准确性（R2 = 0.8305，RMSE = 30.14 mg/L，MAE = 18.51 mg/L），比第二好的模型LightGBM（R2 = 0.7766）提高了6.9%。如图4c所示，TabPFN在三个评估指标（R2、RMSE和MAE）上的整体性能始终优于所有比较模型。其他集成模型如RF（R2 = 0.7713）和XGBoost（R2 = 0.7593）的强劲表现突显了它们处理非线性关系的能力，尽管它们的整体准确性低于TabPFN。相比之下，MLP模型（R2 = 0.6983）可能由于训练数据集的大小有限而遭受了较高的预测误差。线性模型Ridge和Lasso（R2 ≈ 0.38）的表现最差，表明简单的线性假设对于这个复杂的水文地球化学系统是不够的（见支持信息S1中的图S3和表S4）。值得注意的是，我们开发的TabPFN模型所达到的预测精度与许多类似的大规模环境测绘研究中的报告结果相当，在许多情况下甚至超过了这些研究（详见支持信息S1中的表S5）。除了整体预测精度外，我们还通过使用Moran's I指数（支持信息S1中的图S5h）来评估残差的空间自相关性，进一步研究了模型误差中是否存在系统性的空间趋势。计算出的Moran's I值为0.0114，p值为0.335，表明预测误差没有统计学上的显著空间聚集现象。这一结果表明残差在空间上是随机分布的，模型没有表现出系统性的区域偏差。

图4展示了地下水碳酸氢盐的预测结果以及多模型性能的比较。图(a, b)为散点图，显示了使用TabPFN模型对训练集(a)和测试集(b)中预测的碳酸氢盐浓度与实际观测浓度之间的一致性。虚线表示完美的1:1拟合。图(c)为不同模型性能的比较气泡图，模型名称位于x轴上，指标（R2、RMSE、MAE）位于y轴上。气泡大小的解释取决于指标：对于R2，数值越大越好；对于RMSE和MAE，数值越小越好，这样可以一目了然地识别出表现最佳的模型。此外，为了评估模型在数据稀缺条件下的鲁棒性，并确定TabPFN提供最大收益的范围，我们进行了样本量敏感性实验（详见支持信息S1中的图S4）。随着训练数据比例从10%增加到100%，TabPFN的预测性能（R2）始终优于基准模型。特别是在小样本范围（例如10%–50%）内，其性能优势尤为明显，这证实了TabPFN作为数据稀缺环境下小样本学习框架的独特价值。为了评估TabPFN预测中国各地碳酸氢盐（HCO3?）浓度的空间泛化能力，我们将独立的测试集划分为七个地理区域（华北、东北、华东、华中、华南、西南和西北），并进行了区域性的验证。结果表明预测性能存在明显的区域差异。详细的具体区域评估，包括每个区域的散点图和性能指标，见支持信息S1中的图S5a–S5g。最终，这些结果突显了TabPFN模型的适应优势，该模型能够在不进行大量超参数调整的情况下，出色地识别多领域环境数据中的复杂模式，其性能超过了传统的集成方法和其他机器学习算法。模型预测不确定性的空间分布，通过标准差（SD）和95%置信区间宽度（CI）在支持信息S1的图S6中进行了展示。出乎意料的是，最高的不确定性并不位于偏远的西部地区，而是集中在东部和中部平原地区，尤其是华北平原。相比之下，中国西部的高海拔地区表现出极低的预测不确定性。这一显著的模式表明，模型的不确定性并非由训练数据的空间密度决定，而是由当地的水文地球化学复杂性所主导。华北平原是世界上管理最密集的农业区域之一，受到严重的人为影响。数十年的大规模地下水抽取、广泛的灌溉回灌和过量施肥深刻改变了自然的水文地球化学循环，从而在环境变量和HCO3?浓度之间形成了高度局部化、复杂且往往非线性的关系，这对国家尺度模型来说是一个巨大的挑战。相反，西部的较低不确定性可能表明，尽管地形复杂，但这些较少受干扰地区的地下水系统遵循更可预测的自然状态地球化学规律。因此，这张不确定性地图不仅仅是一个简单的质量检查工具；它还作为一个诊断工具，能够识别出人类活动与环境相互作用的热点区域。至关重要的是，华北平原的高不确定性并没有使我们的风险评估失效；相反，它使评估更加精确。这强调了这一人口密集区域不仅具有较高的平均HCO3?浓度，还具有高度的变异性和不可预测性，使得可持续的水资源管理变得更加困难。这一发现强烈表明，在这些受人为影响的区域进行高分辨率、局部化的监测和建模工作是必要的。为了确保我们不确定性估计的可靠性，我们使用了不同数量的Bootstrap迭代次数（例如30、50和100次）进行了额外的敏感性分析。结果见支持信息S1中的图S7，证实了不确定性模式（例如标准差（SD）和置信区间宽度（CI）在超过20次迭代后仍然稳定，表明我们选择的迭代次数足以实现可靠的不确定性量化。

3.1.2 碳酸氢盐的空间分布
如图5所示，中国地下水中的碳酸氢盐（HCO3?）浓度表现出明显的空间分布差异。在本研究中，高浓度区域被定义为预测的HCO3?浓度超过全国分布第75百分位的地区。这些区域主要集中在碳酸盐岩地区，包括华北平原的中南部、内蒙古中部和松嫩平原的西部。相比之下，花岗岩地区通常是低浓度区域，主要分布在新疆北部、西藏南部和东南沿海地区。从纬度和经度分布的角度来看，随着经度和纬度的增加，地下水碳酸氢盐浓度先增加后减少，在北纬25°–35°和东经110°–115°范围内达到峰值。

图5展示了中国地下水碳酸氢盐的空间预测和分布模式。图(a)为高分辨率（0.1°）的空间分布图，显示了中国预测的地下水碳酸氢盐（HCO3?）浓度。图(b–d)展示了三个碳酸氢盐浓度较高的主要受影响区域的放大视图。图(e)为纬度变化曲线，显示了各区域的平均碳酸氢盐浓度。图(f)为经度变化曲线，显示了各区域的平均浓度。值得注意的是，碳酸氢盐浓度较高的区域通常与以裂隙含水层和细粒沉积物为主的地下环境相关（Guo等人，2020年）。这些环境通常具有较弱的水动力条件和水体停留时间较长，这增强了水与岩石的相互作用，促进了溶质的逐渐积累，最终导致较高的碳酸氢盐浓度（Yang等人，2023年）。相比之下，低碳酸氢盐区域通常出现在水动力条件较强且沉积物未固结的水文地质环境中。在这些区域，更活跃的地下水循环和丰富的补给可以降低溶解溶质的浓度，从而维持相对较低的碳酸氢盐浓度（Liu等人，2019年）。

3.2 特征重要性分析
为了阐明机器学习模型在预测全国范围内地下水碳酸氢盐浓度时的内部逻辑，我们采用了SHAP可解释性分析方法。该方法精确量化了每个输入特征对模型预测的贡献，并揭示了其影响的方向和程度，从而从地球科学的角度为我们的数据驱动发现提供了机制上的支持。关于SHAP的实现设置，我们使用了基于核函数的SHAP变体（shap.KernelExplainer），这种方法对基于Transformer的TabPFN架构非常适用。为了高效地表示背景分布同时保持高估计精度，我们使用K-means聚类（shap.kmeans）将整个训练数据集总结为25个代表性质心。这些质心作为背景样本，用于计算Shapley值。对于测试集中的每个观测值，采样大小设置为100（nsamples = 100），以在计算效率和特征归属的稳定性之间取得平衡。通过确保背景摘要准确捕捉到特征空间的整体方差，严格控制了近似误差。虽然我们认识到相关预测因子可能会影响归属结果，但基于联盟博弈论的SHAP框架旨在公平地分配所有可能特征组合的贡献，从而减轻了传统重要性指标中固有的偏见。SHAP特征重要性分析（图6a）揭示了驱动因素的清晰层次结构。距离最近海岸的距离（DNC）是压倒性的主导因素，其重要性远超其他所有变量，确立了宏观地理模式在控制地下水化学中的首要作用。随后，温度季节性（TS）、大气CO2浓度（GCC）和土壤pH值（SP）构成了第二层次的关键驱动因素，代表了气候和地球化学过程的核心影响。其他环境因素，如降水模式和植被条件，也对预测有所贡献，但程度相对有限。

机器学习模型的可解释性。图(a)基于shapely值的模型特征重要性图；图(b) shapely值分布的汇总图。虽然这种排名确定了每个驱动因素的相对影响，但要理解它们的功能作用——无论是正面还是负面影响HCO3?浓度——需要更深入的探讨。为了阐明这些机制，SHAP汇总图（图6b）详细展示了这些关键特征与模型输出之间的功能关系。距离最近海岸的距离（DNC）是主导因素，其重要性远超其他变量，表明宏观地理模式在控制地下水化学方面起着主导作用。随后，温度季节性（TS）、大气CO2浓度（GCC）和土壤pH值（SP）构成了第二层次的关键驱动因素，代表了气候和地球化学过程的核心影响。其他环境因素，如降水模式和植被条件，也对预测有所贡献，但程度相对有限。

为了阐明机器学习模型在预测全国范围内地下水碳酸氢盐浓度时的内部逻辑，我们采用了SHAP可解释性分析方法。该方法能够精确量化每个输入特征对模型预测的贡献，并揭示其影响的方向和程度，从而为我们的数据驱动发现提供了地球科学层面的机制支持。在SHAP实现设置方面，我们使用了基于核函数的SHAP变体（shap.KernelExplainer），这种方法非常适合基于Transformer的TabPFN架构。为了在保持高估计精度的同时高效表示背景分布，我们使用K-means聚类（shap.kmeans）将整个训练数据集总结为25个代表性质心。这些质心作为背景样本，用于计算Shapley值。对于测试集中的每个观测值，采样大小设置为100（nsamples = 100），以在计算效率和特征归属的稳定性之间取得平衡。通过确保背景摘要准确捕捉到特征空间的整体方差，严格控制了近似误差。尽管我们认识到相关预测因子可能会影响归属结果，但基于联盟博弈论的SHAP框架旨在公平地分配所有可能特征组合的贡献，从而减轻了传统重要性指标中固有的偏见。SHAP特征重要性分析（图6a）揭示了驱动因素的清晰层次结构。距离最近海岸的距离（DNC）是压倒性的主导因素，其重要性远超其他变量，表明宏观地理模式在控制地下水化学方面起着关键作用。随后，温度季节性（TS）、大气CO2浓度（GCC）和土壤pH值（SP）构成了第二层次的关键驱动因素，代表了气候和地球化学过程的核心影响。其他环境因素，如降水模式和植被条件，也对预测有所贡献，但程度相对有限。

机器学习模型的可解释性。图(a)基于shapely值的模型特征重要性图；图(b) shapely值分布的汇总图。虽然这种排名确定了每个驱动因素的相对影响，但要理解它们的功能作用——无论是正面还是负面影响HCO3?浓度——需要更深入的探讨。为了阐明这些机制，SHAP汇总图（图6b）详细展示了这些关键特征与模型输出之间的功能关系。距离最近海岸的距离（DNC）显示出最强的正相关，表明内陆地区的位置对碳酸氢盐浓度的正面贡献更大。这与沿流动路径由于长时间的水岩相互作用导致溶质浓度增加的现象一致（Armendariz等人，2024年）。同样，温度季节性（TS）和大气CO2浓度（GCC）也作为正面驱动因素，表明更大的温度波动和更丰富的碳源都会促进碳酸氢盐的富集。相比之下，土壤pH值（SP）显示出明显的负相关，意味着更碱性的土壤条件抑制了碳酸氢盐的形成，这与酸性条件促进矿物风化的原理一致（Wood等人，2023年）。SHAP依赖性分析进一步揭示了特征变量与预测碳酸氢盐浓度之间的复杂且往往非线性的关系（图7）。作为主要预测因子，距离最近海岸的距离（DNC）显示出独特的非单调模式。最初，SHAP值随DNC的增加而急剧增加，显示出强烈的正相关。这与经典的水文地球化学理论一致，即地下水在从沿海补给区向内陆地区流动的过程中逐渐富集溶质（Dong & Gao，2022年）。然而，在达到峰值后，SHAP值开始下降。这表明在极其偏远的内陆盆地，距离的边际效应减弱，其他因素，如干旱条件下的蒸发或局部地质条件，可能成为新的限制因素，从而改变了其对碳酸氢盐水平的贡献。图7展示了特征值与其对模型预测影响（SHAP值）之间的关系。每个点的颜色对应其SHAP值，垂直颜色条显示了影响的程度和方向。相比之下，一些变量显示出明确的单调或指数趋势。土壤pH值（SP）和降水季节性（PS）分别显示出强烈的负相关和正相关。更酸性的土壤环境（低pH值）显著促进了矿物风化，而季节性干湿循环较强的地区（高PS值）也增强了风化过程。更有趣的是，大气CO2浓度（GCC）和地形湿润指数（TWI）显示出类似指数的正效应。这意味着一旦GCC或TWI超过某个阈值，它们对碳酸氢盐生成的促进作用会显著增强。对于GCC而言，这反映了其作为碳酸酸形成反应物的关键作用，其中增加的供应加速了溶解过程。对于TWI而言，高值表示水分汇聚和饱和的区域，这大大延长了水的停留时间和化学反应的程度。其他水文气候变量显示出更复杂的响应模式。最冷季度的降水量（PCQ）显示出明显的U形关系：适度的冬季降水（可能对应于有效的、缓慢的补给）对碳酸氢盐富集有正面贡献，但过量的降水会导致SHAP值急剧下降。这清楚地表明了稀释和快速冲刷的主导作用。潜在的蒸散作用（PET）也遵循U形曲线，其中在中等值时负面影响最强，在极端值时影响较弱，可能反映了蒸发和水分可用性之间的复杂权衡。最后，对于整体重要性较低的变量，如土壤有机碳（SOC）和冠层生物量变化（CSC），其分布点围绕SHAP值零分散，证实了它们在全国范围内对碳酸氢盐浓度预测的贡献可以忽略不计。此外，为了揭示不同特征的贡献如何随地理位置变化，我们从栅格网格中随机抽取了500个点，以生成每个单独特征的SHAP值的空间分布图（见支持信息S1中的图S8）。结果表明，温度季节性、降水季节性和土壤pH值等因素表现出明显的空间异质性。

3.3 地下管道的结垢风险分析

饮用水中过高的（HCO3?）浓度对供水基础设施的寿命和效率构成了重大威胁（Li等人，2022年）。当HCO3?水平超过300毫克/升时，水会强烈倾向于形成碳酸钙垢，导致管道表面沉积物的积累（Cheng Liu等人，2023年）。这一过程逐渐减小了管道的有效直径，增加了水力阻力，从而提高了水运输所需的能量消耗。在严重的情况下，它可能导致管道完全堵塞和灾难性的爆裂，这与国家的“碳峰和碳中和”目标直接相悖（Liu等人，2023年）。因此，我们将预测的地下水中HCO3?浓度超过300毫克/升的区域定义为高结垢风险区（HSRZs）。我们的全国范围预测显示，这些HSRZs主要集中在中国的平原和草原地区（见支持信息S1中的图8a和表S6），这些地区占地约314万平方公里，几乎占中国总面积的三分之一。图8显示了中国地下水中碳酸氢盐结垢风险（HCO3? > 300毫克/升）的分布情况。图(a)显示了地下水中碳酸氢盐浓度超过300毫克/升的高风险区域；图(b)按省份显示了平均碳酸氢盐浓度的条形图，并按行政区划进行了颜色编码；图(c)显示了每个气候区内高碳酸氢盐风险区域的百分比。对不同气候区平均HCO3?浓度的分析显示，半湿润（平均：337.83毫克/升）和半干旱（平均：304.35毫克/升）地区的浓度最高；值得注意的是，这两个地区的平均浓度都超过了300毫克/升的结垢风险阈值。相比之下，干旱（平均：257.37毫克/升）和湿润（平均：279.82毫克/升）地区的平均浓度低于这一临界水平。这一点在HSRZs的分布上得到了强烈体现，这些区域主要位于这两种气候类型中。半干旱地区占据了全球高风险区域的最大份额。此外，在每个气候区内，61.5%的半干旱地区和44.1%的半湿润地区被归类为高碳酸氢盐结垢风险（见图8c和支持信息S1中的图S9c）。这突显了一个关键的水文地球化学平衡：这些地区足够干燥，可以促进溶质的显著蒸发浓缩，但它们又接收了足够的降水，从而促进了岩石风化和地下水补给。相比之下，极度干旱的地区可能补给有限，而完全湿润的地区则经历了更强的稀释效应。地貌的影响进一步细化了这一空间分布（见支持信息S1中的图S9a和S9b以及表S7）。最高的平均HCO3?浓度主要出现在低海拔地形中。受影响最大的八个地貌类型是平原、盆地和高原，其中华北平原是唯一一个高风险单元，其平均浓度最高（422.25毫克/升）。其他受严重影响的地区包括内蒙古的高原和中辽平原。在这些通常充满细粒冲积物和黄土的平原和盆地环境中（Liu等人，2016年），强烈的毛细作用可以将富含矿物质的地下水引向地表。这一过程增强了蒸发作用，加剧了浅层含水层系统中溶质的浓缩，导致HCO3?浓度普遍超过300毫克/升的结垢风险阈值。在行政层面，这种风险特征反映在中国北部、中部和东部许多省份的高平均HCO3?浓度上（见图8b和支持信息S1中的表S6）。河南、河北、山西等省份以及北京和天津等城市位于高结垢风险区（HSRZ）的核心地带，表现出最高的平均浓度。值得注意的是，预测的高风险区域与实际记录的地下水供应可靠性问题地区高度吻合，为我们的评估提供了独立的支持。例如，在能源密集型的山西省，地下水供应和分配管道的安全性已被纳入城市发展规划（Jiang等人，2023年）。同样，在人口密集且农业发达的华北平原和关中盆地，水分配网络中的结垢倾向已被广泛报道（B. Wang等人，2024年；Z. M. Wang等人，2025年）。我们的模型预测与现实世界的工程挑战之间的这种一致性突显了这些核心地区面临的水质和基础设施管理的紧迫性。总之，我们的分析表明了风险因素的关键汇聚。HSRZs主要位于中国半干旱和半湿润气候带的平原、盆地和高原地区。这些地区正是中国人口和农业生产的核心地带，以高人口密度、集约化农业和对地下水用于市政和灌溉的严重依赖为特征。因此，这种地下水的高结垢潜力直接威胁到了密集且重要的供水网络的完整性。为了确保长期的水资源安全和基础设施的韧性，这些已识别的高风险区域需要紧急关注。积极的水质管理对于减轻结垢风险、降低能源消耗以及使可持续的水资源利用与国家碳中和目标保持一致至关重要（Chen等人，2018年）。我们提出了一套涵盖整个供应链的风险缓解措施。在源头，可以使用化学软化或基于膜的过程对高碳酸氢盐含量的地下水进行预处理，以减少形成垢的离子浓度。在输送和分配过程中，通过优化网络设计（例如，选择抗垢的管道材料和保持适当的流速）以及建立常规的监测、清洁和维护计划，可以降低结垢风险；在适当的情况下，也可以考虑使用环境友好的结垢抑制剂进行在线控制。在治理层面，我们建议水务公司根据风险地图实施差异化管理策略，包括在高风险区域加强监测和维护，并探索源水混合（例如，混合离子浓度不同的水）以降低整体系统风险。

3.4 面临高结垢风险的地下水影响人口

基于我们的高分辨率全国范围地下水中HCO3?浓度地图，我们还估计了面临高结垢风险的人口数量。该估计是通过将我们的预测HCO3?地图与2020年高分辨率全球人口密度网格相结合来进行的，提供了受影响人口的详细空间评估（见图9a）。我们的分析显示，高风险的地下水中HCO3?浓度影响了大约7.42亿人，约占中国总人口的一半。

3.5 局限性和未来展望

尽管最近取得了进展，但在准确估计地下水中碳酸氢盐（HCO3?）浓度方面仍存在重要限制。主要限制在于可用于模型训练和验证的采样点数量少且空间分布不均，特别是在脆弱或研究不足的地区，数据稀缺现象尤为严重。这种稀疏且不均匀的空间覆盖范围本质上削弱了模型解析精细空间变异性和解码局部水文地球化学控制的能力，从而在预测的HCO3?浓度中引入了相当大的不确定性，并可能掩盖可能指示关键水文地质过程的局部地球化学异常。为了应对这些固有的限制并提高地下水HCO3?评估的可靠性，未来的研究应优先考虑两个相互关联的目标。首先，扩大系统的野外调查并建立更密集、空间平衡的监测网络——特别是目前观测覆盖有限的西部地区——对于减少数据缺口至关重要。其次，加强基于同位素的验证框架对于更好地限制HCO3?来源、补给路径和水-岩相互作用过程至关重要。具体来说，整合稳定和放射性同位素示踪剂，包括溶解无机碳（DIC）的δ13C、地下水的δ18O和δ2H，以及在地球化学上可行的情况下，14C和87Sr/86Sr比值，将提供独立的证据来验证模型推导出的HCO3?估计。这种同位素示踪剂与常规水化学测量的结合不仅将提高浓度验证的严谨性，还将减少模型不确定性，为全国范围的HCO3?评估奠定坚实的基础。当前分析的另一个关键限制是它仅关注HCO3?作为评估结垢风险的唯一指标，忽略了主要地下水阳离子和阴离子之间的复杂协同和拮抗作用。单一离子框架本质上不足以捕捉不同水文地球化学环境下的矿物沉淀和结垢过程的全部复杂性，其中离子组成和物理化学条件共同调节了结垢形成的潜力。为了填补这一空白，未来的研究应转向研究多离子耦合的结垢行为，特别关注量化离子背景（例如Ca2+、Mg2+、SO42?、Cl?）和关键物理化学参数（例如pH值、温度、离子强度）的变化如何调节结垢起始的临界HCO3?阈值。这种整体方法将能够更准确地划定不同地下水地球化学条件下的HCO3?阈值，最终提高HCO3?评估在地下水管理中的实际效用。

4 结论

本研究首次在全国范围内应用了TabPFN小样本学习框架，用于高分辨率预测中国地下水中碳酸氢盐（HCO3?）浓度和结垢风险评估。结果表明，TabPFN的性能显著优于传统的机器学习模型，有效解决了限制大规模水文地球化学建模的“小样本困境”。凭借其卓越的预测能力，TabPFN在数据稀缺条件下建立了准确的水质制图的新范式。通过整合可解释的人工智能（XAI）分析，本研究阐明了影响HCO3?空间异质性的主要环境控制因素。距离最近海岸的距离、温度季节性、大气CO2浓度和土壤pH值被确定为关键驱动因素，反映了复杂和非线性的水文地球化学相互作用。这种数据驱动建模和机制解释的结合增强了地下水预测框架的科学透明度和可解释性。高分辨率地图和相关风险分析显示，预测的HCO3?浓度超过300毫克/升结垢风险阈值的地区主要位于中国的半湿润和半干旱平原和盆地，包括华北平原。这些高结垢风险区（HSRZs）与人口密集和工业化地区重合，对供水基础设施和能源效率构成了重大挑战。尽管模型表现稳健，但在人为影响强烈的地区，模型显示出更大的不确定性，这突显了进行精细本地校准的必要性。未来的研究应结合时间序列数据来捕捉动态过程，整合更高分辨率的数据集以减少不确定性，并将TabPFN框架扩展到其他地下水质量指标。这些进步将进一步增强风险预防，为可持续的地下水管理提供信息，并有助于实现中国的碳中和目标。

致谢

我们感谢中国地质调查局（CGS）的中国地质环境监测研究所提供的基础数据。该研究得到了中国国家重点研发计划（项目编号2023YFC3705904和2020YFC1807900）和中国国家自然科学基金（项目编号52079088）的支持。

利益冲突

作者声明与本研究无关的利益冲突。

数据可用性声明

本研究中报告的地下水基础数据由中国地质调查局（CGS）的中国地质环境监测研究所提供。本研究中生成的预测地下水碳酸氢盐（HCO3?）浓度数据集已存放在Figshare上，并公开可用：https://doi.org/10.6084/m9.figshare.31646935。代码可用性：重现分析、结果和图表的代码可在GitHub上找到：https://github.com/suntong-123/TabPFN-Groudwater-HCO3?。

热点排行