现代神经网络在小样本农业土壤数字制图中的应用：是否成为新的标准范式？

《European Journal of Soil Science》：Modern Neural Networks for Small Tabular Datasets: The New Default for Field-Scale Digital Soil Mapping?

【字体：大中小】 时间：2026年02月26日 来源：European Journal of Soil Science 3.8

编辑推荐：

　　本研究通过全面评测31个农田尺度土壤数据集，揭示了现代人工神经网络（ANN）在土壤有机质、pH和黏粒含量等关键属性预测中显著超越传统机器学习（Random Forest、PLSR等）。特别地，基于上下文学习（in-context learning）的TabPFN模型展现出卓越的稳定性和计算高效性，为农田尺度的数字土壤制图（DSM）提供了新的高性能解决方案。

1 引言

土壤地图在环境与农业领域至关重要。通过近端和遥感传感器可快速生成高分辨率土壤数据，但传感器通常测量的是与土壤属性相关的代用指标，而非直接测定。将传感器信号转化为有用的土壤属性估计，需要利用一组土壤样本训练特定地点的预测模型。这一土壤计量建模步骤是数字土壤制图（DSM）的核心。在当代DSM中，表格机器学习（ML）已成为主导方法。然而，农田尺度DSM的ML应用面临特定挑战，包括高噪声、土壤介质的复杂性、测量条件的可变性、测量足迹的差异以及空间自相关性。最重要的是，由于土壤采样和实验室分析的成本和劳动力限制，训练样本量通常很低。此外，DSM中的特征维度变化很大，从现场近端传感器（如电导率传感器）产生的低维数据，到中、近红外光谱获得的高维数据。在土壤光谱学中，特征维度通常超过土壤样本数量，使建模容易过拟合，即维度灾难问题。这些数据集特性使得基于树的算法和线性模型等经典ML方法成为DSM中土壤计量建模的默认选择。特别是随机森林（Random Forest）由于其简单应用、默认超参数下的良好性能、快速训练时间以及在训练样本量较小的情况下的普遍有效性而占主导地位。在土壤光谱应用中，线性模型通常与主成分分析（PCA）或偏最小二乘等线性特征变换结合，已成为基本方法。

深度学习以各种人工神经网络（ANN）架构的形式，如多层感知器（MLP）和卷积神经网络，对DSM的兴趣日益增长，但大多在拥有丰富训练数据的场景中取得成功，例如利用遥感的大区域土壤制图。然而，这种成功并未延伸到样本量通常较小的农田或较小区域尺度的应用，且ANN在这些情况下表现相对较差。总体而言，由于深度学习在DSM土壤计量建模中有效性的不确定性，ANN尚未取代经典的ML方法。表格数据领域也存在类似趋势，即在近年之前，经典ML方法相对于ANN一直保持竞争优势。

最近表格数据深度学习的发展挑战了这一观点。过去两年中，提出了多种声称超越经典ML方法的ANN方法。这些进展远不止对经典ANN架构（如MLP）的渐进改进，全新的表格ANN方法已经出现，包括基于注意力的模型、基于检索的方法和上下文学习基础模型。这些现代ANN为应对DSM中土壤计量建模的挑战带来了希望。例如，上下文学习模型如TabPFN（表格先验数据拟合网络）声称在小数据集上表现特别强。然而，这些研究未能充分代表农田尺度DSM的具体限制，因为它们的数据集属性与农田尺度DSM中遇到的显著不同。因此，在农田尺度DSM的固有约束下，检验这些先进深度学习范式的适用性和有效性仍然至关重要。

然而，正确评估新的深度学习方法本身就是一个重大的方法学挑战，不充分的基准测试实践会严重影响对其相对性能的结论。在本工作中，我们对在表格数据应用中显示出潜力但在土壤计量学和DSM领域尚未探索的现代深度学习方法进行了基准测试。

2 材料与方法

2.1 数据集

本研究使用了精确石灰化土壤数据集（LimeSoDa），这是一个包含31个农田至农场尺度数据集的集合，涵盖多个国家和不同的农业背景，代表了精准农业中遇到的广泛土壤制图场景。其全球分布如图1所示。每个数据集包含三个目标土壤属性：土壤有机质（SOM）或土壤有机碳（SOC）、pH和黏粒含量，总计产生了93个回归任务用于模型评估。单个数据集大小从30到460个土壤样本不等，为小区域土壤制图的真实世界DSM项目提供了多样化的数据场景。所有特征都是数据集特定的，来源于不同的传感技术，包括实验室光谱学、现场近端土壤传感（PSS）和遥感（RS）。根据特征特性和维度，我们将数据集分为两组进行分析（图2）。第一组称为“高维”组，包括特征-样本比 > 1的数据集，包含可见-近红外（vis–NIR）、近红外（NIR）或中红外（MIR）光谱特征。这些数据集需要进行降维。第二组称为“低维”组，包括具有低维PSS特征或RS特征的数据集，其特征-样本比 ≤ 1。

2.2 经典机器学习模型

我们纳入了几种在DSM中表现出强劲性能的算法作为经典ML基线，包括线性回归、偏最小二乘回归（PLSR）、随机森林和XGBoost。

2.3 人工神经网络

我们评估了四组现代ANN架构，每组选择了已建立的基线模型以及过去一年内引入的最新改进。实现细节和支持信息中提供了简洁的ANN术语表。

2.3.1 MLP模型

MLP代表表格数据的经典ANN基线。我们纳入了一个标准MLP作为基线，以及两个最近的架构改进：RealMLP和TabM。

2.3.2 基于检索的模型

我们评估了基于检索的模型，包括TabR和ModernNCA。

2.3.3 基于注意力的模型

我们评估了AutoInt作为早期基线，FT-Transformer作为更原理性的变换器架构适应，以及最近的增量改进，包括T2G-Former、AMFormer和ExcelFormer。

2.3.4 上下文学习

我们评估了TabPFN，这是一种利用上下文学习的基础模型。它从根本上不同于传统的ANN方法，消除了数据集特定训练的需要。

2.4 实验设计

我们的实验协议旨在提供模型间的公平比较。我们专注于统一评估协议，要么将这些改进普遍应用于每个模型，要么在评估中排除它们。这遵循了表格深度学习基准测试中公平比较的既定惯例。所有缩放统计数据和PCA变换都是从每个内部和外部折的训练集中计算的，以防止数据泄露。我们应用了嵌套交叉验证，外部5折用于评估，内部5折用于超参数选择。我们使用早期停止，耐心阈值设为40个周期，以考虑农田尺度DSM中数据集非常小的性质。对于性能评估和排名，我们使用了R²（决定系数）。我们根据每个回归任务的R²分数对模型进行排名，然后跨数据集平均这些排名以获得整体性能指标。

对于超参数优化，我们采用了树结构Parzen估计器（TPE）算法，进行100轮优化和20轮随机搜索预热。所有ANN均使用AdamW优化器和均方误差（MSE）损失进行训练。所有随机种子均已固定以确保可重复性。我们的评估框架还包括深度集成，以聚合每个ANN架构的多个独立训练运行的预测。对于公平评估，我们将所有ANN模型的集成大小固定为16个成员。

3 结果

以下结果总结了涵盖31个数据集的93个回归任务中的模型性能。低维组包含16个数据集和48个回归任务，而高维组包含45个来自具有vis–NIR、NIR和MIR光谱特征的数据集的回归任务。

图3显示了经典ML方法和ANN架构通过平均R²排名评估的性能。较低的排名值表示更好的性能。在低维组中，上下文学习模型TabPFN取得了最佳整体性能。最强的经典ML基线是随机森林。基于注意力的ExcelFormer和基于MLP的TabM成为第二佳表现者。在高维数据集中，我们额外评估了PLSR，而高维组中的所有其他模型都使用PCA作为预处理步骤。该组表现最佳的经典ML基线是带Ridge惩罚的MLR。大多数现代模型仍然优于经典方法。TabPFN显示出最强的性能。

图4展示了每个ANN与其各自组别最佳经典基线的头对头比较。TabPFN在低维任务中对随机森林取得了75%的胜率。在高维任务中，TabR、ModernNCA和RealMLP三个模型对Ridge回归取得了62%的胜率。

图5揭示了样本量依赖性性能的见解。结果显示，TabPFN在几乎所有场景中都保持了卓越的性能，经典ML仅在样本量少于50且经过PCA预处理的高维数据集上占优。

总体而言，这些结果表明，现代深度学习方法，特别是TabPFN，在大多数农田尺度DSM任务上广泛超越了经典ML。

4 讨论

4.1 深度学习与经典机器学习

我们的结果表明，现代ANN在LimeSoDa的大多数预测任务中优于经典ML方法。这一致性延伸到农田尺度DSM固有的小样本机制，使用了少至30个土壤样本的数据集。这种小样本条件历史上被认为对ANN不利，这使得我们的发现对于农田尺度DSM尤其值得注意。

现代ANN在低维和高维数据集上的一致性能直接挑战了随机森林和线性回归在土壤计量学中已建立的主导地位。现代ANN与早期ANN评估的关键区别在于其架构创新或引入了根本上不同的机制，如注意力、检索或上下文学习。

虽然现代ANN在低维和高维数据集上都优于经典ML，但对于高维数据，性能差距明显更小。我们高维实验的一个关键区别是使用了PCA进行降维。尽管如此，现代ANN保持了性能优势，并展示了与PCA等降维技术的普遍兼容性。这种跨不同数据特征的通用性代表了为DSM选择现代ANN架构的另一个关键优势。

我们将现代ANN的成功解释为它们为DSM带来的更广泛能力的代表性例子。然而，即使是最佳土壤计量模型也仍然受到基本DSM约束的限制。

4.2 论TabPFN的成功

TabPFN在我们所有的实验中始终取得了最高性能，成为低维和高维数据集上排名第一的模型。这与Hollmann等人的说法一致，即TabPFN特别擅长中小型数据集。

TabPFN的实用优势超出了预测性能。它计算效率高，在评估的DSM数据集上几秒钟内即可产生预测。与传统的ML方法不同，TabPFN既不需要超参数优化，也不需要数据集特定的训练。这些特性消除了ML工作流程中最耗时和技术挑战性的两个方面。这对于土壤计量建模尤为重要，主要的计算瓶颈通常来自迭代的超参数优化，而不是单个模型训练。TabPFN完全绕过了这个瓶颈，使其对于DSM应用异常实用。

此外，TabPFN的成功指出了创建土壤学特定基础模型的机会。然而，土壤表现出具有独特结构和复杂生物地球化学相互作用的特性，通用的合成先验可能无法完全代表。探索嵌入基本领域知识和物理规则的土壤信息先验代表了一个有前途的研究方向。

尽管有这些优势，但不应夸大TabPFN的能力，因为在某些场景下其性能仍然有限。这些限制超出了农田尺度DSM的典型范围。同样重要的是要认识到，我们研究中展示的进展并不仅限于TabPFN。检索模型如TabR和ModernNCA，基于MLP的TabM和RealMLP，以及基于注意力的模型如T2G-Former和ExcelFormer都一致地优于经典ML基线和经典ANN架构如MLP。

最后，即使是最佳的土壤计量模型也仍然受制于基本的DSM约束。

4.3 未来考量

表格上下文学习的出现催化了额外表格基础模型的发展。我们未将这些模型纳入研究，因为它们目前仅支持分类。然而，它们可以使用Barkov等人提出的离散化方法适应回归任务。

除了预测准确性之外，不确定性量化对于DSM中的土壤计量建模仍然至关重要。虽然我们的基准测试专注于点预测，但像TabPFN这样的模型可以自然地提供概率预测以进行不确定性估计。此外，其他ANN特定的模型无关的不确定性量化方法也可以评估。

此外，由于我们建议将现代ANN作为未来土壤计量研究的安全默认选择，这为该领域开辟了ANN特定改进的可能性，这些改进可以进一步提高模型性能。

此外，土壤数据的空间性质提出了超越我们表格框架的引人注目的研究方向。未来的工作可以探索将这些高性能表格模型与显式的空间相关结构结合的混合架构。

这些机会，连同已证明的现代架构性能，表明ANN已经足够成熟，不仅可以推进农田尺度DSM，还可以为未来的进步解锁快速发展的深度学习方法学领域。

5 结论

本研究首次系统评估了用于DSM小样本表格数据的现代ANN。我们实施并评估了全面的近期最先进的ANN架构，包括基于MLP的模型、基于注意力的变换器、基于检索的方法和上下文学习模型。我们将这些架构与已建立的经典ML基线在来自LimeSoDa的31个不同数据集上进行了比较。通过这个多数据集且完全可重复的基准测试，我们为土壤计量学和DSM建立了一个新的综合基准测试标准。

我们的结果表明，许多现代ANN在农田尺度DSM任务中始终优于经典ML方法，即使在具有挑战性的小样本条件下也是如此。上下文学习模型TabPFN成为一种特别强大的方法，超越了随机森林、线性回归和PLSR这些土壤计量建模中长期以来的默认方法。因此，我们推荐TabPFN作为农田尺度DSM的新默认模型和基线。这一建议不仅源于其优越的预测性能，还源于其操作的简单性，消除了超参数优化和数据集特定训练的需要。

虽然经典ML在特定领域，如样本量极少且采用PCA预处理的高维数据集（少于50个土壤样本）中仍保留优势，但随着数据集规模的增加，其优势迅速减弱。即使对于仅包含50-100个土壤样本的数据集，现代神经网络架构也能展现出明显的性能优势，挑战了先前关于深度学习一般样本量要求的观点。

我们的发现表明，最近的表格深度学习研究浪潮转化为DSM的有形利益。这些结果标志着DSM向前迈出了实质性的一步，随着深度学习和土壤计量学领域的不断发展，未来的进步有望进一步提高精准农业应用中的地图准确性和可靠性。