评估最具可扩展性、准确性和成本效益的机器学习框架，以估算地中海地区的林地-牧场产量

《Precision Agriculture》：Evaluation of the most scalable, accurate and cost trade-offs machine learning framework to estimate the Mediterranean wood-pasture yield

【字体：大中小】 时间：2026年05月10日 来源：Precision Agriculture 6.6

编辑推荐：

　　**摘要** **目的** 可持续的放牧管理需要精确了解每日营养需求以及牧草干物质的数量和质量。将多种数据源与机器学习模型相结合，可以创建准确的预测系统，以优化喂养方式、降低成本并保持牧草生产力，从而帮助农场长期保持经济可行性。 **方法** 本研究评估了69个机器学

　　**摘要**

**目的**
可持续的放牧管理需要精确了解每日营养需求以及牧草干物质的数量和质量。将多种数据源与机器学习模型相结合，可以创建准确的预测系统，以优化喂养方式、降低成本并保持牧草生产力，从而帮助农场长期保持经济可行性。

**方法**
本研究评估了69个机器学习模型——这些模型结合了三种算法和23个数据集，包括温度-降雨量数据、牧草分类数据、Sentinel 1和Sentinel 2卫星数据以及土壤数据——这些数据来自对位于意大利撒丁岛的两个地中海森林牧场进行的一年期研究。比较了这些模型在准确性、可扩展性和应用成本方面的表现，以确定最有效的预测牧草和放牧条件的框架。

**结果**
最准确的模型使用了Ensamble Learner（EL）算法，并结合了温度-降雨量数据、Sentinel-2卫星数据和牧草分类数据，其均方根误差（RMSE）为469.92公斤/公顷干物质（kg·ha?1 DW），平均绝对误差（MAE）为402.61公斤/公顷干物质（kg·ha?1 DW），决定系数（R2）为0.98。然而，这种模型在大规模应用中并不实用，因为牧草分类需要高素质的人员和耗时的现场调查。一种可扩展且零成本的替代方案使用了EL算法，结合了温度-降雨量数据和Sentinel-2卫星数据，其误差指标与之相当。

**结论**
研究应关注整个机器学习工作流程，从问题定义和协变量选择到预处理和评估，而不仅仅是算法本身。可靠的牧草产量建模至少应包括温度-降雨量数据和Sentinel-2多光谱数据。未来的工作将应用这些模型来估算产量、绘制管理区划图，并根据测量到的牧草利用情况生成轮牧规划图。

---

**图例说明：**
此图像的替代文本可能是通过人工智能生成的。首次回归测量是在春季（2023年5月15日）进行的，并应用于春季和秋季的读数（方程1）：$$\:{Y}_{d}=0.8274*c+2133.9\:\left({R}^{2}=0.78\right)\:\:\left(\text{k}\text{g}\:{\text{h}\text{a}}^{-1}\:\text{D}\text{W}\right)$$ （2）第二次回归是在冬季（2024年1月29日）计算的，用于生产力最低的季节（冬季和夏季）（方程3）：$$\:{Y}_{d}=0.4206*c+739.49\:\left({R}^{2}=0.74\right)\:\:\left(\text{k}\text{g}\:{\text{h}\text{a}}^{-1}\:\text{D}\text{W}\right)$$ （3）牧场分类牧场分类用于表征林地-牧场状况，在地理定位点周围大约10×10米的区域内进行，以评估木本植物的存在情况，其占比通过目视估计得出。根据这一分类，牧场分类包括是否观察到木本植物（二分类）以及木本植物的实际占比。地理定位点被分配到以下类别之一：林地-牧场点，当正方形区域内有灌木或树木时（至少任意两种木本植物）；牧场点，当没有木本植物时；含有阿斯福尔德草（Asphodelus microcarpus Salzm. et Viv.）的牧场点；岩石牧场点，当可见裸露的岩石时。因此，木本覆盖率既作为林地-牧场存在的分类描述符，也作为基于每个10×10米样本点内目视估计占比的连续协变量，从而保持了空间异质性，并确保与Sentinel-1和Sentinel-2数据的空间分辨率一致。此外，牧场的平均木本覆盖率是所有样本点木本覆盖率的平均值。

土壤分析2023年春季，在128个地理定位点上使用螺旋钻从0-15厘米的表土层采集了土壤样本。在一些靠近岩石露头的地点，实际采样深度在10到15厘米之间变化。样本是通过合并几个距离地理定位中心点几米范围内随机分布的三个螺旋钻重复样本获得的。样本在35°C下烘干并经过2毫米筛分。对细土部分进行了物理和化学分析，以确定沙子、粉砂、粘土、水中的pH值以及KCL中的pH值、有机碳（OC）、总氮（TN）、碳氮比（C/N）、有效磷（P_A）、交换性钙（Ca_ex）、镁（Mg_ex）、钠（Na_ex）、钾（K_ex）、交换性酸度（Ac_ex）、阳离子交换容量（CEC）、碱饱和度（BS）、交换性钠比例（ESP）以及从上述性质派生的一些其他指标。

用于训练机器学习模型的协变量共有57个，这些协变量与农业生态系统的不同元素相关，具有不同的时空分辨率。选定的协变量应全面代表农业系统的所有组成部分，包括作物相关因素、土壤特性和气候参数（Fiorentini等人，2024年）。协变量列表包括：（i）年份月份，（ii）温湿度数据，（iii）牧场分类，（iv）Sentinel-1卫星的SAR数据，（v）Sentinel-2卫星的多光谱波段和植被指数，以及（vi）土壤数据。机器学习模型的可扩展性主要取决于用于模型训练的协变量的类型和可用性。依赖于现场测量的协变量，如牧场分类和土壤数据，需要耗时、成本高昂且特定于地点的现场调查和实验室分析，这限制了模型在大尺度空间应用的可能性。相反，来自全局可获取数据集的协变量，如温湿度变量和Sentinel-1及Sentinel-2的卫星数据，可以免费获取并在广泛的地理区域内一致地获得。使用这些数据集有助于模型的可转移性和可扩展性，尽管数据源之间的空间和时间分辨率差异可能会影响预测的详细程度。用于训练机器学习模型的数据集组和协变量列表见表1。表1 数据集组、协变量及其单位测量、来源以及空间和时间分辨率。

年份月份是指进行牧场测量的月份。温湿度数据是根据调查当天计算的平均温度（°C）和降水量（mm），数据来自NASA POWER API服务（Sparks，2018年）。与调查当天最相关的Sentinel 1和Sentinel 2卫星星座的卫星图像是在最大云量为30%的情况下下载的。Sentinel 2的多光谱图像被用来计算19个植被指数，这些指数在表1中报告；而Sentinel 1的C波段被用来计算VV和VH极化的雷达后向散射系数（σ°）（表1）。

为了确定估算林地-牧场干物质的最佳机器学习框架，考虑了3种机器学习算法与5个数据组的23个数据集的组合。因此，总共评估了69个不同的模型（表2）。表2 数据集编号及其协变量组成。

比较了三种机器学习算法：随机森林（RF）（Svetnik等人，2003年）、极限梯度提升（XGBoost，Chen & Guestrin，2016年）和集合学习器（EL）（Mienye & Sun，2022年）。这些机器学习算法因其在科学文献中的易比较性而被选中（Chlingaryan等人，2018年）。RF使用一种集合学习方法，该方法由许多决策树或回归树组成（Breiman，2001年；Kim & Lee，2016年），并使用装袋技术将数据集并行分割成同质的子集（树）。在构建每棵树时，RF随机抽样训练数据，并使用一组随机特征来创建预测模型。最终预测是通过对所有树/模型进行组合（装袋）并使用平均预测结果得出的。与RF类似，XGB也使用集合学习方法，但采用提升而非装袋。EL是一种模型，用于确定要分配给RF和XGB模型个别预测的权重，从而创建一个新的输出映射层，这可能导致比单一学习算法更高的预测性能（Zhou，2009年）。EL使用堆叠方法实现。具体来说，使用R中的stacks框架结合了调整后的随机森林和XGBoost模型的预测。通过拟合在交叉验证（out-of-fold）预测上的规则化线性元模型来学习集合权重。此过程通过防止信息泄漏，因为元学习器仅训练来自重采样训练折叠的预测。通过在混合步骤期间进行正则化和评估多个重采样迭代中的候选权重来进一步控制过拟合。然后通过将选定的基础模型拟合到全部训练数据并使用学到的权重来构建最终集合。整个建模过程，包括数据预处理、训练、调整和测试操作，都是在R统计编程语言中使用的tidymodels R包（Kuhn & Wickham，2020年）完成的。牧场分类是通过将名义数据（例如因子字符串）转换为对应于原始数据级别的一个或多个数值二进制模型项来编码的。在训练模型之前，移除了所有报告牧场产量等于0的行。

为了移除高度相关的预测因子，使用了R中的“step_corr()” tidymodels函数，该函数可以移除相关性较高的预测因子，在这项工作中，相关性阈值为0.8。空间自相关性通过使用R中的“spatial_block_cv()” spatialsample函数来处理，以训练和评估机器学习框架。所有机器学习模型的超参数都使用15网格搜索进行调整（Raschka，2020年）。机器学习模型使用主要统计参数进行错误评估，即R2、平均绝对误差（MAE）和均方根误差（RSME）（Arratia等人，2025年；Rainio等人，2024年；Soman等人，2022年）。为了识别能提高每个模型准确性的最重要变量，使用vip R包中的vip函数计算了变量重要性（Kuhn & Wickham，2020年）。

在12个月的研究期间，收集了1280次干物质（DM）牧场产量的观测数据，以估算年均产量，如图2a所示。A地的年均DM产量为993 ± 1840公斤/公顷，B地为1371 ± 2287公斤/公顷。B地更高的生产力可能与其较少的水涝有关，这支持了更快的春季生长反应。干物质产量分布显示出轻微的负平均偏度（-0.22）和峰度1.37。生物量动态遵循明显的单峰季节性模式，六月达到一个峰值（A地最大为5537公斤/公顷），这是由于平均温度升高和有利的降水（图2b），随后是夏季干旱，降水量几乎为零且温度很高，导致牧草可用性下降并限制了峰值后的再生。春季之外，平均产量急剧下降，从七月到二月保持在较低水平（A地和B地分别为153公斤/公顷和215公斤/公顷），月际变异性有限。九月到十月的生物量缺失（裸土状况）反映了由于前一年的夏季干旱和初秋降雨不足而导致的真正季节性生长停止。这种由年度气候条件引起的牧草分布的高变异性反映在年均生物量数据的标准偏差上，两个地块的標准偏差都非常高。牧场分类数据显示，木本植物覆盖了7.2%的面积。

图2 这张图像的替代文本可能是使用AI生成的。

A地和B地2023年5月到2024年4月的平均干重量牧场产量（Yd）（a）。平均月温度和累计降水量（b）。这两个地块（A地和B地）具有相同的USDA土壤质地类别（沙壤土），有机碳含量（约为2.4%），pH值（平均5.8到6.0），以及CEC（23 meq/100 g?1），但在其他几个性质上有所不同（表3）。主要差异与P_A、K_A、K2O、Ca_ppm、Ca_ex、Na_ex、K_ex、Mg_K和K_Na有关，这些在A地有时较高，在B地有时较低（分别高出+53%、-44%、+37%、+37%、+35%、-71%、-159%）。

所有训练过的框架在训练数据上的表现略优于评估数据（S1、S2，表4和表5）。每个模型之间的误差指标差异很小（平均0.1 R2），并不显著，表明没有过拟合。尽管如此，我们还是应用了空间块交叉验证方法spatial_block_cv()，该方法强制训练和验证折叠之间的空间分离，减少了空间泄漏，并有助于确保评估结果反映了真实的样本外性能。最佳的机器学习框架是Thermo-Pluviometric & Sentinel 2 & 牧场分类和EL的组合，其RMSE、MAE和R2分别为469.92公斤/公顷干物质、402.61公斤/公顷干物质和0.98（表4和表5），而表现最差的框架是Sentinel-2和XGB，其RMSE比Thermo-Pluviometric & Sentinel 2 & 牧场分类和EL高出52%。两个框架之间的预测准确性差异在RMSE上为+512.84，在MAE上为+252.53，在R2上为+0.11。不需要任何现场测量的最佳机器学习框架是Thermo-Pluviometric & Sentinel 2和EL，其与最佳框架相比，预测准确性的差异在RMSE和MAE上分别为-1.2公斤/公顷干物质和-1.68公斤/公顷干物质（表4和表5）。在检查表现最好的十个模型时，温湿度协变量组始终被包括在内，突显了其在预测性能中的主导重要性。Sentinel-2数据出现在前十名模型中的8个模型中，进一步突显了它们的实质性贡献。土壤变量出现了6次，牧场分类出现了5次，Sentinel-1数据出现了4次。在前十名算法中，EL方法出现了6次，而RF在4个模型中被选中；值得注意的是，XGB没有出现在表现最好的方法中。

图3展示了对最准确的机器学习框架性能贡献最大的十个协变量。温湿度变量（温度和降水）显示了最高的重要性得分（89），其次是Sentinel-2近红外（NIR）波段（26.4）和RDVI（9.45）。相比之下，调查时期、牧场分类和土壤变量对模型性能的贡献较小，重要性得分分别为2.32、0.6和0.4。图4展示了由第二优秀表现的最佳机器学习框架生成的牧场干重产量预测结果，该框架使用了基于热雨量数据和Sentinel-2卫星数据训练的集成学习器，这些数据是在A场收集的。表4显示了在评估阶段与六十九个机器学习框架相关的误差指标，并按RMSE结果降序排列。表5也显示了相同的误差指标信息。图3的替代文本可能是使用AI生成的。图4的替代文本同样可能是使用AI生成的。图5展示了使用热雨量数据和Sentinel-2数据训练的集成学习器对A场牧场干重产量的预测结果。

讨论

年度生物量动态遵循了地中海天然牧场的典型生产模式，这类牧场通常在春季（3月至6月）表现出明显的生长高峰，这得益于温度升高和降水适量的有利组合；随后在夏末（8月至10月）由于降雨的发生，可能会出现一个生长速度较慢的次级生长阶段（Pornaro等人，2018年）。然而，在本研究中，牧场生产力受到水涝状况的强烈影响——特别是在A场，其生产力始终低于B场。在这些条件下，晚秋和冬季的高降水量与温度下降的结合抑制了次级生长阶段的发生。因此，生物量供应量保持较低，直到下一个春季才开始增加（见图2）。此外，夏季干旱导致产量急剧下降，影响持续到初秋，9月和10月时甚至无法检测到牧草（土壤裸露）。地中海灌木丛中典型的树木和非灌木木质物种的存在进一步降低了平均牧草产量（993–1371公斤/公顷干物质），而典型的地中海草本牧场产量通常在1400至1800公斤/公顷干物质之间（Hakyemez等人，2008年）。年平均产量的高标准差反映了田间显著的空间异质性和牧草供应的固有季节性变化。由于饲养者采用的放牧模式不规则，产量在田间内外都存在更大变异性。

结合热雨量变量、Sentinel-2数据、植物群落分类以及集成学习器算法的模型是最准确的建模框架（见表4）。该框架获得了最低的误差指标和最高的决定系数（R2），表明整合气候、多光谱卫星图像和详细的植物群落信息能够最准确地解释牧场产量的空间和时间变化（Raschka，2020年）。这一框架的预测改进与现有证据一致，即温度、降水量和植被功能组成（近红外波段和植被指数）共同监测了牧草生长动态（Chasen等人，2025年；García-Baquero等人，2020年）。该框架获得的误差指标与近期文献中报道的最佳模型结果完全一致（Chasen等人，2025年；Fernandes等人，2024年；Huang等人，2024年；Stumpe等人，2024年）。

第二优秀的框架——结合了热雨量变量和Sentinel-2数据以及集成学习器——的性能几乎与最佳框架相同（Arratia等人，2025年；Rainio等人，2024年）。两者之间的RMSE和MAE差异微不足道（分别为1.2公斤/公顷干物质和1.68公斤/公顷干物质），它们的R2值也非常接近（Sardaro等人，2024年）。这表明第二优秀的框架可以在不显著损失准确性的情况下使用。重要的是，与最佳框架不同，第二优秀模型仅依赖于可扩展且低成本的协变量（Ledvinka等人，2026年）。这一发现表明，包含牧场分类数据并不会显著提高准确性，从而不需要额外的时间、财务成本和专门的调查技术（Defalque等人，2024年）。因此，在平衡准确性、可扩展性和成本效益时，第二优秀框架可以被认为是操作应用中最合适的方法。

依赖温度、降水量和Sentinel-2数据的框架之所以表现优异，是因为这些数据在机制上具有很强的相关性，并且是全球免费、频繁获取的（Gargiulo等人，2023年）。热雨量变量通过决定植被生长期长度、光合作用和呼吸速率以及植物可利用的土壤水分来控制牧场生长（Martins-Noguerol等人，2023年）。充足的降雨期促进生物量迅速积累，而干旱或降雨不足则显著减少干物质产出（Liu等人，2023年）。同样，温度偏离最佳范围会根据物种特性和水分可用性增强或限制年生产力（Chasen等人，2025年）。由于这些过程驱动了大部分年际和空间上的牧草产量变化，因此包含气候变量的模型通常比不包含这些变量的模型表现更好。

因此，应用这些模型时，气候数据必须高度精确和详细。实际上，多项科学研究指出，来自NASAPOWER和ERA5等模型的气候数据可能存在显著误差（Mutlu，2025年；Tan等人，2023年）。Tan等人（2023年）报告称，NASAPOWER和ERA5可以合理捕捉总体气候模式，但会低估或高估微量或大量降雨。同样，Mutlu（2025年）在将再分析数据与实地气象站测量结果进行比较时也发现了一些显著误差。因此，使用带有温度和降雨数据的基本气象站对于获得准确估计至关重要。

在卫星数据集中，Sentinel-2的数据比Sentinel-1的数据更具信息量。即使在十个最佳框架中，Sentinel-1（VV和VH）也从第七名开始贡献，并且当与其他数据源结合使用时并没有提高预测准确性（Hashemi等人，2024年）。相反，Sentinel-2的多光谱指数与牧场产量显示出一致且强烈的相关性，这验证了先前研究中强调的光学植被指数在生物量监测中的价值（Fernandes等人，2024年；Huang等人，2024年；Stumpe等人，2024年）。土壤的物理和化学性质也通过调节根系发育、养分可用性和持水能力来影响牧场产量（Darch等人，2022年；Serrano等人，2013年）。然而，尽管土壤数据有助于提高产量估计，但其收集成本高昂、劳动密集，并且在区域层面上难以扩展。

在本研究中，土壤特征和牧场分类数据仅在整个研究期间收集了一次，因此每个点和调查日期的数据都相同。这导致机器学习模型的变异性较小，因此这些变量对空间和时间上的牧场产量建模贡献有限。这一结果与其他研究结果一致，即当土壤调查仅限于一次时，准确性提升有限。为了了解土壤和牧场分类数据的重要性，建议制定一个采样计划，以便为每个调查日期获取这些信息，但这需要大量时间和费用，并且难以扩大规模，因此无法开发出可供农场每周计划活动使用的系统。此外，由于是天然牧场，动物放牧会减少生物量的空间分布变异性。这使得与草地或牧场相比难以建立模型，因为在草地或牧场中会应用牧场规划和农艺管理。在未来的工作中，数据可以与植物群落组成数据结合，从而计算牧场的牧业价值和田间物种的适口性，这是制定轮牧计划的基础。

表现最佳且一致的机器学习算法是随机森林（Random Forest）和集成学习器（Ensemble Learner）模型。它们处理非线性相互作用和混合数据类型的能力使它们非常适合整合气候和遥感协变量（Gawdiya等人，2024年）。值得注意的是，XGB并未出现在本研究中表现最好的方法中。这可能是因为它对超参数调整敏感，并且在信噪比较低或预测变量高度相关时容易过拟合，这在多光谱指数和气候变量中很常见。相比之下，随机森林和集成方法通常对多重共线性更具鲁棒性，且需要较少的调整（Chlingaryan等人，2018年），这可能有助于它们在各种框架中表现更加稳定和优越。

分析还表明，仅基于一个数据源（无论是Sentinel-1、Sentinel-2还是非CSI牧场分类）的模型也能达到可接受的性能，但结合至少两个数据源（特别是Sentinel-2和气候数据）可以产生更准确的结果（Balasubramaniam等人，2025年）。这一见解对于优化数据收集策略和降低成本至关重要：只有最具影响力的变量才应被优先考虑，以提高模型准确性，同时最小化不必要的现场工作。

总体而言，我们的研究结果表明，将热雨量协变量与Sentinel-2多光谱图像结合，并应用集成学习器，可以在预测准确性、操作可扩展性和经济效益之间找到最有利的平衡。这种方法在需要适度计算资源和易于获得的遥感输入的情况下，实现了稳健的样本外性能。为了保证可重复性并在操作环境中展示该方法的可扩展性，我们通过一个交互式网络应用程序提供了相邻农业田块的模型预测（见补充材料：https://agronomofiorentini.shinyapps.io/ECPA2025/）。该模型可以直接用于设计和调整放牧轮换策略，包括与虚拟围栏技术的集成。通过优化可用牧草生物量的管理，这些应用减少了饲养员的劳动需求，并能够在牧草稀缺时期更有效地规划补充饲料（牧草和浓缩饲料）的投入。实际上，将近乎实时的生物量预测与轮牧相结合——无论是手动管理还是通过虚拟围栏控制——有助于决策制定，从而提高牧场利用率、动物福利和农场层面的饲料成本效率。

结论

最准确的用于预测地中海林地-牧场产量的机器学习框架结合了集成学习（EL）算法、热雨量变量、Sentinel-2多光谱数据和牧场分类数据，实现了最低的误差指标。然而，由于牧场分类数据需要实地测量，这一最佳框架无法扩展到区域层面。收集、地理参考和数字化这些数据既耗时又昂贵，且需要专业技能。一种更可扩展且免费的替代方法使用热雨量变量和Sentinel-2数据以及相同的EL算法，其RMSE和MAE仅略高于最佳框架，而R2值保持不变，这在准确性、可扩展性和成本节约之间提供了出色的平衡。因此，与第二最佳模型相比，该模型的采用不会显著损失精度。

分析还显示，不同模型-数据组合之间存在显著差异：表现最差的框架产生的误差指标几乎是最佳框架的两倍。这表明算法的选择和输入数据集的组成对预测性能有很大影响。基于此，建议研究者在建模地中海林地-牧场产量时至少包括热雨量变量和Sentinel-2多光谱数据（这些特征始终出现在前十名框架中）。如果资源允许，加入土壤数据和牧场分类可以进一步提高准确性；尽管Sentinel-1是免费提供的，但它可以被视为次要的可选数据源。

未来的研究将实施最有效的模型来绘制牧场产量地图，定义管理区域，并根据观察到的牲畜牧草使用情况创建指导放牧轮换的处方地图。通过改善可用牧草的管理，这些工具可以减少饲养员的劳动需求，并在牧草供应有限时更策略性地规划补充饲料（牧草和浓缩饲料）。在实际应用中，将近乎实时的生物量估计与轮牧相结合——无论是手动管理还是通过虚拟围栏控制——可以支持决策制定，从而提高牧场利用率、动物福利和农场层面的饲料成本效率。

热点排行