基于机器学习集成遥感与生物物理胁迫指数的小麦产量预测：样本量、维数与空间迁移性的影响

《Smart Agricultural Technology》：Machine Learning Approaches for Wheat Yield Prediction Integrating Biophysical Modeling and Remote Sensing: Effects of Sample Size, Dimensionality, and Transferability

【字体：大中小】 时间：2026年03月03日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　为解决小麦产量精准预测的难题，本研究评估了整合哨兵二号（Sentinel-2）植被指数（VIs）与作物胁迫指数（Stress Index, SI）对机器学习（RF、GPR、XGBoost）模型性能的提升。结果表明，SI的加入显著提升了模型的决定系数（R2），降低了均方根误差（RMSE），有效促进了特征降维（VIs需求从11个降至6个）与跨区域（例如西澳大利亚）预测的稳健性。这为在数据有限条件下构建高效、可迁移的作物产量预测模型提供了新范式。

小麦，作为全球重要的主粮作物，其收成的丰歉直接关系着粮食安全与亿万人的餐桌。然而，传统的产量预测方法常常依赖于费时费力的人工田间调查，难以满足大范围、及时监测的需求。随着遥感技术的飞速发展，特别是像哨兵二号（Sentinel-2）这样的卫星，能够提供高时空分辨率的地表观测数据，通过计算各种植被指数（Vegetation Indices, VIs），科学家们得以一窥作物的“健康状况”与生长态势。机器学习（Machine Learning, ML）模型，如随机森林（Random Forest, RF）、高斯过程回归（Gaussian Process Regression, GPR）和极限梯度提升（Extreme Gradient Boosting, XGBoost），在处理这些高维遥感数据、挖掘其与产量之间的复杂非线性关系方面展现了强大威力。但问题随之而来：仅靠某个时间点的“绿色快照”（VIs）真的能准确预知最终的产量吗？作物在生长季中默默承受的干旱、高温等环境胁迫，其累积效应如何被量化并纳入预测模型？此外，在实际应用中，训练数据往往有限，模型也需适应不同气候区的迁移预测，这些挑战如何克服？为了回答这些问题，一项聚焦于澳大利亚小麦主产区的研究在《Smart Agricultural Technology》杂志上发表了其成果。

该研究巧妙地提出，将基于生物物理模型模拟的、能够量化作物水分胁迫的动态过程指标——胁迫指数（Stress Index, SI），与遥感获取的VIs相结合，共同驱动机器学习模型。研究团队系统性地探讨了这种整合如何影响模型在有限样本下的学习效率、预测特征的维度精简以及跨区域的空间迁移能力这三个关键方面。研究得出的核心结论振奋人心：SI的引入如同一剂“强心针”，普遍且显著地提升了所有测试机器学习模型的预测精度与稳健性。具体而言，对于XGBoost模型，其决定系数（R²）从0.65提升至0.73，均方根误差（RMSE）从0.67吨/公顷降至0.58吨/公顷。不仅如此，SI的加入还使得模型达到相近精度所需的VIs数量从大约11个减少到仅需5到6个，大大简化了模型结构。更重要的是，当将在其他地区训练的模型应用于独立的西澳大利亚州进行测试时，包含SI的模型展现出了更优的迁移预测性能。这些发现有力地证明，整合反映作物生理胁迫过程的生物物理信息，能够弥补单纯依赖遥感光谱信息的不足，为构建更高效、更可靠、更具泛化能力的大尺度作物产量预测系统提供了关键思路。

本研究采用了几项关键技术方法：首先，利用Sentinel-2卫星影像在作物绿峰期的数据，计算了包括NDVI、EVI、NDWI等在内的16种植被指数（VIs）。其次，基于地面气象站数据（温度、太阳辐射、风速、相对湿度等），通过Oz-Wheat作物模型模拟了开花期前后的日尺度作物胁迫指数（SI），其定义为实际蒸散与潜在蒸散的比值。研究数据来源于澳大利亚五个州（新南威尔士、维多利亚、西澳大利亚、昆士兰、南澳大利亚）跨越五年（2016, 2017, 2021-2023）共375个田块的联合收割机实测产量数据。最后，研究使用了三种机器学习算法——随机森林（RF）、高斯过程回归（GPR）和极限梯度提升（XGBoost）进行建模，并通过交叉验证、序贯前向特征选择（SFS）等方法系统评估模型性能。

3.1. 胁迫指数、植被指数与产量的相关性矩阵

通过计算所有VIs、SI与产量之间的决定系数（R²）矩阵发现，VIs与产量普遍呈现中高度相关，其中NDMI、NDWI等指数相关性最高（R²约0.57）。胁迫指数（SI）本身与产量的单变量相关性为R²= 0.42。关键在于，SI与各VIs之间的相关性普遍较低（R²范围0.11-0.24），这表明SI提供了独立于传统光谱信息之外的、反映环境胁迫的新维度。主成分分析（PCA）也证实SI与VIs主要分布在不同的主成分上。

3.2. 评估不同样本量下的机器学习技术表现

通过逐步增加训练样本量（从30到260个）来测试模型性能。结果显示，无论样本量多少，加入SI均能提升所有三种机器学习模型的R²并降低RMSE。在样本量极小（如30个）时，提升效果尤为显著，例如GPR的R²从0.14大幅提升至0.39。这表明SI的引入极大地增强了模型在数据稀缺条件下的学习效率和预测稳定性。即使在充足样本下，SI仍能带来持续的性能增益。

3.3. 机器学习技术的空间迁移学习

为测试模型泛化能力，研究使用除西澳大利亚州外的数据训练模型，并在西澳大利亚州的独立数据集上测试。结果显示，加入SI后，所有模型在跨区域预测中的表现均有改善。以XGBoost为例，其R²从0.65提升至0.73，RMSE从0.67降至0.58。GPR和RF模型也观察到类似的R²提升和RMSE下降。这证明SI所包含的、基于过程的胁迫信息有助于模型更好地适应不同地域的环境变异，提升了空间可迁移性。

3.4. 利用胁迫指数降低机器学习技术的维度

通过序贯前向特征选择（SFS）方法，研究比较了仅使用VIs与先加入SI再逐步添加VIs两种策略下，模型达到最低RMSE所需的最少特征数。仅使用VIs时，三种模型都需要约11-12个VIs才能达到RMSE平台期。而当SI作为首要特征被引入后，模型仅需再添加4-5个VIs（总共5-6个特征）即可达到相同甚至更低的RMSE值。这显著降低了模型的输入维度，简化了模型结构，并有助于防止过拟合。

研究的结论与讨论部分对上述结果进行了整合与升华。本研究证实，将生物物理模型衍生的胁迫指数（SI）与遥感植被指数（VIs）相结合，能够系统性且显著地提升机器学习模型在小麦产量预测中的表现。这种提升体现在三大方面：数据效率、模型简洁性和空间泛化能力。SI提供了VIs所不能完全捕捉的、累积性的环境胁迫信息，这对于理解并预测气候波动下的最终产量至关重要。在“基因型×环境×管理”（G×E×M）框架下，SI有效地代表了“环境”胁迫组分，与反映“管理”和“基因型”互作光谱表现的VIs形成有力互补。

本研究的意义超越了单纯提升预测精度数值。它展示了一种可操作的框架，即通过整合过程驱动的生物物理理解与数据驱动的机器学习，来应对农业遥感中的核心挑战——如何在有限数据下构建稳健、可迁移的预测模型。该方法减少了模型对大量训练样本和高维特征输入的依赖，降低了计算成本和过拟合风险，同时增强了模型在新环境下的解释能力和可靠性。这对于在广袤且异构的农业景观中实现精准农业管理、优化资源分配以及加强全球粮食安全预警系统具有重要的实践价值。最终，论文强调，在农业机器学习模型中融入有针对性的、功能性的生物物理指标，是摆脱“黑箱”模型局限、增强模型可解释性、准确性和可迁移性的关键途径。

热点排行

新闻专题