基于多年度、多因子机器学习框架的Delmarva地区豆类作物产量稳健预测模型构建及其机制解析

《Smart Agricultural Technology》：Developing a Robust Yield Prediction Model for Bean Cultivars ( Fabaceae) in the Delmarva Region Using Multi-Faceted and Multi-Year Data

【字体：大中小】 时间：2026年03月16日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　美国Delmarva半岛豆类生产面临气候多变、土壤贫瘠的挑战，产量预测困难。本研究通过整合基因型(G)、农艺性状(A)、管理实践(M)与环境因子(E)四个维度，利用Random Forest (RF)和XGBoost算法构建了覆盖四个豆种、八个生长季的产量预测模型。研究发现，农艺性状与环境的组合(E+A)预测效果最佳，整合全部因素(G+E+A+M)的模型获得最高的跨年预测精度(R2最高达0.76)。这为应对气候变化的豆类精准管理和品种推荐提供了数据驱动的决策工具。

在全球气候变化加剧、人口持续增长的背景下，保障粮食安全，尤其是富含植物蛋白的豆类作物稳定生产，已成为全球农业面临的严峻挑战。豆类不仅是重要的营养来源，其固氮能力还能改善土壤，可谓一举两得。然而，豆类对气候波动异常敏感，高温、干旱、降雨不均都可能导致其大幅减产。在美国的Delmarva半岛，这种挑战尤为突出：这里沙质土壤保水能力差，加上年复一年捉摸不定的天气，使得豆类产量像坐过山车一样起伏不定，从2014年的平均每公顷仅93.5公斤，到2023年的每公顷6279.9公斤，差距悬殊。传统方法难以对这种复杂多变的产量进行准确预测，农民和决策者往往“靠天吃饭”，难以提前规划。为了破解这一难题，来自美国马里兰大学东岸分校的研究团队开展了一项雄心勃勃的研究，他们试图利用强大的机器学习工具，为Delmarva地区的豆类产量“把脉”，找出影响产量的关键因素，并建立可靠的预测模型。这项研究成果最终发表在了《Smart Agricultural Technology》期刊上。

为了完成这项研究，研究人员综合运用了多项关键技术。首先，他们构建了一个覆盖八年（2014-2020年及2023年）、包含绿豆、豇豆、芸豆、木豆共4个豆种11个品种的多年度田间试验数据集，数据来自马里兰大学东岸分校农业试验站。其次，他们系统采集并整合了四大类预测因子：基因型（G，即品种）、农艺性状（A，如株高、荚果数、种子数、生物量和产量本身）、管理实践（M，如试验结构和重复）以及环境因子（E，如温度、热胁迫指数HSI、生长度日GDD和降水量）。接着，研究采用两种非线性机器学习算法——Random Forest (RF) 和 eXtreme Gradient Boosting (XGBoost)，在从单因素到全因素共15种不同的预测因子组合配置下，系统评估了G、E、A、M四大类因素对产量预测的相对贡献。最后，他们通过重复的K折交叉验证和留一年交叉验证等严格的模型评估策略，确保了模型性能评估的稳健性和可靠性。

研究结果部分详细展示了模型的分析与预测效能：

3.1. 天气年际变化：研究清晰地揭示了Delmarva地区显著的年际气候波动。例如，2016和2018年夏季持续高温，而2014和2023年则异常干旱。降水量也从2016年的910.1毫米骤降到2014年的299.7毫米。这种剧烈的环境异质性为后续建模提供了关键的背景。

3.2. 不同豆类品种农艺性状的描述性统计：对11个品种的分析显示了显著的基因型差异。例如，木豆品种植株最高（平均1.32-1.55米），而豇豆和芸豆较矮。豇豆品种“Queen Anne”产量最高（平均6905.5 kg/ha），而某些木豆品种产量较低。这为理解基因型对产量的潜在贡献提供了基础。

3.4. 农艺与环境变量的相关性矩阵：线性相关分析显示，单一变量与产量的直接线性关系很弱（r值多小于0.20），例如产量与热胁迫指数HSI仅呈弱负相关（r = -0.22）。这表明产量形成是复杂的非线性过程，简单的线性模型难以捕捉，从而印证了使用RF、XGBoost等非线性机器学习算法的必要性。

3.5. 机器学习模型的比较特征重要性：RF和XGBoost模型揭示了对产量预测最重要的变量。在RF模型中，热胁迫指数HSI、每米荚果数和累计降水量是最重要的三个预测因子。而在XGBoost模型中，编码后的品种（即基因型）重要性最高，其次是HSI和降水量。这表明两种算法虽然都识别出环境胁迫（HSI、降水）的关键作用，但XGBoost更强调品种间的遗传差异。

3.6. 基于年份的谷物产量预测模型性能：模型预测精度存在显著的年份差异。在环境模式相对一致、产量分布较集中的年份（如2017-2019年），两个模型都取得了很高的预测精度（R2 在0.87-0.98之间）。而在气候变异性大、产量值分散的年份（如2014、2015年），预测性能则下降，甚至出现负R2值。这突显了跨年建模的挑战以及环境一致性的重要性。

3.7. 使用单一输入的谷物产量预测模型性能：在仅使用单一类别预测因子的模型中，农艺性状表现出了最强的独立预测能力（组合年份R2 ≈ 0.53），其次是环境变量（R2 ≤ 0.49）。而仅使用基因型或管理因子的模型贡献微乎其微。这表明，与产量形成直接相关的植物表型（农艺性状）是预测能力最强的单一信息来源。

3.8. 使用两种输入的谷物产量预测模型性能：当结合两类预测因子时，模型的预测能力显著提升。其中，环境与农艺性状的组合在所有两因素组合中表现最优（RF R2 = 0.69; XGBoost R2 = 0.71）。这强有力地证明，将环境胁迫信息与作物自身的生长表现相结合，能极大地改善预测效果。

3.9. 使用三种输入的谷物产量预测模型性能：整合三类预测因子进一步提升了模型性能。结合了农艺性状、环境以及基因型或管理因素的三因素模型，都表现出很强的预测能力（R2 ≈ 0.70–0.73）。

综合讨论与结论，本研究通过系统的多年度、多因子机器学习分析，得出了几个核心结论，验证了研究初期的假设。首先，环境变量是驱动产量年际变化的主要力量，这支持了假设H1，凸显了Delmarva地区气候波动对豆类生产的决定性影响。其次，农艺性状在单个生长季内显示出最强的预测能力，这符合假设H2，因为它们是最接近最终产量的生理表征。再者，基因型的贡献主要通过与环境条件的交互作用体现，而非独立的预测因子，这与假设H3一致，说明品种的优势需要在特定环境背景下评估。最后，管理相关变量因季节内变异有限，其独立预测影响力较弱，支持了假设H4。

本研究的核心发现是，整合全部四类因子的完整模型（G+E+A+M）取得了最优的跨年综合预测精度（RF R2 = 0.73; XGBoost R2 = 0.76）。这标志着在多变沿海雨养农业系统中，构建稳健产量预测模型的重大进展。其重要意义在于：从科学认知上，该研究定量解析了G、E、A、M四类因素在豆类产量形成中的相对贡献与交互作用，深化了对复杂农艺系统的理解。从方法学上，研究展示了一套可推广的多年度、多因子机器学习分析框架，为类似生态区的作物建模提供了范本。从应用实践上，该模型能够为农户提供基于气候预测的品种选择建议和田间管理策略，助力发展气候智能型农业，提升豆类生产在面对气候变化时的韧性和可持续性。最终，这项研究不仅为Delmarva半岛，也为全球其他环境脆弱地区的豆类生产，提供了一把数据驱动的“决策钥匙”。

热点排行

新闻专题