《Smart Agricultural Technology》:Farm-level yield prediction for maize, rice, and beans in Tanzania using machine learning and multi-source agricultural data
编辑推荐:
本文聚焦农业生产力提升与粮食安全的关键需求,针对传统田间评估耗时耗力、统计模型难以捕捉复杂气候与土壤因子交互作用的局限,研究人员利用机器学习和多源农场数据,开展了对坦桑尼亚玉米、稻米和豆类三种作物的农场级产量预测研究。研究结果显示,在多种集成学习模型中,Extra Trees模型表现最佳,其综合多作物R2高达95%,为小农户的种植规划和气候适应决策提供了精准、可操作的预测工具,具有重要的应用价值。
气候变化正在全球范围内对农业生产造成持续冲击,自1961年以来,全球作物生产力已下降约21%,温暖的热带地区降幅尤其显著。对于依赖雨养农业的发展中国家而言,这一挑战尤为严峻。在坦桑尼亚,农业贡献了全国26%的GDP,雇佣了超过65%的人口,但主要粮食作物如玉米、稻米和豆类的生产力已显著下降,预计未来还将进一步下滑。传统作物产量预测方法通常基于区域或国家层面的汇总数据,难以反映单个农场独特且多变的气候、土壤和管理条件,无法为最需要精准指导的小农户提供切实可行的见解。因此,开发能够精准预测单个农场产量,并能适应多种作物的模型,对于提高农业韧性、保障粮食安全和支持小农户决策至关重要。
为了应对这一挑战,一篇发表在《Smart Agricultural Technology》期刊上的研究,提出并验证了一种基于机器学习的农场级多作物产量预测模型。研究人员旨在探索机器学习模型能否以及如何准确预测坦桑尼亚农场层面的玉米、稻米和豆类产量,并找出预测性能最佳的算法。
本研究主要应用了以下关键技术方法:首先,从坦桑尼亚姆贝亚(Mbeya)、鲁伍马(Ruvuma)和松圭(Songwe)地区2012年至2024年间的农场记录中,收集并整合了包含降雨量、温度、土壤类型、农场面积、作物类型和产量(kg)的多源数据集。其次,利用Python的Scikit-learn库,构建并比较了四种集成学习模型:随机森林(Random Forest)、梯度提升(Gradient Boosting)、极端梯度提升(Extreme Gradient Boosting)和极度随机树(Extra Trees)。第三,采用五折交叉验证和网格搜索(GridSearchCV)进行超参数调优,以优化模型泛化能力并减少过拟合。最后,使用决定系数(R2)、平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)等指标全面评估模型性能。
研究结果
4.1. 随机森林模型
随机森林模型取得了R2为95%的预测性能,表明其能够解释数据中大部分方差,具有较强的预测能力。
4.2. 梯度提升模型
梯度提升模型取得了R2为97%的预测性能,显示出强劲的预测准确性。
4.3. 极端梯度提升模型
极端梯度提升模型取得了R2为97%的预测性能,表现稳定且一致。
4.4. 极度随机树模型
极度随机树模型取得了R2为99%的预测性能,其极低的MAE和高R2值表明了卓越的预测性能,优于所有其他测试算法。
4.5. 超参数调优
为进一步提升模型泛化能力,研究进行了超参数调优。调优后,极度随机树模型依然表现最佳,其R2为95%,MAE为65.37单位,MSE为6719.43单位,RMSE为80.97单位。梯度提升和极端梯度提升模型均达到R2为94%,随机森林为93%。
4.5.1. 不同作物类型的模型性能
针对特定作物的分析显示,极度随机树模型在所有三种作物上均表现最优:玉米和豆类的R2达到81%,稻米为79%。豆类和玉米的预测精度普遍高于稻米,这可能是因为豆类和玉米的生长条件相对均一,而雨养稻米对水分和温度变化更为敏感,导致产量异质性更高。
讨论与结论
综合来看,在评估的四种集成学习模型中,极度随机树(Extra Trees)模型取得了最高的预测性能。这得益于其随机化的分割选择和去相关的树结构,能够有效减少方差,并对嘈杂、异构的农场级数据表现出更强的鲁棒性。该模型在捕捉气候、土壤和农场层面变量之间复杂的非线性交互作用方面表现出色,同时保持了适用于农场级部署的计算效率。虽然随机森林和基于提升的模型也表现出强劲性能,但极度随机树在预测准确性和运行效率之间达到了最佳平衡。
特征重要性分析揭示了影响产量的关键驱动因素。作物类型是最重要的预测因子,贡献了模型预测能力的70%以上,这反映了玉米、稻米和豆类在生理和遗传上的内在差异。降雨量是第二重要的因素,约占预测能力的25%,凸显了水分供应在支持作物关键生理过程中的核心作用。相比之下,土壤类型、温度和农场面积等因素的贡献较小。
这项研究证实了,利用降雨量、温度、土壤类型、农场面积和作物类型等关键气候与农场层面变量,机器学习模型能够为坦桑尼亚的玉米、稻米和豆类提供可靠的农场级产量预测。研究结果突出了集成学习在捕捉复杂非线性关系方面的有效性,为支持气候适应性农业决策提供了实用工具。尽管存在对农户报告产量数据的依赖以及模型在不同农业生态区泛化能力的局限,但该方法展示了为小农户提供精准、可操作见解的巨大潜力。
未来,将机器学习与基于过程的作物生长模拟模型(如DSSAT和APSIM)相结合,构建混合或耦合模型,可以进一步提升预测的稳健性和可解释性。同时,应用可解释人工智能(Explainable AI)技术,如SHAP值,可以量化各因素对预测产量的影响,为农民、推广人员和政策制定者提供易于理解的农学见解。这项研究为在数据有限且气候多变的地区,开发准确、可解释且可转移的农场级产量预测系统指明了一条可行路径。