《Smart Agricultural Technology》:Machine Learning–Based Optimization of Site-Specific NPK Fertilizer Recommendation
编辑推荐:
本研究针对传统均质化施肥难以适应土壤、气候和作物响应的时空异质性难题,开发了一种基于机器学习与约束优化的NPK肥料精准推荐系统。利用摩洛哥全国尺度7180个谷物数据点,研究比较了47种模型变体,最佳模型在随机划分下实现sMAPE≈4.5%、R2≈0.96的高精度预测。通过将预测模型嵌入惩罚加权目标函数,结合多种优化算法生成模拟NPK推荐方案,结果显示模拟产量提升高达683 kg/ha(较3.4 t/ha基线提升约20%),并在明确环境约束下改善了养分利用效率。该研究为农业精准施肥提供了可快速田间验证的决策支持新范式。
在全球粮食安全压力日益加剧的背景下,人口增长和气候变化对农业生产力的威胁不断升级。矿物肥料对维持谷物产量至关重要,然而传统的均质化施肥实践往往忽视了土壤、作物需求和天气条件的强烈时空变异性,导致养分失衡、利用效率低下和环境污染等连锁问题。精准农业(Precision Agriculture, PA)通过实现因地制宜的养分管理来应对这一挑战,使施肥投入能够适应田块内部和田块间的异质性。这一靶向范式符合4R养分管理原则(正确来源、正确用量、正确时间、正确位置),但传统土壤测试和基于规则的推荐方法往往依赖稀疏采样和简化假设,难以可靠捕捉大规模精细尺度的异质性,从而可能产生次优决策。
与此同时,传感和计算技术的进步扩大了田间观测、土壤分析、遥感和地理空间协变量的可用性,使更数据驱动的决策支持系统成为可能。在此背景下,机器学习(Machine Learning, ML)成为一个实用工具,因为作物对氮(N)、磷(P2O5)和钾(K2O)的响应是异质且非线性的,受土壤性质、作物类型、管理和环境条件之间相互作用的驱动。这类相互作用很难用固定形式的农学方程或国家尺度的稀疏土壤测试来表征。机器学习可以从异构协变量中学习产量响应模式,并作为农艺和环境约束下优化的替代模型。
为此,本研究提出了一个机器学习和约束优化框架,用于生成因地制宜的肥料推荐。该研究遵循定量方法,包括数据处理与特征工程、模型训练与评估以及肥料推荐优化三个主要阶段。研究利用了通过Al Moutmir国家计划收集的摩洛哥全国性数据集,该数据集包含三个生长季节(2018-2019年、2019-2020年、2020-2021年)八个区域的7180个田间观测点,涵盖软质小麦、硬质小麦和大麦三种主要谷物作物。数据集包含了广泛的土壤变量(如土壤pH值、有机质百分比、电导率)和记录的NPK专家推荐施用量。
在数据预处理阶段,研究采用了处理缺失值、异常值管理、数据标准化以及基于原始数据和领域知识的特征工程。为了评估模型在插值与预测性能上的差异,研究在随机采样和时间序列采样两种模式下比较了47种模型变体。性能最佳的模型在随机划分下实现了高精度的产量预测(对称平均绝对百分比误差 sMAPE ≈ 4.5%,决定系数 R2≈ 0.96),产量变异主要由地理空间、季节和养分-土壤相互作用特征解释。相比之下,时间序列划分下的性能显著下降(sMAPE ≈ 17.8%, R2≈ 0.17),反映了跨季节的结构性和区域性非平稳性。因此,所有推荐实验都依赖于在随机模式下训练的全局最佳替代模型,而时间序列结果用于诊断目的。
研究将性能最佳的预测模型嵌入到惩罚加权的目标函数中,并结合多种优化算法(确定性、随机性、元启发式、基于学习和混合算法),产生了模型模拟的NPK决策支持推荐。这些推荐在明确的环境约束下,使模拟产量增加了高达683公斤/公顷(相对于3.4吨/公顷的基线约20%),同时提高了养分利用效率。该框架建立了一个约束性学习优化决策支持范式,将农艺观察转化为模型模拟的肥料推荐,旨在优先进行快速田间测试。
关键技术方法概述
研究采用了多样化的机器学习模型套件,包括正则化线性基线、核方法和基于实例的模型、集成学习家族、堆叠集成以及神经网络架构。优化阶段使用了模拟退火、贝叶斯优化、粒子群优化等多种算法,旨在最大化目标函数,该函数平衡了预测产量与基于环境自适应惩罚项的养分投入成本。数据来源于摩洛哥Al Moutmir计划收集的多季节田间数据集,并进行了严格的数据清理、特征工程(如创建土壤健康指数、土壤肥力指数等)以及针对时空泛化能力的评估策略(如随机划分与时间序列划分)。
研究结果
模型性能与可解释性
在随机划分评估中,Extra Trees模型表现最佳,sMAPE为4.55%,R2为0.96。模型可解释性分析(特征重要性、排列重要性、SHAP值)表明,在随机模式下,模型主要依赖空间-季节结构(如纬度、季节)以及作物身份和地理聚类等特征。养分和土壤指标(如中位K2O和P2O5施用量、土壤pH中位数)提供一致的次要贡献。在时间序列划分下,性能最佳的梯度提升模型(Gradient Boosting)更依赖于稳定的空间和轮作信号(如纬度、前茬作物、当前作物),以及省份/气候编码和汇总的养分/土壤背景信息。这表明在跨年份预测中,持久的地理特征、轮作历史和跨年份的土壤养分汇总信息比年内标记更为重要。
推荐系统性能
在优化性能方面,模拟退火(Simulated Annealing)算法获得了最高的综合目标函数值(7.878),其对应的模拟产量增益为682.99 kg/ha,养分利用效率为7.51,环境影响指数为4.09。贝叶斯优化和粒子群优化紧随其后。不同作物的优化结果存在差异:对于大麦,模拟退火和贝叶斯优化表现优异,优化后的NPK推荐量倾向于较高的K2O和适中的N、P2O5;对于软质小麦,模拟退火同样领先,优化策略收敛于较低的N、接近24 kg/ha的P2O5和中等用量的K2O;对于硬质小麦,模拟退火、粒子群优化和贝叶斯-进化混合算法表现较好,优化方案倾向于较高的N和K2O,P2O5仍接近24 kg/ha。模型模拟的3D NPK目标函数曲面图进一步可视化了不同作物养分投入与综合效益之间的关系。
研究结论与讨论
本研究提出了一个约束性学习优化决策支持管道,将机器学习替代模型与多目标优化相结合,用于生成地点特异性的NPK肥料推荐。研究结果表明,在独立同分布(i.i.d.)条件下,该框架能够实现高精度的产量预测和显著的模拟产量提升及养分效率改善。然而,研究也揭示了关键挑战:模型在时间序列划分下的泛化性能显著下降,凸显了农业系统中时空非平稳性对模型部署的严峻考验。这强调了对额外季节数据、更丰富的时间解析协变量以及针对时间外推的专门模型策略的需求。
该研究的意义在于建立了一个可将农艺观测转化为可操作肥料建议的范式,并优先考虑快速田间验证。优化结果虽然是模型模拟的,但为在现实世界中平衡生产力、资源效率和环境可持续性的施肥策略提供了有前景的假设。未来的工作方向包括扩展数据集以覆盖更多季节和作物,将环境惩罚项锚定于实际的养分流失过程,将经济回报和风险维度整合到优化中,以及通过前瞻性田间试验进行严格验证。最终,这项研究为开发稳健、可扩展且可持续的精准农业决策支持工具奠定了基础,这些工具能够适应不断变化的农业环境。论文已发表在《Smart Agricultural Technology》期刊上。