基于棉花产量早期预测面临的挑战,结合无人机(UAV)遥感数据与农艺性状,本研究评估了纯农艺数据、纯遥感数据及混合数据建模方法,旨在优化有限数据集下的预测框架。研究比较了多元线性回归(MLR)、逐步回归、LASSO、弹性网络(Elastic Net)和支持向量机(SVM)等多种统计与机器学习模型,以确定最佳预测性能及最早可预测的生育期窗口。通过在两个不同水氮处理的试验小区采集多光谱影像与农艺数据,研究发现混合模型表现最优,其中LASSO回归结合90天后的株高与多光谱数据实现了最高精度(R2= 0.80)。研究确定50%开花至棉铃形成期为利用遥感观测进行准确产量估算的最佳窗口,并强调了正则化回归在处理多重共线性和小样本数据方面的优势。
《Smart Agricultural Technology》:Statistical and Machine Learning Models for Early Cotton Yield Prediction Under Resource Gradient
编辑推荐:
早期棉花产量预测对小农户生产力优化至关重要。然而,基于无人机的产量建模面临地面实况数据有限和光谱多重共线性的挑战。尽管数据密集型机器学习显示出潜力,但小农户系统需要针对有限数据集和多重共线性优化的模型。本研究评估了纯农艺数据、纯遥感数据和混合数据建模方法,旨在
早期棉花产量预测对小农户生产力优化至关重要。然而,基于无人机的产量建模面临地面实况数据有限和光谱多重共线性的挑战。尽管数据密集型机器学习显示出潜力,但小农户系统需要针对有限数据集和多重共线性优化的模型。本研究评估了纯农艺数据、纯遥感数据和混合数据建模方法,旨在定义一个整合遥感影像与非破坏性田间测量的优化框架。该方法比较了多元线性回归、逐步选择、LASSO、弹性网络和支持向量机(SVM),以评估预测性能并确定最早的产量预测生育阶段。研究在两个不同水肥处理的试验小区,于六个关键物候期收集了多光谱无人机影像和广泛的农艺数据。混合模型优于单数据源模型,LASSO回归通过结合90天后的株高与多光谱数据实现了最高精度(R2= 0.80)。50%开花至棉铃生长期被确定为利用遥感观测进行准确产量估算的最佳窗口。结果突出了正则化回归在有限数据情况下通过解决过拟合和多重共线性带来的优势。这种混合方法通过结合无人机影像、田间测量与正则化机器学习,实现了小农场产量预测,减少了多重共线性并仅需少量地面数据。研究表明,利用90-115天后的纯遥感模型可在收获前数月预测产量,为数据贫乏地区的规模化精准农业提供了可行路径。
资源梯度下棉花早期产量预测的统计与机器学习模型研究解读
本研究聚焦于棉花这一全球重要的工业原料作物,针对小农户在生产中面临的经济脆弱性及传统产量测量方法耗时耗力的问题,开发了一种基于无人机(UAV)多光谱影像与农艺性状结合的棉花早期产量预测框架。研究旨在通过比较小样本条件下不同建模方法的性能,确定最佳预测窗口,以解决现有机器学习模型在发展中国家小农户场景中因数据匮乏和光谱多重共线性导致的应用瓶颈。
为实现研究目标,研究人员采用了多项关键技术方法。首先,试验设计涵盖了两种水分处理(雨养与灌溉)和不同氮肥梯度下的多个棉花品种,共设置54个试验小区。数据采集方面,利用搭载MicaSense Altum传感器的DJI Inspire 2无人机,在播种后60、70、90、115、145和165天(DAS)六个生育期进行飞行,获取包含蓝光、绿光、红光、红边、近红外和热红外在内的六波段影像。同时,在田间同步测量株高、结铃数等农艺性状。图像处理采用Pix4Dmapper生成数字表面模型(DSM)和数字地形模型(DTM),进而计算数字冠层高度模型(DCHM)及多种植被指数(VIs)。建模阶段,研究人员系统比较了多元线性回归(MLR)、逐步回归、支持向量机(SVM)、LASSO回归和弹性网络(Elastic Net)五种算法,并通过递归特征消除(RFE)与留一法交叉验证(LOOCV)进行变量筛选与模型验证。
研究结果
1. 农艺参数模型
研究人员首先评估了仅基于农艺参数的模型性能。结果表明,弹性网络模型表现最佳,平均准确率达到58%,而MLR表现最弱(R2= 0.52)。在预测因子重要性排序中,单位面积株数(Stand Count)和单株结铃数(Boll per Plant)被证明是关键预测因子,其重要性高于传统的株高指标。这表明在小农户系统中,反映植株种群密度和生殖能力的指标对产量预测更为敏感。
2. 遥感(RS)模型
2.1 六个生育期RS预测因子与产量的相关性
通过分析遥感参数与产量在不同生育期的皮尔逊相关系数,研究人员发现绿色叶绿素指数(GCI)和数字冠层高度模型(DCHM)在关键物候期表现出持续的正相关。其中,GCI在115天(棉铃形成期)相关系数最高(r = 0.76),DCHM在90天(50%开花期)和115天表现强劲(r = 0.75)。相关性分析显示,90至115天是遥感预测能力最强的窗口期,随后预测能力随作物衰老而下降。
2.2 遥感模型比较
跨六个物候期的模型性能对比显示,生长阶段对预测精度有显著影响。在90天和115天,各模型表现最优且统计学上等效。具体而言,逐步回归在90天表现最佳(测试集R2= 0.66),而LASSO在115天表现最佳(测试集R2= 0.68)。这确立了90-115天为统计学上的最佳预测窗口。
2.3 不同天数下的植被指数
频率分析显示,DCHM是所有模型和日期中最常被选中的重要预测因子(出现于23个模型中),其次是增强型归一化差异植被指数(ENDVI)和归一化差异植被指数(NDVI)。这说明结构参数(冠层高度)与绿度参数在产量预测中具有互补性。
3. 混合模型
当结合农艺参数与遥感数据时,混合模型显著优于单一数据源模型。LASSO回归在混合模型中表现最为出色,训练集R2达到0.80,测试集R2为0.73,均方根误差(RMSE)约为0.20。泰勒图分析进一步证实,混合模型相比纯农艺模型具有更高的相关系数和更低的预测误差。
4. 农艺与混合模型比较
泰勒图清晰地展示了混合模型相对于纯农艺模型的优越性。混合模型中的LASSO和弹性网络预测值与实际值的相关系数高达0.85-0.9,且标准差对齐良好,证明了整合多源数据在捕捉产量变异性方面的稳健性。
结论与讨论
研究结论指出,正则化回归模型(特别是LASSO和弹性网络)在处理小样本、高维且具有多重共线性的数据时,显著优于传统的MLR和SVM。这是因为LASSO和弹性网络能够通过内置的惩罚项自动进行特征选择,有效解决了由光谱指数高度相关引起的过拟合问题。此外,研究明确了50%开花期至棉铃形成期(90-115 DAS)是利用遥感数据进行早期产量预测的“关键窗口”,此时棉花冠层结构完全发育,生理活性最强,使得无人机传感器能够精确捕捉与产量相关的生物物理特征。尽管研究取得了成功,但也存在局限性,例如仅基于单一年份和特定地点的数据。未来的研究应致力于跨环境验证,并结合土壤与气象数据以进一步提升模型的普适性。总体而言,该研究为数据贫乏地区的小农户提供了一种低成本、高精度且可扩展的精准农业解决方案,相关成果已发表于《Smart Agricultural Technology》。