编辑推荐:
本综述系统探讨了利用高光谱反射数据(VIS–NIR)结合机器学习算法,实现玉米叶片类胡萝卜素含量精准、无损估测的最新进展。研究对比了传统光谱指数(如CRI、PRI、PSRI等)的局限性,并基于主成分分析(PCA)开发了九种新型玉米特异性光谱指数(CAR1-CAR9)。通过评估多种机器学习模型(Random Forest, REPTree, Bagging等)的性能,发现结合定制化光谱指数与适当算法(特别是REPTree)可显著提升预测精度(测试期R2达0.798),为精准农业中的作物胁迫监测与生理状态评估提供了高效可靠的技术方案。
本研究聚焦于利用光谱反射技术和机器学习方法,实现对玉米叶片类胡萝卜素含量的非破坏性精确估测。类胡萝卜素在植物光合作用和光保护机制中扮演着关键角色,其含量动态变化是反映作物生理状态和逆境响应的重要指标。传统的实验室化学提取法虽然准确,但具有破坏性、耗时且无法实现实时田间监测。因此,开发快速、无损的估测技术对于精准农业实践具有重要意义。
1 引言
全球化与数字化进程正深刻影响着粮食生产和农业实践,精准农业作为一种优化生产资源、提高产量并减少环境影响的广泛应用技术,其重要性日益凸显。玉米作为全球重要的粮食和饲料作物,其非破坏性生理监测至关重要。在光合色素中,类胡萝卜素不仅参与光吸收,更在保护植物免受活性氧引起的氧化损伤方面发挥核心作用。此类色素能够动态适应光照条件,并在特定光谱范围(如蓝光450–485纳米和绿光500–565纳米)具有特征吸收。利用遥感与光谱学技术,可以精确测量这些光谱特性,从而实现对不同玉米品种类胡萝卜素浓度、养分水分状况及早期病害的监测。可见光-近红外(VIS–NIR)光谱测量为色素含量的实时监测提供了经济高效的非破坏性方法。尽管已有一些用于估测玉米类胡萝卜素含量的光谱指数,如CRI550/CRI700、CARRedEdge、CARI、PRI等,但它们在本研究样本中的预测表现有限。机器学习(ML)的应用能够更精准地建立光谱数据与类胡萝卜素浓度之间的复杂关系,结合高光谱数据与机器学习模型相比传统方法具有显著优势,能够分析高维数据以捕捉与类胡萝卜素水平及植物健康相关的细微光谱差异。
2 材料与方法
2.1 研究地点
研究地点位于匈牙利大平原北部的潘诺尼亚地区。该地区为灌溉耕地,采用了线性灌溉系统。研究在2021、2022和2023年进行,期间经历了不同的天气条件(2021年正常,2022年极端干旱,2023年多雨),种植的玉米品种为P0725。研究地点概览如卫星图像所示。
2.2 测量方法与数据处理
三年间,每年根据BBCH标准(16、51、79期)在五个指定区域共进行九次采样,累计获取540个叶片样本。样本采集后,在实验室内使用分光光度计测量470纳米、644纳米和663纳米波长处的吸光度,并依据特定公式计算类胡萝卜素含量。
2.3 光谱分析
使用AvaSpec 2048光谱仪在400-1000纳米波长范围内记录叶片样本的光谱反射率数据。测量在专门设计的采样箱内进行,以消除环境光干扰,并通过白参考和暗参考校准以确保数据准确性。每个样本测量三次以获取平均光谱。
2.4 模型构建与性能评估
使用SPSS软件进行统计分析,应用主成分分析(PCA)结合方差最大化旋转来浓缩数据、识别异常值并揭示数据集内部结构。PCA旨在找出对植物类胡萝卜素水平敏感的波长。基于PCA结果,利用筛选出的波长(550纳米、678纳米、700纳米、800纳米)构建了九种新的类胡萝卜素估测指数(CAR1至CAR9)。同时,也计算了实践中常用的植被指数(VI)进行比较,例如反射光谱比率分析(RARS)、结构不敏感色素指数(SIPI)、类胡萝卜素反射指数(CRI)和光化学反射指数(PRI)等。模型性能通过决定系数(R2)、均方根误差(RMSE)、标准化均方根误差(NRMSE)、平均绝对误差(MAE)、平均偏差误差(MBE)和纳什-苏特克利夫效率系数(NSE)等一系列统计指标进行评估。
2.5 用于估测植物类胡萝卜素含量的机器学习模型
研究评估了五种机器学习算法:随机森林(Random Forest)、减枝误差回归树(REPTree)、随机子空间(Random Subspace)、装袋法(Bagging)以及M5P模型。这些模型在怀卡托知识分析环境(WEKA)中实现。数据集按70:30的比例划分为训练集和测试集,并进行了交叉验证以确保模型稳定性和泛化能力,防止过拟合。
3 结果
3.1 玉米类胡萝卜素含量与叶片反射率结果
分析显示,玉米叶片类胡萝卜素含量与叶绿素含量之间存在极强的正线性相关关系(R2= 0.925)。这表明在研究的条件下,两者协同变化。光谱分析表明,类胡萝卜素浓度显著影响可见光范围(特别是500-650纳米)的叶片反射率。在近红外区域,反射率主要受叶片结构特征影响。类胡萝卜素含量最低为114.72微克/克,最高为526.97微克/克,平均含量为382.31 ± 86.02微克/克。不同浓度范围的样本其反射光谱存在明显差异。
3.2 现有类胡萝卜素指数的测试
对现有常用类胡萝卜素估测模型的测试结果表明,其对本研究样本的预测准确性均不理想。所有测试模型的R2值范围在0.039至0.123之间,NSE值多为负值,说明这些模型未能很好地解释数据变异,预测性能甚至不如简单均值预测。其中CRI模型表现相对最佳,而SIPI模型表现最差。
3.3 基于PCA的新类胡萝卜素指数识别与构建
主成分分析生成了五个主成分,其中前两个主成分(PC1和PC2)累计解释了92.611%的数据方差,足以代表数据结构。KMO检验值为0.84,表明采样充足性良好。基于PCA因子权重图,筛选出550纳米、678纳米、700纳米和800纳米四个关键波长用于构建新的估测指数。最终,研究构建了九种新型玉米类胡萝卜素光谱指数(CAR1至CAR9),这些指数是不同敏感波长反射率值的比值组合。
3.4 新类胡萝卜素模型的校准与验证
新构建的指数模型在不同的训练期和测试期组合中进行了评估。总体而言,CAR7、CAR8和CAR9在多个训练和测试场景中表现出最优的预测能力。例如,在2021-2022年训练、2023年测试的场景中,CAR7表现突出;在2021-2023年训练、2022年测试的场景中,CAR8表现最佳;而在综合所有数据按比例划分训练测试集时,CAR8模型在RMSE、NRMSE、MBE和MAE指标上表现最好,CAR7模型的NSE最高。这些结果表明新开发的玉米特异性指数相比传统通用指数具有显著优势。
3.5 基于新指数的机器学习类胡萝卜素建模与测试
在训练期,随机森林(Random Forest)模型表现出近乎完美的预测性能(R2= 0.940)。然而,在测试期,减枝误差回归树(REPTree)模型提供了最可靠且均衡的性能,其R2为0.798,NSE为0.820,RMSE为47.282微克/克,均为测试模型中的最佳或接近最佳值。这表明REPTree算法在结合新型光谱指数后,能够稳定、准确地预测玉米叶片的类胡萝卜素含量,且过拟合风险较低。
4 讨论
本研究证实,针对玉米特异性开发的光谱指数能够显著提高类胡萝卜素无损估测的准确性。类胡萝卜素与叶绿素的高相关性反映了它们在非胁迫条件下的协同调控,但两者在胁迫下可能解耦,这使得类胡萝卜素监测对于评估植物光保护需求和胁迫响应具有独特价值。传统指数性能不佳的原因在于其通常基于多光谱或宽波段数据,且受冠层结构、土壤背景等混合像元影响较大。而本研究采用的叶片水平高光谱测量避免了这些干扰,能更直接地捕捉色素特征光谱。新开发的指数,特别是CAR7、CAR8和CAR9,在不同年份和环境条件下均表现出稳健的预测能力。机器学习模型的引入进一步提升了估测的鲁棒性,REPTree在测试集上的优异表现凸显了其在实际应用中的潜力。将定制化光谱指数与合适的机器学习算法结合,为实现玉米类胡萝卜素含量的准确、快速、无损估测提供了有效工具。未来研究可致力于将这些指数和方法推广至冠层及遥感尺度,利用无人机或卫星平台进行验证与应用,从而更好地服务于精准农业中的作物生长监测与胁迫诊断。
5 结论
本研究结果清晰地验证了初始假设,即使用针对玉米优化的光谱指数可显著改善类胡萝卜素含量的非破坏性估测精度。类胡萝卜素在玉米生理中兼具光合辅助和光保护的双重关键作用。传统指数由于适用场景差异,在本研究条件下表现不佳。基于主成分分析开发的玉米特异性新指数,尤其是CAR7、CAR8和CAR9,在不同年份和环境下均展现出更优越的统计性能。机器学习方法的集成进一步增强了估测的可靠性,其中REPTree模型在测试阶段被证明是最均衡、稳定的选择。基于这些发现,精准、快速、无损的类胡萝卜素含量估测有望成为精准农业中胁迫监测和作物状况评估的现实工具。未来的研究方向包括将新指数扩展到冠层及遥感水平,并结合无人机与卫星数据进行验证,这将对提升玉米生产的效率与可持续性产生长远贡献。