基于多模态数据和集成学习模型的高精度苜蓿生物量预测方法

《Plants》:A Method for Predicting Alfalfa Biomass Based on Multimodal Data and Ensemble Learning Model Yuehua Zhang, Zhaoming Wang, Zhendong Tian, Haotian Deng, Jungang Gao, Chen Chen, Wei Zhao, Xiaoping Ma, Xueqin Ding and Fengling Shi + 4 authors

【字体: 时间:2026年03月08日 来源:Plants 4.1

编辑推荐:

  本研究针对复杂田间环境下传统苜蓿生物量预测方法精度不足的挑战,创新性地提出了一种融合无人机多光谱与激光雷达(LiDAR)数据的多模态特征体系,并结合随机森林、极端随机树与直方图梯度提升的集成学习框架。在测试集上,该融合模型的确定系数(R2)高达0.813,显著优于单一数据源与单模型,尤其在现蕾至初花期预测精度最优(R2=0.917),为牧场资源监测与精准农业管理提供了可靠的技术支持。

  
2. 材料与方法
2.1. 试验地
试验在中国内蒙古呼和浩特的蒙古草种业中心基地和黑马洼基地进行。两地采用相同的试验设计,包括相同的苜蓿品种、施肥处理和管理措施。供试苜蓿品种为草原3号混花苜蓿、中苜10号苜蓿和新牧4号苜蓿。采用单因素试验设计,研究氮、磷、钾肥在常规用量基础上的6个梯度水平(0%、50%、75%、100%、125%、150%)对生物量的影响。每个施肥处理设3次重复,随机区组排列。
2.2. 数据采集
数据采集于2025年8月至9月进行。在三个苜蓿品种的试验区内进行了多次航测,并同步完成了六次野外调查。无人机搭载多光谱相机和机载激光雷达系统,在晴朗无风条件下飞行采集数据。飞行后,在每个处理区随机设置3个1m×1m的样方,齐地面刈割地上部植株,烘干至恒重后称重,计算单位面积生物量(g·m-2)作为地面真值。
2.3. 数据处理
数据处理包括数据拼接合成、数据配准和ROI标记与数据融合。多光谱影像使用Agisoft Metashape软件进行辐射校正和拼接,生成高空间分辨率的多光谱正射影像。LiDAR点云使用大疆智图(DJI Terra)软件进行系统误差校正、点云生成、拼接和分类,提取植被点云并生成数字高程模型(DEM)和数字表面模型(DSM)。为确保多源数据空间一致性,以多光谱影像为参考,对LiDAR正射影像进行几何配准,将点云与多光谱影像统一到同一地理坐标框架下。随后,在ENVI软件中对每个时期的影像标注样方对应的ROI(感兴趣区域),构建与地面实测生物量精确对应的样本数据集,最终获得270个有效样本用于建模。
2.4. 特征提取
在样方尺度上,从LiDAR点云和多光谱影像中系统提取多维特征,构建了基于光谱与结构融合的特征体系。
  • 多光谱特征:提取了蓝、绿、红、红边、近红外波段的均值、中值、标准差等统计量,以及NDVI、NDRE、GNDVI、MSR、EVI、SAVI等一系列植被指数(VI)。
  • LiDAR结构特征:基于地面以上高度(HAG)信息,提取了描述苜蓿冠层整体高度和分布特征的一系列统计量(如Hmax, Hmean, Hstd等)、多个百分位高度、高度四分位距(HIQR),以及点密度、覆盖率、垂直分层比例等指标。
  • 特征选择:为减少冗余信息,基于随机森林模型内置的特征重要性指标进行特征选择。重要性通过节点分裂时均方误差(MSE)的减少量来量化。
2.5. 集成学习模型构建
本研究构建了一个用于苜蓿生物量预测的异质集成学习模型。该模型由三种基础学习器组成:随机森林(Random Forest, RF)、极端随机树(Extra Trees, ET)和直方图梯度提升(Histogram Gradient Boosting, HGB)。通过组合多个具有差异性的基学习器,集成模型旨在克服单一模型的局限性,提高预测精度和模型在有限样本条件下的鲁棒性。
2.6. 模型评估与验证
通过回归分析、残差分布分析和鲁棒性评估对模型进行综合评估。主要评估指标包括确定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)。研究还定量评估了不同特征组合(仅光谱、仅LiDAR、融合特征)对生物量预测性能的影响,并系统分析了不同生育阶段模型精度和特征重要性的时间变化,揭示了光谱和结构贡献的动态变化。
3. 结果与讨论
3.1. 多模态融合特征的有效性
特征选择后构建的特征体系能够从光谱和三维结构维度系统表征苜蓿冠层。结果证明,融合多光谱和LiDAR特征的模型预测性能最优。在测试集上,融合模型的R2达到0.813,RMSE和MAE分别为0.178 kg·m-2和0.146 kg·m-2。该性能显著优于仅使用光谱指数(R2= 0.773)或仅使用LiDAR特征(R2= 0.576)的模型。这表明多模态数据融合能够互补地表征作物生长状态和生物量形成过程的关键信息,为解决单一数据源信息不完整的问题提供了有效方案。
3.2. 集成学习模型的优越性
本研究构建的RF-ET-HGB集成模型,其预测精度显著优于任何单一的基学习器模型。这得益于集成策略通过方差-偏差权衡,降低了模型的整体泛化误差。异质集成结合了不同算法的优势:RF和ET能有效处理高维特征和交互作用,对噪声有一定的容忍度;HGB则以梯度提升方式逐步修正误差,具有强大的预测能力。三者结合增强了模型在复杂非线性关系中的拟合能力和稳定性。
3.3. 生育阶段对预测精度的影响
模型精度在不同苜蓿生育阶段存在动态变化。研究发现,从现蕾期到初花期,模型达到了最高的预测精度(R2= 0.917)。在此阶段,苜蓿冠层结构发育充分,光谱信息饱和效应尚不显著,光谱与结构特征都能提供高质量的信息。随着生育期推进,较高的生物量可能导致光谱饱和,使得结构特征的贡献变得更加重要。这揭示了生物量预测中特征贡献的动态性,强调了分阶段建模或引入时序特征的潜在价值。
3.4. 模型误差分析
融合模型的整体预测误差近似正态分布,超过65%的样本绝对误差小于0.2 kg·m-2,表明模型对大多数样本的预测是准确可靠的。然而,分析也发现模型在高生物量区间仍存在低估的趋势。这可能由于在高生物量时,冠层过于茂密,导致光谱反射率饱和以及LiDAR信号穿透受限,难以准确捕捉冠层内部的生物量变化。未来研究可通过引入对高生物量更敏感的特征(如基于微波的遥感数据)或采用分层建模策略来改善。
4. 结论与展望
本研究成功提出并验证了一种结合无人机多光谱影像、机载LiDAR数据与集成学习策略的苜蓿生物量高精度预测框架。该方法通过多模态特征融合与异质集成建模,显著提升了复杂田间环境下生物量预测的准确性、鲁棒性和适应性。研究成果为牧场生物量实时监测、收获调控优化以及苜蓿生态系统的可持续生产管理提供了创新的技术方案和坚实的理论依据。
未来的工作可以在以下几个方面展开:一是探索更多类型的遥感数据(如高光谱、热红外)的融合,以捕获更丰富的作物生理生化信息;二是将时序分析纳入模型,实现生物量的动态监测与预测;三是将本框架扩展到其他牧草或大田作物,验证其普适性和可迁移性,推动精准农业技术的广泛应用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号