基于多模态数据与动态门控融合模型的大豆物候期精准识别研究

《Smart Agricultural Technology》：Soybean Phenological Stage Identification Based on Multimodal Data and a Dynamic Gating Fusion Model

【字体：大中小】 时间：2026年01月25日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　本文针对传统作物物候监测方法存在的时间延迟和单一数据源局限性，提出了一种创新的动态门控融合模型，通过整合无人机（UAV）多模态数据（包括光谱特征、纹理特征、冠层高度模型和播种后天数DAS等），结合优化的机器学习（ML）和深度学习（DL）方法，实现了对大豆七个关键生长阶段（V1, V2, R1, R2, R6, R7, R8）的近实时精准识别。研究结果表明，该融合模型的F1分数达到94.3%，显著优于单一模型，为解决高精度、高通量作物表型分析提供了有效技术方案，对精准农业管理和育种应用具有重要意义。

准确、近实时地获取大豆物候信息对于作物管理和育种至关重要。然而，传统依赖卫星遥感时间序列数据的方法存在时间延迟，限制了其在生长季内决策支持中的应用。此外，早期基于无人机（UAV）遥感的技术多依赖于“特征工程”的机器学习（ML）方法，其性能受限于手动特征设计和选择，且模型泛化能力有限。近年来，深度学习（DL）方法，特别是卷积神经网络（CNNs），在直接从原始图像中自动学习层次化抽象特征方面展现出巨大潜力，为克服传统时间序列方法的滞后性问题提供了有前景的解决方案。然而，作物物候是一个受遗传、环境和管理实践综合影响的复杂过程，仅依靠单一信息源往往难以达到最佳监测精度。因此，融合多源互补信息的多模态信息融合已成为一个突出且快速发展的研究方向。

为了克服现有融合策略（如特征拼接或线性组合）缺乏动态机制来自适应权衡异构信息源贡献的局限性，本研究提出了一种新颖的动态门控融合框架，用于实时大豆物候期识别。该框架旨在智能地、自适应地整合基于表格数据的ML和基于图像数据的DL模型的决策级预测，从而提高物候期识别的准确性和鲁棒性。

本研究的主要目标是：（1）构建一个集成了传统机器学习、深度学习和多模态融合方法的三阶段分析框架，以系统评估不同技术策略在大豆物候识别中的性能；（2）通过融入注意力机制和多尺度特征提取模块来优化DL模型，增强其从高分辨率大豆冠层图像中捕获物候特征的能力；（3）开发一个动态门控融合模型，能够智能、自适应地加权来自ML（表格数据）和DL（图像数据）的决策级预测。通过这些目标，本研究旨在为实时、高精度的大豆物候期识别建立一种鲁棒且自适应的新方法，最终支持精准田间管理和加速育种应用。该研究成果发表在《Smart Agricultural Technology》期刊上。

为开展此项研究，作者团队在2024年于中国黄淮海地区的三个试验点（河北石家庄、江苏徐州、河南新乡）进行了大豆田间试验，共涉及420份大豆种质资源。研究利用大疆M300 RTK无人机平台搭载Zenmuse P1 RGB相机和Micasense RedEdge-MX多光谱传感器采集数据，经过预处理后生成用于模型训练和测试的图像数据集和表格特征数据集。表格特征包括植被指数（VIs）、灰度共生矩阵（GLCM）纹理特征、冠层高度模型（CHM）以及播种后天数（DAS）。图像数据集包含4837张按小区裁剪的图像，并与通过地面人工观测确定的真实物候期（V1, V2, R1, R2, R6, R7, R8）相匹配。研究采用5折交叉验证策略评估模型性能。

关键技术方法主要包括：1) 机器学习基准模型优化：系统评估了包括LR、KNN、SVM、RF、MLP、XGBoost、LightGBM、CatBoost、NGBoost、TabNet在内的十种ML算法，并构建了软投票（Soft Voting）集成模型作为最优ML分类器。2) 深度学习模型增强：以ConvNeXtV2为基线，集成了加权双向特征金字塔网络（BiFPN）和卷积块注意力模块（CBAM），构建了BC-ConvNeXtV2模型，以增强多尺度特征融合和对细微差异的感知能力。3) 动态门控融合网络设计：构建了一个融合网络，其核心是一个动态门控单元，该单元通过一个多层感知机（MLP）学习生成一个7维动态权重向量（G_vector），用于对ML和DL分类器输出的概率向量（P_ML, P_DL）进行逐元素加权融合，生成最终的概率输出（P_fused）。该模型使用留出折（OOF）预测进行训练，以避免信息泄露。

3.1. 基于机器学习模型的大豆物候期分类

结果表明，集成学习方法显著优于单一模型。其中，软投票集成取得了最佳性能，F1分数达92.9%，马修斯相关系数（MCC）为91.6%。 stacking集成也表现出强大的竞争力，F1分数为92.5%。先进的架构如NGBoost和TabNet分别取得了88.9%和91.0%的F1分数，但提出的软投票策略 consistently 超越了这些先进方法。LightGBM作为单一模型也表现出色，F1分数达到92.5%。这些发现表明，整合多个高性能基学习器（如LightGBM、CatBoost和XGBoost）的预测可以有效提高分类准确性和鲁棒性。

3.2. 基于深度学习模型的大豆物候期分类

消融实验表明，所提出的BiFPN（模块a）和CBAM（模块b）均对基线ConvNeXtV2模型性能有正向提升。单独集成BiFPN将测试集F1分数提升至85.1%；单独集成CBAM使F1分数达到84.9%。当两个模块同时集成时，得到的BC-ConvNeXt模型取得了最佳性能，测试集F1分数达到85.3%。这表明所提模块不仅各自有效，而且具有互补性。

在与代表性DL模型的综合比较中，BC-ConvNeXt在测试集上取得了最高的F1分数（85.3%）和准确率（85.2%），在准确性和效率之间取得了最佳平衡，其性能优于ResNet50、MobileNetV3、ViT以及领域专用模型PlantNet和CropDeep。

3.3. 基于门控融合模型的大豆物候期分类

动态门控融合模型实现了最高的整体性能，F1分数达到94.3%，MCC为93.2%，显著优于最佳ML模型（软投票，F1分数92.8%）和最佳DL模型（BC-ConvNeXt，F1分数85.3%）。去除DAS特征的消融实验表明，ML模型性能大幅下降（F1分数从92.8%降至83.1%），而门控融合模型则表现出较强的韧性（F1分数86.3%），且仍优于单独的BC-ConvNeXt模型，证明了视觉表征在时序特征缺失或模糊时的重要补偿作用。

混淆矩阵和各类别准确率比较分析显示，门控融合模型有效纠正了基线模型的互补性弱点：ML模型（软投票）易混淆后期R6和R7阶段，而DL模型（BC-ConvNeXt）易混淆早期R1和R2阶段。融合模型则结合了两者的优势，在各个物候阶段均保持了高准确率。

门控权重分布分析进一步揭示，融合模型学会了至少两种不同的门控行为：对于DL模型表现较弱的R1和R2阶段，门控权重（g）被赋值为0.0，即完全依赖ML模型进行纠错；对于V1、V2、R6、R7、R8等更复杂的类别，模型则采用动态仲裁策略，权重随输入样本特性而变化。这种结合针对性纠错和上下文相关仲裁的双重机制，使模型能为每个特定案例得出最优决策。

研究结论与讨论部分强调，本研究提出的动态门控融合模型通过可学习的仲裁机制协同整合多模态信息，实现了对大豆物候期的高精度、近实时识别。其核心优势在于能够自适应地调整对不同信息源（基于时序先验的ML模型和基于视觉特征的DL模型）的依赖程度，实现智能误差校正和优势互补。该模型不仅显著提升了分类性能，而且提供了一种可解释的融合策略。尽管在极其相似的物候阶段（如R6与R7）的过渡区域仍存在一定误分类挑战，这反映了物候过程本身的连续性所带来的固有困难。本研究建立的完整技术框架为高通量表型分析提供了稳健且自适应的解决方案，在精准农业管理和育种应用中具有重要价值。未来的研究方向包括增强模型在不同环境和基因型下的泛化能力、引入时序动态建模技术以及探索轻量化部署方案。

热点排行

新闻专题