基于门控图文交互网络与叶绿素荧光表型的大豆耐盐性精准识别模型Mm-VitnNet研究

《Frontiers in Plant Science》：Mm-VitnNet: a gated image-text interaction network for soybean salt tolerance recognition using chlorophyll fluorescence phenotypes

【字体：大中小】 时间：2026年03月18日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　本文提出一种新颖的基于门控机制的多模态学习网络Mm-VitnNet，用于融合叶绿素荧光图像与相应参数文本数据，实现大豆耐盐性水平的精准、无损识别。模型通过引入可学习的图文交互门控机制与模态特异性令牌，有效融合跨模态信息，在保持模型高效的同时达到了98.97%的识别准确率，为解决传统耐盐性鉴定方法效率低、主观性强等问题，推动农业表型分析向精准化、智能化发展提供了高效可行的技术方案。

引言

大豆（Glycine max(L.) Merr.）是全球重要的农作物，但土壤盐渍化严重威胁其生产。传统的大豆种质资源耐盐性评估方法，如人工专家评价和基于机器的图像分析，存在效率低、劳动强度大、主观性强且易受环境因素影响等问题，形成了“表型瓶颈”。随着深度学习技术的发展，其在农业中的应用不断扩展。叶绿素荧光技术能够通过检测光激发下叶绿素发出的荧光信号，无损监测植物光合作用的生理状态。然而，先前研究多基于单一传感模态（如光谱数据或电信号）建立胁迫响应模型，对叶绿素荧光参数信息的利用尚不充分。为克服单模态信息的局限性，本研究旨在探索一种基于叶绿素荧光技术的多模态无损识别方法，以快速、准确评估大豆耐盐性水平。

材料与方法

相关技术

本研究构建了一个名为Mm-VitnNet的新型门控机制网络，用于实现图像与文本数据的可学习交互。模型核心基于Transformer编码器中的多头自注意力机制，以捕获序列中任何位置元素之间的依赖关系。与简单的特征拼接或传统跨模态交互不同，本研究提出了一种可学习的长距离跨注意力多模态融合方法。该方法首先对图像和文本分别应用自注意力以捕获各模态内部的关键特征，然后通过跨模态注意力和交互模块使图像和文本能够“理解”彼此的语义。通过引入可学习的全局令牌，模型增强了对多模态数据中关键信息和全局特征的捕获能力。

数据收集

研究选取了178份来自不同地区、未经过耐盐性预筛选的大豆种质资源作为实验材料。通过预实验确定了适宜的盐胁迫条件为150 mmol·L^?1NaCl处理5天。使用FluorCam多光谱荧光成像系统进行数据采集。具体栽培流程包括：蛭石播种、水培适应、盐胁迫处理、暗处理恢复光合系统状态，最后采集盐胁迫下的叶绿素荧光状态。

多模态数据处理

文本数据异常检测

共收集了80个叶绿素荧光参数。关键参数包括反映光系统II（PSII）反应中心光能转化潜在效率的最大荧光（Fm）、用于评估光能捕获及其转化为化学能能力的最大光化学量子产量（QY_max）、表征胁迫下非光化学淬灭和光保护机制水平的NPQ_Lss、与电子传递速率密切相关的qP_Lss，以及反映反应中心开放状态和光能利用效率的Rfd_Lss。对文本数据应用主成分分析（PCA）进行降维，将其组织成数值序列作为“类文本”输入。

图像数据处理

从FluorCam仪器获得的图像分辨率为1024 × 768像素，通过中心裁剪调整为664 × 664像素。共收集了1231幅原始图像及对应文本数据。数据集按8:1:1的比例划分，并通过旋转和镜像进行了数据增强，最终生成了7321幅图像及对应文本数据。基于QY_max值，采用Calinski-Harabasz聚类算法对相关文本数据进行无监督最优聚类划分，确定将大豆耐盐性最终分为5个等级。具体分级标准与Fv/Fm（即QY_max）值范围对应。

Mm-VitnNet模型架构

Mm-VitnNet模型采用可学习的长距离跨模态注意力融合架构。其主干结构包含四个阶段。前三个阶段中的每个块主要由图像文本自注意力交互（ITSAI）模块和图像文本可学习自注意力记忆模块（ITLeSAMM）组成，第四阶段的块仅由ITLeSAMM模块构成。

ITSAI模块

该模块是模型实现图像与文本跨模态语义对齐的核心组件。其设计遵循渐进式交互模式，包括模态内特征增强、定向跨模态检索和自适应门控融合。模块首先对图像特征和文本特征分别执行基于窗口的局部自注意力计算和全局自注意力计算。随后，采用引导式跨模态检索机制，以图像特征作为查询，文本特征作为键和值，建立从图像到文本的语义定向关联。此外，模块还引入了可学习的门控权重生成机制，通过一个0到1的标量门控系数动态调整融合强度。

ITLeSAMM模块

为解决长序列自注意力在建模局部信息方面的局限性以及跨模态融合中远程文本噪声带来的干扰，本工作在ITLeSAMM模块中引入了分阶段的全局特征聚合机制。该机制的核心是引入两组可学习的全局记忆单元（全局令牌），分别用于建模图像和文本模态的全局语义信息。通过让每组令牌与同模态特征进行注意力交互，分别聚合形成代表图像和文本全局语义的特征向量。这种分阶段策略（先模态内聚合，再跨模态利用）有效隔离了初始融合阶段的噪声，有助于在融合过程中保持各模态核心信息的完整性。

实验设置

所有实验均在PyTorch框架下进行。训练时批量大小设置为32，训练轮数为200，采用Adam优化器，并使用基于余弦退火策略的LambdaLR学习率调度器。使用交叉熵损失函数计算训练损失，并为不同类别分配差异化的类别权重以缓解类别不平衡的影响。采用准确率、精确率、召回率和F1分数作为模型性能的评价指标。

结果

网络模型性能分析

在相同实验条件下，Mm-VitnNet模型的准确率达到98.97%。如表3所示，其性能显著优于经典的卷积神经网络（如VGG、ResNet50）、轻量级网络（如MobileNetV2、EfficientNetV2-s）以及多种基于Transformer的架构（如ViT、Swin Transformer）和卷积-Transformer混合模型（如MobileViT）。Mm-VitnNet的精确率、召回率和F1分数也均优于对比模型，表明其在分类不同耐盐性水平的样本时具有更显著的能力和更好的平衡性。模型参数量为10.22M，计算成本（FLOPs）为1.84G，显著低于VGG、ResNet50等模型，仅略高于部分轻量级CNN，在准确性与效率之间实现了有效平衡。混淆矩阵可视化结果显示，模型的识别偏差主要出现在第4级，有少量样本被误识别为第3级或第5级，但整体在所有类别上均表现出较高的预测精度。

消融分析

为验证模型改进模块的有效性，研究测试了ITSAI模块和ITLeSAMM模块的不同组合。ITSAI模块包含多种结构变体。实验结果表明，结合了ITLeSAMM的ITSAI_ai（具有图像门控机制的单向交互）结构在参数量和计算量相对适中的情况下取得了优异的性能。在模型结构比例探索中，混合增强模型（各阶段块数为1,3,3,1）取得了最佳准确率（98.97%）。在文本数据量验证中，研究评估了使用不同数量PCA主成分作为文本输入的效果，最终选择6个主成分作为模型的文本数据输入，此时模型取得了最佳的识别性能。

讨论

本研究提出的多模态识别网络Mm-VitnNet，通过融合叶绿素荧光图像和基于荧光参数构建的文本信息，在大豆耐盐性等级分类任务中取得了优于单模态模型和传统融合方法的性能。与仅基于叶绿素荧光特征或单模态深度学习模型的方法相比，Mm-VitnNet的模态内自注意力机制有效提取了图像和文本双模态的特征。与简单的特征拼接和跨模态交互方法不同，其跨模态交互机制引入了模态特异性令牌，并分别对图像和文本应用局部-全局广播聚合自注意力机制，有效缓解了多模态融合中不同模态信息间的干扰以及长距离学习中局部关键信息可能被稀释的问题，从而增强了特征表达的稳定性和整体识别能力。当然，本研究仍存在一定局限性，例如文本模态信息主要基于叶绿素荧光参数，缺乏对不同叶片区域空间表型特征的精细描述；多模态数据主要在受控盐胁迫条件下收集；模型在自然复杂环境中的泛化能力有待进一步验证。

结论

本研究针对大豆幼苗耐盐性快速无损识别的需求，构建了基于叶绿素荧光图像和荧光参数的多模态数据集，并提出了一种多模态识别网络Mm-VitnNet。该模型通过引入模态内自注意力和显式的跨模态交互机制，有效融合了视觉表型信息和生理参数数据。在大豆耐盐性等级分类任务中，Mm-VitnNet的性能优于单模态方法和传统融合模型。结果表明，所提出的方法为作物耐逆性智能表型分析提供了一种稳定、无损且具备潜在可扩展性的解决方案。

热点排行

新闻专题