基于跨尺度特征融合与Kolmogorov-Arnold注意力的多分支小麦幼苗品种识别模型

《Smart Agricultural Technology》：Multi Branch Model Based on Cross Scale Feature Fusion for Wheat Seedling Variety Recognition

【字体：大中小】 时间：2026年01月05日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　本研究针对小麦幼苗期品种表型特征细微、识别难度大的问题，提出了一种名为SeedlingNet的新型深度学习模型。该模型创新性地引入了基于Kolmogorov-Arnold定理的卷积注意力机制（KCA）和优化的多尺度特征融合结构（KOMF），在自建的高质量小麦幼苗图像数据集上实现了99.26%的分类准确率，显著优于传统机器学习及主流深度学习模型，为早期、无损的小麦品种鉴定提供了高效工具，对精准农业具有重要意义。

小麦作为全球最重要的粮食作物之一，其产量和品质直接关系到粮食安全。在精准农业领域，作物品种的准确鉴定是优化农业生产与管理的关键环节。然而，在作物生长的幼苗期，不同品种间的表型差异往往非常细微，这给传统的人工识别和基于计算机视觉的自动识别带来了巨大挑战。目前，基于深度学习的技术在农业视觉识别任务中已取得显著进展，例如在杂草检测和作物分类方面。但现有研究多集中于利用遥感数据识别作物类型或对成熟植株进行分类，对于幼苗期品种鉴定的关注明显不足。这一研究空白使得在作物生长早期及时发现品种混杂、避免整个生长周期的资源浪费变得困难。因此，开发一种能够在幼苗期快速、准确识别小麦品种的非破坏性技术，具有迫切的应用需求和重要的研究价值。

为了应对这一挑战，Zhang Wenbo、Zhang Ziyang、Xi Chengyu和Zhang Qingshan等研究人员在《Smart Agricultural Technology》上发表了他们的研究成果。他们提出了一种名为SeedlingNet的新型深度学习模型，专门用于细粒度的小麦幼苗品种分类。该研究的核心创新在于两点：一是提出了基于Kolmogorov-Arnold的卷积注意力机制（KCA），它通过用可学习的自适应函数替代静态激活函数，动态增强特征表示能力；二是设计了一种多尺度特征融合架构，能够整合不同层次的特征以捕获幼苗的全局和局部特征。为了验证模型性能，研究团队建立了一个包含17个小麦品种、共计13,600张早期生长阶段图像的数据集。实验结果表明，SeedlingNet取得了99.26%的卓越分类准确率，超越了传统的机器学习方法和主流的深度学习模型。消融实验进一步证实了KCA模块和多尺度融合结构对模型性能的显著提升作用。这项研究为早期阶段的品种鉴定提供了一种有效的非破坏性工具，在精准农业应用中展现出巨大潜力。

研究人员为开展此项研究，主要运用了几项关键技术方法。首先，他们构建了一个高质量的小麦幼苗图像数据集（Seedlings数据集），该数据集包含使用佳能6D相机在自然条件下采集的17个小麦品种的幼苗图像，图像分辨率高达5472 × 3648像素。通过对原始图像进行去重、剔除无效样本以及数据增强（包括随机旋转、添加噪声、高斯模糊和亮度调整等）后，最终获得了每个品种800张图像，总计13,600张图像的数据集，并按约9:1的比例划分为训练集和验证集。模型构建方面，研究团队提出了SeedlingNet网络架构，其核心是创新的KCA注意力机制和KOMF多尺度融合结构。KCA机制受Kolmogorov-Arnold表示定理启发，采用可学习的单变量函数（通常参数化为样条函数）替代传统卷积中的固定非线性变换，从而能够更灵活、高效地捕获表型特征的复杂非线性关联。KOMF结构则采用一次性聚合范式，将网络不同阶段提取的层次化特征进行融合，减少了层间连接和内存开销，同时捕获了从局部细节到全局结构的丰富信息。在模型训练与评估阶段，研究采用了AdamW优化器，并设置了指数衰减学习率策略，使用F1分数、召回率、精确率和准确率等多项指标全面评估模型性能，并与多种机器学习和深度学习模型进行了对比。

数据集

研究使用的数据集由田间自然条件下采集的小麦幼苗图像构成，包含17个品种（代号G0-G16），每个品种约120张原始图像，总计2,130张。经过数据增强后，每个品种的图像数量增至800张，整个数据集达到13,600张图像。数据集被划分为训练集（9,792张）、验证集（2,448张）和测试集（1,360张），确保了模型训练和评估的有效性。

SeedlingNet网络架构

SeedlingNet是一个基于卷积神经网络（CNN）的模型，包含六个阶段。前三个阶段通过深度可分离卷积（DSConv）层提取原始数据特征，每个卷积层后接批量归一化（BN）和ReLU激活函数。中间阶段（二至五）包含标准3×3卷积层，用于提取更复杂和抽象的特征。阶段间通过1×1卷积层连接，以增强高维特征传输并减少信息损失。最后一个阶段采用跨阶段特征融合生成最终的特征表示。每个阶段的输出都经过注意力模块（KCA）处理，以增强重要特征、抑制无关特征。模型最终层是一个线性层，将提取到的高维特征映射到17个目标类别上。

KCA注意力机制的结构设计

KCA模块是本研究的核心创新之一，其设计基于Kolmogorov-Arnold表示定理。该模块包含通道注意力和空间注意力两个子模块。通道注意力组件通过全局平均池化和全局最大池化聚合空间信息，生成一维通道注意力向量。空间注意力组件则通过沿通道维度进行池化操作，生成二维空间注意力图，突出特征图中的信息区域。KCA使用可学习的激活函数替代传统固定激活函数，使模型能够自适应地校准通道特征，对小麦幼苗细微的表型变化具有更高的敏感性。

Light-KCA注意力机制的结构设计

为了在保持高性能的同时实现高计算效率，研究人员进一步提出了轻量级KCA（Light-KCA）。它通过集成1×1分组KAN投影和极致的维度缩减策略，显著降低了推理延迟（从3.71 ms降至0.28 ms），同时将参数量减少至约16.9K，比标准CBAM注意力机制降低了约48.6%，实现了高性能与低计算开销的平衡。

KOMF结构

Kolmogorov-Arnold优化多尺度融合（KOMF）结构旨在实现高效的多尺度特征融合。其核心是一次性聚合范式，仅在结构终点聚合每个阶段的特征图，这显著减少了层间连接和内存开销。每个特征图通过一个专用的变换块进行处理，该变换块集成了深度可分离卷积和KCA注意力机制，动态优化特征权重。变换后的特征图被调整到共同的空间分辨率并通过拼接操作进行聚合，构建一个全面的特征金字塔，生成富含多尺度信息的特征表示。

模型在测试集上的测试结果

SeedlingNet在测试集上取得了优异的分类性能，总体准确率达到99.26%。具体到各个品种，大部分品种（如G2, G4, G5, G6, G8, G11, G12, G13, G15, G16）的准确率、精确率、召回率和F1分数均达到100%。仅有个别品种如G14的F1分数略低（96.25%），这可能是由于该品种与其他品种（如G3, G12）之间存在较高的类间相似性，模型难以区分其细微特征。训练过程显示，模型损失在前30次迭代内迅速下降，并在175次迭代后接近零，表现出优秀的学习性能和稳定性。

对比实验

模型对比

研究将SeedlingNet与五种机器学习模型（SVM、RF、GB、KNN、LR）和十种深度学习模型（包括ResNet50、DenseNet121、MobileNet_v2、EfficientNet_b0等）进行了比较。结果表明，SeedlingNet在所有评估指标上均显著优于其他模型。其准确率（99.26%）比传统机器学习模型高出约16%-27%，比主流深度学习模型高出约3%-7%。即使是性能接近的MambaOut-Tiny模型（准确率99.14%），SeedlingNet仍保持0.12%的优势，同时模型参数量（5.72 M）相对较少，体现了其优异的性能与效率平衡。

注意力机制性能比较

研究人员比较了不同注意力机制（ECA、SE、CBAM、KCA、Light-KCA）的性能。结果显示，尽管初步的KCBAM利用了KAN强大的非线性表示能力，但其推理延迟较高（3.71 ms）。经过优化的Light-KCA在大幅降低参数量和延迟（0.28 ms）的同时，仍保持了优异的分类性能，其参数量（16.90 K）比标准CBAM减少约48.6%，实现了13倍的加速，证明了其轻量化设计的有效性。

KCA与CBAM性能比较

为了验证KCA的有效性，研究将其与CBAM注意力机制分别嵌入到AlexNet、DenseNet、ResNet和Vgg网络中进行比较。实验结果表明，在大多数网络结构中，KCA都能普遍提升模型的F1分数、召回率、精确率和准确率。特别是在DenseNet上，KCA将F1分数提升了约0.006，准确率提升了约0.007，凸显了KCA在捕获复杂特征和增强网络表示能力方面的优势。训练曲线也显示，集成KCA的模型能够更快地降低损失，且训练/验证曲线更稳定。

消融实验

消融实验旨在评估SeedlingNet中各组件对分类任务的贡献。当移除KCA模块时，模型F1分数下降0.66%；当移除深度可分离卷积（DSConv）时，准确率降至97.72%；而当移除多尺度融合模块（KOMF）时，性能下降最为显著，准确率降至96.40%。这证明了KCA在特征判别、DSConv在稳定训练以及KOMF在多尺度信息整合中的关键作用。完整的SeedlingNet模型达到了最佳性能（F1-score: 99.26%），表明了各组件间的协同效应。

泛化性实验

该实验通过调整测试集（包括调整大小、添加噪声、随机旋转、亮度/对比度修改）来模拟真实场景，评估模型在未知数据上的分类性能。结果显示，模型在泛化测试集上的整体准确率为95.74%，尽管比原始测试集下降3.52%，但仍保持良好性能，表明模型具有较强的泛化能力。部分品种（如G9和G13）分类准确率较低，可能与数据变换过程中特征差异较大有关。

模拟真实条件下的鲁棒性评估

在模拟真实条件的鲁棒性测试中，SeedlingNet的两种变体（SeedlingNet-KCA和SeedlingNet-LightKCA）与Swin-T和MambaOut-Tiny等轻量级架构进行了比较。SeedlingNet-LightKCA取得了最佳综合性能（F1-score: 97.51%, Accuracy: 97.64%），显著优于Swin-T（准确率差距达19.46个百分点）和MambaOut-Tiny。这表明SeedlingNet框架，特别是LightKCA变体，在光照变化、部分遮挡等挑战性成像条件下能保持稳定的决策边界和优异的性能。

可视化实验

通过可视化不同训练周期注意力机制关注的特征区域，研究人员观察到模型学习过程。初期，模型注意力可能受土壤背景或遮挡物干扰而偏离幼苗主体。但随着训练进行（例如到第18、61、164、199周期），模型的注意力能够稳定地聚焦于小麦幼苗本身的信息，并忽略土壤和遮挡区域。这证明了模型经过充分训练后，能够有效学习到小麦幼苗的品种信息，并具备强大的抗干扰能力。

研究结论与讨论部分指出，SeedlingNet成功地为小麦幼苗品种的高精度识别提供了一个高效的深度学习解决方案。其核心创新点KCA注意力机制和KOMF多尺度融合结构，通过引入可学习的自适应非线性变换和高效的特征聚合策略，显著提升了对细微表型特征的捕获能力和模型的分辨能力。实验结果表明，该模型不仅在标准测试集上达到了领先的准确率（99.26%），在应对图像变换和模拟真实干扰的泛化性与鲁棒性测试中也表现出色。尽管在极端相似的品种对（如G0与G1）或存在显著类间相似性的品种（如G14、G3、G12）上仍存在轻微误判，这反映了幼苗期品种细粒度识别本身固有的挑战，但模型整体性能卓越。这项研究为早期、无损的小麦品种鉴定提供了可靠的技术工具，对保证种子纯度、优化田间管理和推动精准农业发展具有重要意义。未来研究方向包括将模型扩展至其他作物物种和生长阶段，进一步优化模型轻量化程度以适应边缘设备部署，以及探索融合多模态数据（如高光谱影像）以提升识别能力。

热点排行

新闻专题