CMNet:非对称双分支网络实现高精度棉花分割,为智慧农业精准采摘与估产提供新策略

【字体: 时间:2026年03月03日 来源:Frontiers in Plant Science 4.8

编辑推荐:

  本文综述提出了一种面向复杂田间环境的棉花分割网络CMNet,该模型在ParaTransCNN架构基础上,通过引入2D选择性扫描(SS2D)模块构建视觉Mamba(VMamba)分支来替代Transformer,并集成了可变形卷积网络v1(DCNv1)模块以增强对不规则棉株的感知,同时在卷积神经网络(CNN)分支末端引入空洞空间金字塔池化(ASPP)模块以强化多尺度特征提取,并以空间与通道压缩激励(scSE)注意力机制优化特征融合。实验表明,CMNet在保持较低参数与计算量的同时,实现了优异的分割性能,为农业自动化中的作物精细分割提供了有效解决方案。

  
引言
在农业自动化领域,精确的棉花图像分割是实现智能采摘、产量估算等任务的关键步骤。然而,复杂的田间环境、背景干扰以及目标棉铃不规则的外形,严重影响了传统分割方法的精度。现有深度学习模型虽然取得了一定进展,但仍普遍面临精度不足、过度分割、误识别等局限。为此,本研究提出了一种新颖的双分支棉花分割网络——棉花感知Mamba增强UNet(CMNet)。该网络旨在应对复杂背景下棉花目标的精确识别挑战,通过优化ParaTransCNN架构,平衡局部细节与全局语义信息提取,并降低计算负担,为实现高效、精准的自动化棉花管理提供了新的技术思路。
相关研究
图像分割技术,作为计算机视觉的核心任务之一,经历了从传统方法到基于人工智能(AI)方法的演变。传统方法如阈值分割、边缘检测等依赖手工特征,在处理复杂场景时表现不佳。随着深度学习的兴起,以全卷积网络(FCN)、U-Net为代表的卷积神经网络(CNN)架构能够自动学习图像语义特征,显著提升了分割性能。随后,Transformer架构被引入视觉任务,展现了强大的全局建模能力,但其计算复杂度高。近年来,基于状态空间模型(SSM)的Mamba架构及其视觉变体VMamba,以线性复杂度实现了长程依赖建模,为图像分割提供了新的视角。
在棉花分割的具体研究中,早期工作依赖于颜色、纹理等低层特征,鲁棒性差。基于传统机器学习的方法有所改进,但仍难以捕捉高层语义信息。随着深度学习技术的应用,基于CNN(如VGG16、InceptionV3、ResNet)和Vision Transformer(ViT)的模型被用于棉花分割,并通过引入层次化结构网络、注意力机制(如Coordinate Attention)来提升对多尺度特征和空间分布的理解。然而,在复杂棉花生长环境下,现有模型的鲁棒性仍显不足,存在对不规则形状、模糊边界、尺度多样性以及背景干扰处理不充分的问题。
方法
为了应对上述挑战,本研究提出CMNet模型,其核心是在ParaTransCNN双分支U型编码器-解码器架构基础上进行了一系列改进。
  • CMNet架构概述:模型采用CNN与VMamba并行的双编码器分支。CNN分支(以ResNet为骨干)负责提取局部细节特征,VMamba分支(由SS2D模块构建)用于捕获全局上下文信息。两个分支的特征通过改进的注意力模块进行融合,最终由解码器生成精细的分割掩码。
  • SS2D模块:该模块是VMamba分支的核心,用于替代原始Transformer。它通过扫描扩展操作将输入图像沿四个方向(上下左右)展开为子序列,输入到具有选择机制的S6模块中进行特征提取,最后通过扫描合并还原图像。SS2D在保持强大全局建模能力的同时,具有线性计算复杂度,显著降低了计算成本。
  • ASPP模块:集成在CNN分支末端,通过并行使用不同膨胀率的空洞卷积和全局平均池化,捕获多尺度上下文信息,从而增强模型对不同大小棉花及复杂边缘特征的提取能力。
  • DCNv1模块:集成在VMamba分支中。与使用固定采样网格的标准卷积不同,DCNv1为卷积核引入了可学习的偏移量,使其能够自适应地调整采样位置,从而更好地适应棉花不规则、多变的几何形状,提升边界分割的准确性。
  • scSE模块:用于替换原架构中的压缩激励(SE)模块,作为双分支的特征融合组件。scSE同时包含通道注意力(cSE)和空间注意力(sSE)两个子模块,能够自主地在空间和通道维度上对特征进行重新校准,强调关键区域并抑制无关背景,优化了特征融合效果。
数据集与实验环境
本研究使用的数据集包含四个主要棉花品种(Gossypium arboreum, G. barbadense, G. herbaceum, G. hirsutum)的图像。经过数据清洗(移除低质量样本)、增强(旋转、翻转、亮度调整等)以及改进的Mosaic数据增强方法,最终构建了一个包含1558张图像的数据集。所有图像统一缩放至224×224像素,并按9:1划分训练集和测试集。实验在配置了NVIDIA GeForce RTX 4090 D GPU的平台上进行,使用PyTorch框架。训练超参数包括:学习率0.01,优化器为SGD,动量0.9,批次大小4,训练轮数50。
结果与分析
  • 与主流模型的对比实验:CMNet在棉花数据集上进行了综合评估,使用的指标包括Dice系数、95%豪斯多夫距离(HD95)、平均交并比(mIoU)和像素精度(Accuracy)。实验结果表明,CMNet在Dice(91.06%)、mIoU(84.18%)和Accuracy(98.10%)上均优于ParaTransCNNSwinUNetTransUNetHiFormer等主流模型。特别是在边界精度上,CMNet的HD95值低至2.47,远低于其他模型,证明其对棉花不规则边界的捕捉能力更强。在模型复杂度和计算量方面,CMNet的参数数量(Params)和十亿次浮点运算(GFLOPS)也低于或与基线模型相当,体现了其良好的效率。
  • 消融实验:通过逐步添加SS2D、ASPP、scSE和DCNv1模块的消融实验,验证了各改进组件的有效性。SS2D模块的引入显著提升了全局建模能力并降低了计算量;ASPP模块极大改善了边界定位精度(HD95大幅下降);scSE模块通过优化特征融合,进一步提升了分割一致性;DCNv1模块增强了对不规则形状的建模。当所有模块协同工作时,模型取得了最佳性能,证明了改进方案的整体有效性和模块间的协同效应。
讨论与结论
本研究所提出的CMNet模型,通过集成SS2D、DCNv1、ASPP和scSE等先进模块,构建了一个高效、精准的棉花分割网络。该模型充分利用了双分支架构的互补优势,在复杂田间环境下实现了对棉花目标准确、边界清晰的分割。实验结果表明,CMNet不仅分割精度高,而且在保持较低模型复杂度的同时,展现出了更快的收敛速度和更好的训练稳定性。
这项工作的意义在于为智慧农业中的作物表型分析、自动化收获等任务提供了可靠的视觉感知解决方案。CMNet的成功验证了将VMamba等新型架构与针对性强的改进模块(如针对不规则形状的DCNv1、针对多尺度特征的ASPP)相结合,在处理农业图像分割这一特定且具有挑战性的任务上的潜力。未来,该模型框架有望迁移并应用于其他具有类似挑战(如目标不规则、背景复杂)的农作物分割任务中,推动农业生产的智能化与精细化发展。本研究的源代码和数据集已公开,可供同行进一步研究使用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号