CMNet：非对称双分支网络实现高精度棉花分割，为智慧农业精准采摘与估产提供新策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月03日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　本文综述提出了一种面向复杂田间环境的棉花分割网络CMNet，该模型在ParaTransCNN架构基础上，通过引入2D选择性扫描（SS2D）模块构建视觉Mamba（VMamba）分支来替代Transformer，并集成了可变形卷积网络v1（DCNv1）模块以增强对不规则棉株的感知，同时在卷积神经网络（CNN）分支末端引入空洞空间金字塔池化（ASPP）模块以强化多尺度特征提取，并以空间与通道压缩激励（scSE）注意力机制优化特征融合。实验表明，CMNet在保持较低参数与计算量的同时，实现了优异的分割性能，为农业自动化中的作物精细分割提供了有效解决方案。

引言

在农业自动化领域，精确的棉花图像分割是实现智能采摘、产量估算等任务的关键步骤。然而，复杂的田间环境、背景干扰以及目标棉铃不规则的外形，严重影响了传统分割方法的精度。现有深度学习模型虽然取得了一定进展，但仍普遍面临精度不足、过度分割、误识别等局限。为此，本研究提出了一种新颖的双分支棉花分割网络——棉花感知Mamba增强UNet（CMNet）。该网络旨在应对复杂背景下棉花目标的精确识别挑战，通过优化ParaTransCNN架构，平衡局部细节与全局语义信息提取，并降低计算负担，为实现高效、精准的自动化棉花管理提供了新的技术思路。

相关研究

图像分割技术，作为计算机视觉的核心任务之一，经历了从传统方法到基于人工智能（AI）方法的演变。传统方法如阈值分割、边缘检测等依赖手工特征，在处理复杂场景时表现不佳。随着深度学习的兴起，以全卷积网络（FCN）、U-Net为代表的卷积神经网络（CNN）架构能够自动学习图像语义特征，显著提升了分割性能。随后，Transformer架构被引入视觉任务，展现了强大的全局建模能力，但其计算复杂度高。近年来，基于状态空间模型（SSM）的Mamba架构及其视觉变体VMamba，以线性复杂度实现了长程依赖建模，为图像分割提供了新的视角。

在棉花分割的具体研究中，早期工作依赖于颜色、纹理等低层特征，鲁棒性差。基于传统机器学习的方法有所改进，但仍难以捕捉高层语义信息。随着深度学习技术的应用，基于CNN（如VGG16、InceptionV3、ResNet）和Vision Transformer（ViT）的模型被用于棉花分割，并通过引入层次化结构网络、注意力机制（如Coordinate Attention）来提升对多尺度特征和空间分布的理解。然而，在复杂棉花生长环境下，现有模型的鲁棒性仍显不足，存在对不规则形状、模糊边界、尺度多样性以及背景干扰处理不充分的问题。

方法

为了应对上述挑战，本研究提出CMNet模型，其核心是在ParaTransCNN双分支U型编码器-解码器架构基础上进行了一系列改进。

•
CMNet架构概述：模型采用CNN与VMamba并行的双编码器分支。CNN分支（以ResNet为骨干）负责提取局部细节特征，VMamba分支（由SS2D模块构建）用于捕获全局上下文信息。两个分支的特征通过改进的注意力模块进行融合，最终由解码器生成精细的分割掩码。
•
SS2D模块：该模块是VMamba分支的核心，用于替代原始Transformer。它通过扫描扩展操作将输入图像沿四个方向（上下左右）展开为子序列，输入到具有选择机制的S6模块中进行特征提取，最后通过扫描合并还原图像。SS2D在保持强大全局建模能力的同时，具有线性计算复杂度，显著降低了计算成本。
•
ASPP模块：集成在CNN分支末端，通过并行使用不同膨胀率的空洞卷积和全局平均池化，捕获多尺度上下文信息，从而增强模型对不同大小棉花及复杂边缘特征的提取能力。
•
DCNv1模块：集成在VMamba分支中。与使用固定采样网格的标准卷积不同，DCNv1为卷积核引入了可学习的偏移量，使其能够自适应地调整采样位置，从而更好地适应棉花不规则、多变的几何形状，提升边界分割的准确性。
•
scSE模块：用于替换原架构中的压缩激励（SE）模块，作为双分支的特征融合组件。scSE同时包含通道注意力（cSE）和空间注意力（sSE）两个子模块，能够自主地在空间和通道维度上对特征进行重新校准，强调关键区域并抑制无关背景，优化了特征融合效果。

数据集与实验环境

本研究使用的数据集包含四个主要棉花品种（Gossypium arboreum, G. barbadense, G. herbaceum, G. hirsutum）的图像。经过数据清洗（移除低质量样本）、增强（旋转、翻转、亮度调整等）以及改进的Mosaic数据增强方法，最终构建了一个包含1558张图像的数据集。所有图像统一缩放至224×224像素，并按9:1划分训练集和测试集。实验在配置了NVIDIA GeForce RTX 4090 D GPU的平台上进行，使用PyTorch框架。训练超参数包括：学习率0.01，优化器为SGD，动量0.9，批次大小4，训练轮数50。

结果与分析

•
与主流模型的对比实验：CMNet在棉花数据集上进行了综合评估，使用的指标包括Dice系数、95%豪斯多夫距离（HD95）、平均交并比（mIoU）和像素精度（Accuracy）。实验结果表明，CMNet在Dice（91.06%）、mIoU（84.18%）和Accuracy（98.10%）上均优于ParaTransCNN、SwinUNet、TransUNet、HiFormer等主流模型。特别是在边界精度上，CMNet的HD95值低至2.47，远低于其他模型，证明其对棉花不规则边界的捕捉能力更强。在模型复杂度和计算量方面，CMNet的参数数量（Params）和十亿次浮点运算（GFLOPS）也低于或与基线模型相当，体现了其良好的效率。
•
消融实验：通过逐步添加SS2D、ASPP、scSE和DCNv1模块的消融实验，验证了各改进组件的有效性。SS2D模块的引入显著提升了全局建模能力并降低了计算量；ASPP模块极大改善了边界定位精度（HD95大幅下降）；scSE模块通过优化特征融合，进一步提升了分割一致性；DCNv1模块增强了对不规则形状的建模。当所有模块协同工作时，模型取得了最佳性能，证明了改进方案的整体有效性和模块间的协同效应。

讨论与结论

本研究所提出的CMNet模型，通过集成SS2D、DCNv1、ASPP和scSE等先进模块，构建了一个高效、精准的棉花分割网络。该模型充分利用了双分支架构的互补优势，在复杂田间环境下实现了对棉花目标准确、边界清晰的分割。实验结果表明，CMNet不仅分割精度高，而且在保持较低模型复杂度的同时，展现出了更快的收敛速度和更好的训练稳定性。

这项工作的意义在于为智慧农业中的作物表型分析、自动化收获等任务提供了可靠的视觉感知解决方案。CMNet的成功验证了将VMamba等新型架构与针对性强的改进模块（如针对不规则形状的DCNv1、针对多尺度特征的ASPP）相结合，在处理农业图像分割这一特定且具有挑战性的任务上的潜力。未来，该模型框架有望迁移并应用于其他具有类似挑战（如目标不规则、背景复杂）的农作物分割任务中，推动农业生产的智能化与精细化发展。本研究的源代码和数据集已公开，可供同行进一步研究使用。

联系信箱：

粤ICP备09063491号

热点排行