CPO-SwinUnet：一种用于辣椒植株器官级结构语义分割的增强型Swin-Unet网络

《Smart Agricultural Technology》：CPO-SwinUnet: An Enhanced Swin-Unet for Organ-Level Structural Semantic Segmentation of Pepper Plants

【字体：大中小】 时间：2026年03月16日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　本研究针对复杂田间环境下辣椒植株器官尺度差异大、形态细长、遮挡频繁所导致的精细分割难题，提出了一种增强的CPO-SwinUnet架构。该网络在Swin-Unet基础上，于瓶颈层集成条带池化（Strip Pooling）模块以增强对细长结构的方向敏感性全局建模，并在解码阶段设计了改进的FreqFusion v2模块，利用特征差异引导的注意力机制优化多尺度特征融合，有效提升了边界清晰度与细节保留能力。在覆盖全生育期的自建数据集上验证，该模型取得了95.74%的mIoU，性能优于基线模型，为后续基于目标区域的变量喷施决策提供了精准的结构化感知基础。

想象一下，在广袤的农田里，一位农业专家正试图通过分析作物的照片来制定精准的施肥或喷药方案。他需要准确区分出每一株辣椒的叶片、花朵和果实，并计算出各自的面积和位置。然而，现实往往很“骨感”：茂密的枝叶层层叠叠，相互遮挡；细长的叶梗和果实轮廓在图像中模糊难辨；作物与土壤背景颜色相近，边界混沌一片。这些在非结构化田间环境中普遍存在的挑战——器官尺度差异大、形态细长、频繁遮挡以及背景纹理相似——使得传统的图像分析方法常常“力不从心”，导致分割结果出现碎片化、边界模糊和语义混淆等问题，严重制约了基于视觉的精准农业决策。

为了解决这些难题，一项名为“CPO-SwinUnet: An Enhanced Swin-Unet for Organ-Level Structural Semantic Segmentation of Pepper Plants”的研究应运而生，并发表在《Smart Agricultural Technology》期刊上。该研究瞄准辣椒这一重要经济作物，致力于实现其器官级别的精细语义分割。研究人员指出，精准的二维图像识别是田间数字感知和科学农业决策的基础前提。在辣椒植株上，其密集的冠层结构和模糊的器官边界使得问题尤为突出。现有分割模型因感受野受限和方向建模不足，往往难以充分刻画细长的形态特征，同时背景纹理相似性和遮挡干扰也常导致边界清晰度下降和语义混淆。因此，开发一种能够在复杂场景下实现精确类别判别和清晰边界勾勒的分割方法至关重要，这不仅是结构分析的精细化表征，更是温室自动化中目标感知与作业决策的前提。

为了应对上述挑战，研究团队提出了CPO-SwinUnet，一种为辣椒器官级精细分割而优化的增强网络框架。该研究的主要贡献包括三个方面：首先，构建了一个覆盖幼苗期、开花期、结果期和成熟期全生育期、包含复杂背景场景的专有辣椒图像数据集，并进行了像素级标注。其次，在Swin-Unet编码器-解码器架构基础上，提出了CPO-SwinUnet结构，通过在瓶颈层集成一个条带池化（Strip Pooling）模块，沿水平和垂直轴显式建模长程上下文，从而增强对叶片、果实等细长结构的整体形态感知。最后，设计了一个改进的FreqFusion v2模块用于U形结构的跨尺度特征融合阶段，利用高、低分辨率特征间的像素级差异作为频率提示，结合通道-空间注意力门控和轻量残差连接，在细节保留和语义增强之间实现自适应平衡。

本项研究主要采用了以下关键技术方法：1) 数据集构建与增强：在新疆阿拉尔市田间自然条件下采集辣椒全生育期图像，使用LabelMe进行像素级手动标注，生成叶片、果实、花朵及背景四类标签。针对类别像素不平衡问题，对样本进行了旋转、缩放等针对性数据增强，最终数据集扩充至14754张图像并按8:2划分训练集与验证集。2) 网络架构设计（CPO-SwinUnet）：以Swin-Unet为基线，在其编码器与解码器之间的瓶颈层嵌入Strip Pooling模块，通过长窄形池化核聚合水平与垂直方向的上下文信息，增强对细长结构的全局感知。3) 特征融合优化（FreqFusion v2）：在解码器的跨尺度特征融合步骤中，用FreqFusion v2模块替代简单拼接或相加操作。该模块计算高、低分辨率特征图的差值作为频率提示信号，驱动一个串行的通道-空间注意力门控机制，生成自适应权重来融合特征，并通过残差连接保留高分辨率分支的细节。

3.1. 数据集构建

研究构建的数据集涵盖辣椒四个关键物候期（幼苗期、开花期、结果期、成熟期）以及复杂背景场景。所有图像均在自然光照下从植株正面拍摄，并统一标注为叶片、果实、花朵和背景四类。针对细长器官和边界模糊的挑战，还专门构建了包含多层叶片重叠、枝条交错及土壤背景的复杂场景图像子集，并在标注时特别关注细长结构的连续性和器官边界的准确勾勒。通过数据增强，数据集总量达到14754张图像，为模型训练和评估提供了丰富且贴近实际生产环境的数据基础。

3.2. 基于CPO-SwinUnet的辣椒器官语义分割

3.2.1. 核心方法论原理

CPO-SwinUnet保留了Swin-Unet的基本编码器-解码器范式，但在“全局上下文建模”和“跨尺度特征融合”两个关键阶段进行了针对性增强。核心包括集成方向敏感的条带池化（Strip Pooling）模块以增强对细长轮廓的感知，以及采用改进的FreqFusion v2模块来平衡语义增强与小目标、边界细节的保留。

3.2.2. Strip Pooling模块的集成

为解决原始Swin-Unet在瓶颈层对“沿特定轴延伸”的细长结构感知不足的问题，将Strip Pooling模块集成到Swin-Unet架构最深的特征图中。该模块使用长窄形（如1×N或N×1）池化核分别沿水平和垂直方向聚合特征，使网络能够在“整行”或“整列”的尺度上感知上下文，从而形成对细长结构方向模式敏感的表示。实验表明，集成该模块后，模型对辣椒目标的分割从局部碎片化、边缘缺口转变为边界更平滑、内部区域更连贯的结果。

3.2.3. FreqFusion模块的改进

为应对U形架构在解码阶段高频细节与全局语义融合的挑战，在原始FreqFusion框架基础上提出了FreqFusion v2。其主要改进在于：结构简化，仅使用标准卷积、批归一化（Batch Normalization, BN）和SiLU等基础算子；在进入融合单元前，使用1×1卷积将高、低分辨率分支投影到相同通道维度，并使用双线性插值进行尺度对齐；建立了一个基于特征差分的两阶段串行通道-空间注意力机制，首先生成通道注意力权重，再生成空间注意力权重；最后，通过一个独立的残差路径将融合结果叠加到高分辨率分支上。实验结果显示，FreqFusion v2在参数量和计算量增加可忽略不计的情况下，进一步提升了模型在细长目标和小尺度器官上的分割精度。

4. 验证与讨论

4.1. 评价指标

采用平均交并比（mean Intersection over Union, mIoU）作为主要评价指标，并排除背景类无效像素进行计算。

4.2. 实验环境与模型训练

实验在Ubuntu系统下进行，使用PyTorch框架。输入图像尺寸统一为224×224像素。训练采用SGD优化器，基础学习率为0.01，批次大小为32，共训练73800次迭代。

4.3. 实验结果

在自建数据集上，CPO-SwinUnet取得了95.74%的mIoU，相较于原始Swin-Unet（94.83%）提升了0.91个百分点。与SegFormer、PSPNet、FCN以及近期提出的VM-UNet等其他代表性分割模型相比，CPO-SwinUnet也表现出最优性能。可视化结果对比显示，CPO-SwinUnet预测的掩码边界更平滑、更完整，显著减轻了原始模型的边界粗糙现象。

4.4. 消融研究

消融实验验证了各模块的有效性：仅添加Strip Pooling模块（baseline+SP）可将mIoU从94.83%提升至95.56%；仅添加原始FreqFusion模块（baseline+original FreqFusion）可提升至95.59%；而使用改进的FreqFusion v2模块（baseline+FreqFusion v2）可进一步提升至95.72%。最终，完整CPO-SwinUnet（baseline+SP+FreqFusion v2）取得了最佳的95.74% mIoU，表明Strip Pooling模块和FreqFusion v2模块在增强细长结构全局感知和优化跨尺度特征融合方面发挥了互补作用。

结论与意义

本研究针对辣椒植株多器官精细分割及后续差异化喷施作业的需求，构建了覆盖全物候周期的复杂背景数据集，并提出了一种改进的CPO-SwinUnet网络架构。通过在全局上下文建模和跨尺度融合两方面的针对性增强，该方法在自建数据集上实现了95.74%的mIoU，性能优于基线模型。实验结果表明，该方法能够生成结构连续性更强、边界更清晰的分割掩码，从而为下游任务——特别是基于不同植株部件面积和空间分布的剂量分配与喷施控制——提供了稳定的感知输入。这项工作将农业图像分割从“前景-背景”的二元分离推进到对具体作物器官的精细划分，为精准农业中的变量作业决策提供了可靠的前端感知解决方案，展示了深度学习在复杂田间环境感知与自动化管理中的实用价值。

热点排行

新闻专题