《Frontiers in Plant Science》:Robust detection for selective harvesting of field flat jujube: overcoming occlusion and small-target challenges in unstructured environments
编辑推荐:
田间扁平枣的检测受其自身特性及复杂农业环境的制约,面临着小目标尺寸与密集遮挡等挑战,易导致遮挡区域信息不足及小目标特征丢失。本文基于最新的YOLOv12(You Only Look Once)网络,聚焦于补偿遮挡区域的信息损失并提高小目标检测精度。首先,在颈部
田间扁平枣的检测受其自身特性及复杂农业环境的制约,面临着小目标尺寸与密集遮挡等挑战,易导致遮挡区域信息不足及小目标特征丢失。本文基于最新的YOLOv12(You Only Look Once)网络,聚焦于补偿遮挡区域的信息损失并提高小目标检测精度。首先,在颈部网络(Neck network)中引入分离与增强注意力模块(SEAM),以增强遮挡区域的特征表征。其次,为了丰富密集检测任务中的上下文语义信息,将上采样算子替换为内容感知特征重组(CARAFE)算子。最后,将并行补丁感知注意力(PPA)模块集成至检测头(Detection head),设计了内置注意力机制的小目标专用检测头,实现了全局与局部特征表征的交互融合。实验结果表明,提出的YOLOv12-SCP网络实现了96.8%的平均精度均值(mAP@0.5)和0.91的F1分数,分别超越了原始YOLOv12n模型1.2%和1.0%。同时,mAP@0.5:0.95提升了2.7个百分点,成熟与未成熟果实的平均精度分别达到97.6%和96%。通过广泛的消融实验及与当前主流目标检测方法的比较,证明了该方法在复杂环境下检测小目标遮挡时表现出优越性能。
该论文针对自然果园环境中扁平枣因复杂背景、密集遮挡及小目标尺度导致的检测鲁棒性挑战,提出了一种基于YOLOv12n的改进方法YOLOv12-SCP,相关研究发表于《Frontiers in Plant Science》。研究背景指出,现有通用目标检测模型对中大型物体优化,导致小目标特征稀缺且易受噪声干扰,同时遮挡破坏了物体结构完整性,造成关键特征丢失。此外,针对田间扁平枣的公开数据集匮乏,限制了算法在实际场景的部署。为此,研究人员构建了包含11240张高分辨率田间图像的扁平枣数据集,涵盖不同生长阶段及全天自然光照条件,并在此基础上开展了模型架构改进研究。
关键技术方法主要包括:构建包含成熟与未成熟扁平枣的大规模田间图像数据集并进行标注;基于YOLOv12n架构,依次引入分离与增强注意力模块(SEAM)处理遮挡问题,采用内容感知特征重组(CARAFE)算子优化上采样过程,以及集成并行补丁感知注意力(PPA)模块构建小目标专用检测头。
研究结果如下:
3.1 不同注意力模块及结构对特征融合的影响
研究人员对比了ASF、CTA、SDI及不同核配置的SEAM模块对颈部网络特征融合的影响。实验数据显示,SEAM模块(核尺寸配置为6,7,8)在平均精度均值(mAP@0.5)、mAP@0.5:0.95及F1分数上均取得峰值,分别为96.1%、81.8%和91。该方案通过扩大感受野并维持尺度连续性,有效增强了遮挡目标的上下文推理能力,被命名为YOLOv12-S。
3.2 上采样算子的优化
针对传统插值算法可能导致图像质量受损的问题,研究人员对比了WFU、Dy-Sample、EVC、SBA、CARAFE五种上采样算子及RCM、GFPN两种下采样算子。结果表明,SEAM与CARAFE的组合(YOLOv12-SC)表现最优,mAP@0.5和mAP@0.5:0.95分别达到96.6%和82.5%。CARAFE算子通过在大感受野内聚合上下文信息,动态生成权重以自适应重组特征,有效补偿了密集生长导致的特征信息丢失。
3.3 检测头的设计
研究人员将具有多分支策略和自适应特征增强的PPA模块引入检测头,并与Dynamic-Head、MB Conv、ASFF等模块进行对比。结果显示,引入PPA模块后,未成熟果实的识别精度显著提升,mAP@0.5和mAP@0.5:0.95分别增至96.8%和83.7%。PPA模块通过并行提取局部与全局多尺度特征,促进了小目标特征的交互融合,表现出优于其他模块的综合性能。
3.4 消融实验
通过单模块、双模块及综合改进的消融实验验证了各模块的协同效应。最终的综合改进方案(YOLOv12-SCP)取得了最佳效果,mAP@0.5和mAP@0.5:0.95分别比基线网络提升了1.2%和2.7%,成熟与未成熟果实的检测精度分别上升了0.8%和1.7%。Grad-CAM热力图显示,SEAM模块有助于模型更一致地关注遮挡果实区域,而CARAFE上采样算子则改善了上下文推理能力。
3.5 主流单阶段算法的对比实验
研究人员将改进后的YOLOv12-SCP与YOLOv5n至YOLOv12系列的主流单阶段算法进行了横向对比。结果显示,尽管YOLOv12-SCP的复杂度有所增加,但其精度超越了所有同系列的n-scale模型,甚至略高于s-scale模型(YOLOv12s),同时显著降低了参数量和模型体积(参数量减少62.49%,计算量FLOPs降低49.49%)。
讨论部分指出,尽管YOLOv12-SCP在特定果园和季节的数据集上取得了高精度,但在果实被叶片严重遮挡(超过70%)或处于深阴影区域时仍存在漏检现象,表明单一RGB帧的空间信息可能不足以应对极端情况。未来的工作可探索利用时序信息或多视角融合来进一步提升鲁棒性。此外,模型的轻量化与实时性仍需通过结构化剪枝、知识蒸馏等方法进一步优化。
结论部分总结道,该研究针对复杂农业环境中扁平枣的重叠遮挡和小目标检测难题,提出了一种基于YOLOv12n的田间扁平枣检测方法YOLOv12-SCP。通过结合重新设计的SEAM注意力分支、CARAFE上采样和基于PPA的检测头,有效解决了遮挡和小目标挑战。在自建的田间数据集上的实验结果证明了该方法在实际农业条件下检测精度的显著提升,为自动化产量估算和机器人采摘应用提供了实用的解决方案。