《Smart Agricultural Technology》:Automatic Annotation and Performance Evaluation of Orchard Pear Fruit Using SAM-Based Zero-Shot Segmentation
编辑推荐:
本研究针对果园梨果实例分割数据标注耗时费力的问题,开发了一种基于Segment Anything Model (SAM)零样本分割的自动标注方法。研究人员利用SAM全分割模式结合颜色(H通道)和圆度二维特征过滤掩码,实现了梨果的自动分割与JSON标注文件生成。实验结果表明,该方法在保证模型性能(与人工标注模型性能差异<1%)的同时,将单张图像平均标注时间从157秒大幅缩短至45秒,效率提升超过70%,为智能农业视觉应用的大规模数据集构建提供了高效解决方案。
在智能农业蓬勃发展的今天,果园自动化管理技术正迎来前所未有的机遇。梨果作为重要经济作物,其精准识别与定位是实现自动化采收、产量预估和生长监测的关键技术基础。然而,当前基于深度学习的实例分割方法面临着一个突出瓶颈:高质量标注数据的获取需要耗费大量人力物力。传统人工标注不仅效率低下(单张图像平均需157±5秒),还存在标注者主观差异导致的标注不一致问题,严重制约了智能农业技术的推广应用。
面对这一挑战,安徽农业大学的研究团队在《Smart Agricultural Technology》上发表了一项创新研究,提出了一种基于Segment Anything Model (SAM)的果园梨果自动标注方法。该方法巧妙利用SAM模型的零样本分割能力,结合梨果特有的颜色和形态特征,实现了高效精准的自动标注,为智能农业视觉应用的大规模数据集构建提供了全新解决方案。
研究团队采用了三项关键技术方法:首先利用SAM、SAM2和SAM3的全分割模式对果园图像进行零样本分割;其次基于尺寸特征(最小外接矩形最长边>180像素)过滤大尺寸非目标物体,并创新性地采用HSV色彩空间的H通道(色调)和圆度(Roundness)二维特征组合,通过逻辑回归建立分类边界,实现小目标梨果与干扰物的精准区分;最后通过优化的非极大值抑制策略(NMS-style)去除重复掩码,生成符合LabelMe规范的JSON标注文件。
2.1. 数据集采集
研究数据采集于山东省聊城市广县观友果业数字果园示范基地,使用小米MIX 2S智能手机在成熟梨园行间拍摄RGB视频。采集时间为2024年10月19日8:00-18:00阴天条件下,共获得10段分辨率为1440×1920、帧率30fps的MP4格式视频。通过每30帧抽取1帧图像,获得450张图像,严格划分为50张校准集和400张评估集,确保模型训练与评估的数据独立性。
2.3. 结合轮廓和占用像素数区分目标物体
研究人员通过提取每个掩码的最小外接矩形的最长边(Lpixel)作为尺寸特征,发现当阈值设为180像素时,能有效区分大尺寸非目标物体(天空、大片叶片等)与目标梨果及小尺寸干扰物。统计分析显示,目标梨果和小尺寸非目标物体的Lpixel分布相似,而大尺寸非目标物体形成明显独立的分布。
2.4. 颜色-圆度下小目标物体与小非目标物体的区分
基于成熟梨果特有的黄色色调(H值集中在15-25°)和近似圆形特征(圆度>0.8),研究团队采用H通道和圆度二维特征组合进行掩码过滤。逻辑回归模型参数为:w0=-3.125874, w1=6.012345, w2=8.567890,该组合能准确识别95.9%的目标果实,同时有效排除93.0%的非目标物体。
3.1. 根据尺寸特征过滤掩码
对50张图像的全分割结果统计显示,SAM共生成2360个掩码,其中大尺寸非目标物体77个、小尺寸非目标物体1436个、目标梨果847个。尺寸过滤阈值设为180像素时,能有效保留所有目标果实和小尺寸非目标物体,同时过滤掉所有大尺寸非目标物体。
3.2. 单特征筛选掩码
单特征通道分析表明,H通道和圆度通道对目标果实的区分能力最强。H通道能保留93%以上的目标梨果,同时排除84%以上的非目标物体;圆度通道能保留91%以上的目标梨果,排除86%以上的非目标物体。其他特征通道区分性能相对有限,表现最好的V通道仅能保留85%目标果实和排除约65%非目标物体。
3.3. 颜色和圆度的二维特征筛选掩码
二维特征筛选方法性能显著优于单特征通道。H-圆度组合能准确识别95.9%的目标果实,排除93.0%的非目标物体。颜色和形状特征表现出强互补性:在光照条件差导致颜色特征失真时,稳定的圆度特征提供有效补偿;当果实形状变形时,颜色特征提供可靠的辅助判别。
3.4. 各特征输入模式的掩码筛选性能比较
性能比较显示,SAM在H特征模式下达到平衡性能:精确度(P)0.42、召回率(R)0.81、平均精度(AP)0.80,单图处理时间5.2秒。SAM2侧重精确度(P=0.65)但召回率较低(R=0.56),处理时间较长(10.1秒/图)。SAM3召回率最高(R=0.91)但精确度最低(P=0.29),倾向于生成过多分割区域。
3.5. 自动标注数据与人工标注数据训练结果比较
模型训练结果表明,基于自动标注+人工校正数据集训练的YOLOv11-seg模型达到P=83.6%±0.8、R=81.7%±1.0、mAP50=88.3%±0.6、mAP50-95=48.7%±1.5,与纯人工标注模型性能差异均<1%。而平均标注时间从157±5秒/图大幅缩短至45±0.6秒/图,效率提升超过70%。配对t检验显示,除mAP50(p=0.042)外,其他核心指标均无统计学显著差异(p>0.05),验证了自动标注方法的有效性。
研究结论表明,基于SAM零样本分割的自动标注方法能显著提升果园梨果实例分割数据集的构建效率,在保证模型性能的前提下将标注时间减少70%以上。该方法避免了复杂的模型适配或再训练过程,通过简单的物理特征后过滤策略,为资源受限环境下的农业视觉应用大规模数据集构建提供了实用解决方案。未来研究方向包括扩展方法至更多果树品种和生长阶段,结合多地域、多季节数据提升模型鲁棒性,以及引入农业专用适配器进一步增强零样本分割能力。
这项研究不仅为果园果实自动标注提供了技术范例,也为智能农业背景下其他作物视觉识别任务的快速数据集构建开辟了新途径,对推动农业自动化技术发展具有重要意义。