Ladder:一款用于图像标注、目标检测及模型循环部署的软件——以碎米检测为例

《Agriculture》:Ladder: A Software to Label Images, Detect Objects and Deploy Models Recurrently for Object Detection: With a Case to Detect Broken Rice Zhou Tang and Zhiwu Zhang

【字体: 时间:2026年05月10日 来源:Agriculture 3.6

编辑推荐:

  目标检测(Object Detection, OD)技术能够识别图像和视频中的物体并进行分类,已被广泛应用于各个领域。然而,实施OD面临着图像预处理、标注、模型开发和部署等挑战。为了简化这些流程,研究人员开发了一款基于Python的软件Ladder(Label

  
目标检测(Object Detection, OD)技术能够识别图像和视频中的物体并进行分类,已被广泛应用于各个领域。然而,实施OD面临着图像预处理、标注、模型开发和部署等挑战。为了简化这些流程,研究人员开发了一款基于Python的软件Ladder(Labeling and Detection Deployment for Entity Recognition)。Ladder具有用户友好的图形界面(Graphic User Interface, GUI),便于高效标注训练数据集、检测新图像以及训练模型。该软件采用交互式循环框架,首先利用预训练模型进行预测以完成初始图像标注,随后用户可添加人工标签,这些新标注的图像可被纳入训练数据以重新训练模型。在本研究中,研究人员展示了利用Ladder高效开发碎米检测模型的过程。该模型采用了三阶段训练流程,表现出较强的预测性能(R2= 0.99),平均绝对误差(Mean Absolute Error, MAE)为6.08(95% CI: 5.18–6.97),均方根误差(Root Mean Square Error, RMSE)为6.68(95% CI: 5.93–7.46)。水稻是世界上最重要的作物之一,碎米率显著影响其市场价格和潜在用途,因此需要一种高效的方法来评估育种、生产和贸易中的碎米比例。
论文解读:Ladder——面向农业高密度小目标检测的循环工作流软件
研究背景与动机
目标检测(Object Detection, OD)技术作为一种能够同时定位和分类图像或视频中多个对象的技术,已在城市规划、交通、生物医学及农业等领域广泛应用。其中,You-Only-Look-Once (YOLO) 系列模型因其单次网络前向传播即可实现高精度预测,特别适用于实时视频检测。然而,构建OD模型面临诸多挑战:训练数据集的准备耗时费力,现有开源工具如LabelImg或Labelme缺乏商业软件(如Labelbox)所具备的模型辅助标注及重训练功能。虽然部分商业平台提供了从标注到训练的闭环解决方案,但它们通常针对标准尺寸图像优化,难以处理无人机(Unmanned Aerial Vehicle, UAV)或激光扫描仪生成的包含数百个小对象的不规则大图像。此外,水稻作为全球第二大热量来源,其碎米率是市场定价的关键指标,传统人工检测劳动强度大且易出错,亟需高效的数字化评估手段。为此,研究人员开发了Ladder (Labeling and Detection Deployment for Entity Recognition),旨在通过端到端的GUI系统解决农业成像中常见的大图像、小目标检测难题。
关键技术方法
研究人员开发了基于Python 3.8的跨平台软件Ladder,其GUI改编自Labelme,检测与训练模块基于Ultralytics YOLO仓库构建。该软件支持YOLOv8和YOLOv11系列模型,并集成了切片辅助超推理(Slicing Aided Hyper Inference, SAHI)算法以提升小目标检测精度。研究采用Calrose米样,经研磨过筛制备整粒、大碎粒和小碎粒样本,并使用扫描仪获取RGB图像。通过三阶段递进训练策略:第一阶段利用随机裁剪的小切片初始化模型;第二阶段加入分离的整粒和大碎粒图像;第三阶段混合原始米与大碎粒以增加样本多样性。利用混淆矩阵、平均精度(Average Precision, AP)及mAP@50等指标评估模型性能,并通过混合不同数量碎米的人工样本量化预测误差。
研究结果
3.1 不同阶段训练数据的比较
研究发现,尽管初始模型基于包含通用对象的COCO数据集预训练,但其无法直接识别稻米。通过迁移学习,研究逐步增加了特定领域的训练数据。第一阶段仅使用4个切片(49个整粒,20个碎粒);第二阶段扩展到5张原始图像(2085个整粒,1199个碎粒);第三阶段进一步增加到7张图像(3891个整粒,2962个碎粒),使数据分布更加均衡。
3.2 不同阶段模型的定性比较
第一阶段模型经过微调后,能够定位类似米粒的小物体,甚至识别出非米类物体(如糖果),但无法区分整粒与碎粒。第二阶段模型在区分不同品种(长粒白米、长粒糙米)的整粒与碎粒方面表现出显著改进。第三阶段模型在相同置信度设置下识别出更多碎粒,显示出检测能力的进一步提升。
3.3 不同阶段模型检测能力的量化
定量评估显示,与第二阶段模型相比,第三阶段模型对碎粒的检测率从92%提升至94%,但对整粒的检测率略有下降(从97%降至95%),同时背景误报数有所增加(从192增至307)。在平均精度方面,两阶段模型在验证集上的表现接近(mAP@0.5分别为0.974和0.968)。在模拟碎米率测试中,第三阶段模型表现出更高的R平方值(R2= 0.99),更低的RMSE(6.68)和MAE(6.08),证明了其在估算碎米率方面具有更高的一致性和准确性。
讨论与结论
4.1 高效的训练图像采集与标注
本研究利用市售稻米样本,通过研磨和筛选控制碎粒尺寸,并利用扫描仪提供稳定的成像环境。Ladder的分阶段标注策略允许利用预训练模型生成初始边界框,结合批量处理能力,优化了标注流程。研究指出,在第一阶段数据极度匮乏时,采用同一数据集进行训练和验证是一种临时的引导性策略。
4.2 检测模型逐步提升碎米识别能力
初始的YOLOv8n模型虽能定位米粒但无法分类。随着第二阶段引入分离的样本,模型获得了分类能力。针对碎粒与整粒粘连导致低估的问题,第三阶段通过混合样本增加了此类情况的出现频率,从而使模型在第三阶段具备了更强的检测能力。与基于形态学特征的传统方法不同,本研究采用的基于YOLO的OD方法仅需少量图像(7张)即达到了合理的性能。
4.3 与其他标注工具的比较
通过与LabelMe、LabelImg、Roboflow等七种工具的对比发现,尽管部分工具支持基础模型辅助标注或视觉提示,但Ladder提供了一个统一的本地工作流,集成了标注、模型辅助标注、训练及部署,减少了工作流的碎片化。特别是其预测辅助标注功能能在数秒内生成大量初始边界框,有效降低了人工绘制的工作量。
4.4 超越标注的应用部署
Ladder的预测功能不仅限于标注,还支持训练模型的部署。其集成的SAHI算法通过滑动窗口将大图像切分为小切片进行独立预测,显著改善了对小目标的检测效果。
结论
本研究通过碎米检测案例展示了Ladder作为开发OD系统的有效性。Ladder提供了一个连贯的、基于GUI的环境,支持从注释到部署的全生命周期,解决了模块化工具链需要用户组合多种工具的问题。其迭代的“标注-训练-预测”循环简化了图像标注和模型重训练过程,尤其适用于包含高密度小对象的大规模图像。该研究发表于《Agriculture》期刊。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号