Ladder：一款用于图像标注、目标检测及模型循环部署的软件——以碎米检测为例

《Agriculture》：Ladder: A Software to Label Images, Detect Objects and Deploy Models Recurrently for Object Detection: With a Case to Detect Broken Rice Zhou Tang and Zhiwu Zhang

【字体：大中小】 时间：2026年05月10日 来源：Agriculture 3.6

编辑推荐：

　　目标检测（Object Detection, OD）技术能够识别图像和视频中的物体并进行分类，已被广泛应用于各个领域。然而，实施OD面临着图像预处理、标注、模型开发和部署等挑战。为了简化这些流程，研究人员开发了一款基于Python的软件Ladder（Label

目标检测（Object Detection, OD）技术能够识别图像和视频中的物体并进行分类，已被广泛应用于各个领域。然而，实施OD面临着图像预处理、标注、模型开发和部署等挑战。为了简化这些流程，研究人员开发了一款基于Python的软件Ladder（Labeling and Detection Deployment for Entity Recognition）。Ladder具有用户友好的图形界面（Graphic User Interface, GUI），便于高效标注训练数据集、检测新图像以及训练模型。该软件采用交互式循环框架，首先利用预训练模型进行预测以完成初始图像标注，随后用户可添加人工标签，这些新标注的图像可被纳入训练数据以重新训练模型。在本研究中，研究人员展示了利用Ladder高效开发碎米检测模型的过程。该模型采用了三阶段训练流程，表现出较强的预测性能（R2= 0.99），平均绝对误差（Mean Absolute Error, MAE）为6.08（95% CI: 5.18–6.97），均方根误差（Root Mean Square Error, RMSE）为6.68（95% CI: 5.93–7.46）。水稻是世界上最重要的作物之一，碎米率显著影响其市场价格和潜在用途，因此需要一种高效的方法来评估育种、生产和贸易中的碎米比例。

论文解读：Ladder——面向农业高密度小目标检测的循环工作流软件

研究背景与动机

目标检测（Object Detection, OD）技术作为一种能够同时定位和分类图像或视频中多个对象的技术，已在城市规划、交通、生物医学及农业等领域广泛应用。其中，You-Only-Look-Once (YOLO) 系列模型因其单次网络前向传播即可实现高精度预测，特别适用于实时视频检测。然而，构建OD模型面临诸多挑战：训练数据集的准备耗时费力，现有开源工具如LabelImg或Labelme缺乏商业软件（如Labelbox）所具备的模型辅助标注及重训练功能。虽然部分商业平台提供了从标注到训练的闭环解决方案，但它们通常针对标准尺寸图像优化，难以处理无人机（Unmanned Aerial Vehicle, UAV）或激光扫描仪生成的包含数百个小对象的不规则大图像。此外，水稻作为全球第二大热量来源，其碎米率是市场定价的关键指标，传统人工检测劳动强度大且易出错，亟需高效的数字化评估手段。为此，研究人员开发了Ladder (Labeling and Detection Deployment for Entity Recognition)，旨在通过端到端的GUI系统解决农业成像中常见的大图像、小目标检测难题。

关键技术方法

研究人员开发了基于Python 3.8的跨平台软件Ladder，其GUI改编自Labelme，检测与训练模块基于Ultralytics YOLO仓库构建。该软件支持YOLOv8和YOLOv11系列模型，并集成了切片辅助超推理（Slicing Aided Hyper Inference, SAHI）算法以提升小目标检测精度。研究采用Calrose米样，经研磨过筛制备整粒、大碎粒和小碎粒样本，并使用扫描仪获取RGB图像。通过三阶段递进训练策略：第一阶段利用随机裁剪的小切片初始化模型；第二阶段加入分离的整粒和大碎粒图像；第三阶段混合原始米与大碎粒以增加样本多样性。利用混淆矩阵、平均精度（Average Precision, AP）及mAP@50等指标评估模型性能，并通过混合不同数量碎米的人工样本量化预测误差。

研究结果

3.1 不同阶段训练数据的比较

研究发现，尽管初始模型基于包含通用对象的COCO数据集预训练，但其无法直接识别稻米。通过迁移学习，研究逐步增加了特定领域的训练数据。第一阶段仅使用4个切片（49个整粒，20个碎粒）；第二阶段扩展到5张原始图像（2085个整粒，1199个碎粒）；第三阶段进一步增加到7张图像（3891个整粒，2962个碎粒），使数据分布更加均衡。

3.2 不同阶段模型的定性比较

第一阶段模型经过微调后，能够定位类似米粒的小物体，甚至识别出非米类物体（如糖果），但无法区分整粒与碎粒。第二阶段模型在区分不同品种（长粒白米、长粒糙米）的整粒与碎粒方面表现出显著改进。第三阶段模型在相同置信度设置下识别出更多碎粒，显示出检测能力的进一步提升。

3.3 不同阶段模型检测能力的量化

定量评估显示，与第二阶段模型相比，第三阶段模型对碎粒的检测率从92%提升至94%，但对整粒的检测率略有下降（从97%降至95%），同时背景误报数有所增加（从192增至307）。在平均精度方面，两阶段模型在验证集上的表现接近（mAP@0.5分别为0.974和0.968）。在模拟碎米率测试中，第三阶段模型表现出更高的R平方值（R²= 0.99），更低的RMSE（6.68）和MAE（6.08），证明了其在估算碎米率方面具有更高的一致性和准确性。

讨论与结论

4.1 高效的训练图像采集与标注

本研究利用市售稻米样本，通过研磨和筛选控制碎粒尺寸，并利用扫描仪提供稳定的成像环境。Ladder的分阶段标注策略允许利用预训练模型生成初始边界框，结合批量处理能力，优化了标注流程。研究指出，在第一阶段数据极度匮乏时，采用同一数据集进行训练和验证是一种临时的引导性策略。

4.2 检测模型逐步提升碎米识别能力

初始的YOLOv8n模型虽能定位米粒但无法分类。随着第二阶段引入分离的样本，模型获得了分类能力。针对碎粒与整粒粘连导致低估的问题，第三阶段通过混合样本增加了此类情况的出现频率，从而使模型在第三阶段具备了更强的检测能力。与基于形态学特征的传统方法不同，本研究采用的基于YOLO的OD方法仅需少量图像（7张）即达到了合理的性能。

4.3 与其他标注工具的比较

通过与LabelMe、LabelImg、Roboflow等七种工具的对比发现，尽管部分工具支持基础模型辅助标注或视觉提示，但Ladder提供了一个统一的本地工作流，集成了标注、模型辅助标注、训练及部署，减少了工作流的碎片化。特别是其预测辅助标注功能能在数秒内生成大量初始边界框，有效降低了人工绘制的工作量。

4.4 超越标注的应用部署

Ladder的预测功能不仅限于标注，还支持训练模型的部署。其集成的SAHI算法通过滑动窗口将大图像切分为小切片进行独立预测，显著改善了对小目标的检测效果。

结论

本研究通过碎米检测案例展示了Ladder作为开发OD系统的有效性。Ladder提供了一个连贯的、基于GUI的环境，支持从注释到部署的全生命周期，解决了模块化工具链需要用户组合多种工具的问题。其迭代的“标注-训练-预测”循环简化了图像标注和模型重训练过程，尤其适用于包含高密度小对象的大规模图像。该研究发表于《Agriculture》期刊。

热点排行