《Smart Agricultural Technology》:Development of a low-cost ground robot for real-time ArUco marker localization using lightweight deep learning models on an edge device
编辑推荐:
为解决农业机器人自主导航系统成本高昂阻碍小农户应用的难题,本研究聚焦于开发低成本地面机器人(R2B2)并利用轻量级深度学习模型进行ArUco标记识别,以实现行间机器人定位。研究人员通过训练和评估YOLOv8n与YOLOv11n模型,验证了其在多种环境条件下对标记进行实时、准确检测的可行性,为在室外农业环境中实现低成本、鲁棒且不依赖GPS的导航提供了有效解决方案。其成果发表于《Smart Agricultural Technology》,对推动精准农业中小型地面机器人的普及具有重要意义。
在精准农业领域,自动化技术是提升效率、实现可持续发展的关键。然而,对于全球众多小农户而言,一个巨大的障碍横亘在面前:价格。传统地面机器人(GR)动辄数万美元的售价,使得这项看似前景广阔的技术变得遥不可及。与此同时,即便是负担得起的机器人,在田间导航也面临挑战。依赖GPS的导航方式在高大作物冠层下信号会受到遮挡,而基于计算机视觉的导航又容易受到多变光照条件的影响。有没有一种办法,既能大幅降低机器人的硬件成本,又能实现可靠、不依赖GPS的精准导航呢?
为了回答这个双重难题,来自美国南达科他州立大学的研究团队进行了一项创新性的研究,其成果发表在《Smart Agricultural Technology》期刊上。他们立志开发一套总物料成本低于2000美元的“人人用得起的”地面机器人平台,并探索利用轻量级的深度学习模型来识别视觉标记,从而实现经济高效的实时定位与导航。
研究人员开发了一个名为“R2B2”(Reduction-to-Below-Two-Grand)的四轮滑移转向地面机器人,采用角铁焊接框架、来自悬浮滑板的无刷直流电机等低成本组件。该机器人搭载树莓派4(Raspberry Pi 4)作为边缘计算设备,并配备RGB摄像头用于视觉感知。研究的核心是探索利用ArUco(一种基于二进制矩阵的视觉基准标记)进行行间定位和任务触发的可能性。
为了评估不同方法的有效性,研究团队训练了两个轻量级目标检测模型——YOLOv8n(nano版)和YOLOv11n(nano版),用于识别和分类四种不同的ArUco标记。他们构建了一个包含2343张图像的数据集用于模型训练和内部验证。此外,为了模拟真实应用场景,研究在室内和室外环境下采集了外部验证数据集,测试条件涵盖了机器人速度(0.75 m/s至1.5 m/s)、光照强度、地形类型(平滑与起伏)以及天气状况等多种变量。作为对比,传统的OpenCV ArUco模块也被纳入评估。最后,研究将训练好的YOLO模型和OpenCV模块部署到树莓派4上,在无GPU加速的条件下,对其实时推理性能(包括吞吐量、推理速度和峰值内存使用量)以及在部分遮挡情况下的鲁棒性进行了全面的基准测试。
3.1. 训练和内部验证
模型的训练损失曲线和验证集性能曲线显示,经过200个epoch的训练,两个模型均成功收敛。在内部验证集上,YOLOv8n和YOLOv11n都表现出色,平均精度(mAP50)均达到约98%,mAP50-95达到约93%。具体而言,YOLOv8n在除精度(Precision)外的所有性能指标(包括召回率(Recall)、F1分数、mAP)上均略优于YOLOv11n,表明其具有更好的泛化能力。混淆矩阵分析显示,两个模型对四个标记类别的分类准确率都很高,主要错误来源是低置信度的重复检测被计为假阳性。
3.2. 在外部数据集上评估YOLOv8n、YOLOv11n和OpenCV的ArUco模块
- •
室内验证数据集:在24种室内处理条件下,两个YOLO模型在绝大多数情况下都达到了接近完美的精度、召回率和F1分数(100%)。仅在少数涉及起伏地形和特定光照(650 Lux)的条件下,使用IMX462传感器的模型出现了精度轻微下降。OpenCV模块在使用IMX462传感器时表现近乎完美,但在使用AR0234传感器时,于个别处理中出现了召回失败。
- •
户外验证数据集:在16种室外处理条件下,YOLOv8n表现出了更强的鲁棒性。它在所有户外场景中均保持了不低于85%的精度,而YOLOv11n在草地地形和阴天条件下的精度下降更为明显,个别情况下低于80%。然而,两个YOLO模型在所有处理的召回率都接近完美(100%),这意味着它们几乎没有漏掉任何一个存在的标记,即使在机器人以1.5 m/s的速度移动时也是如此。相比之下,OpenCV模块在户外数据集上的精度和召回率在大多数处理中也是完美的,表现优于YOLO模型。
3.3. 在树莓派4上对定制训练的YOLOv8n、YOLOv11n和OpenCV ArUco模块进行基准测试的结果
- •
推理性能:OpenCV ArUco模块在速度和内存效率上具有绝对优势,平均推理速度约为11.13 ms/帧,平均峰值内存使用约为139.7 MiB。在两个YOLO模型之间,YOLOv11n推理更快(平均约1380 ms/帧),但占用内存稍多(平均约427 MiB);YOLOv8n稍慢(平均约1500 ms/帧),但内存效率更高(平均约423 MiB)。研究指出,7 FPS是这两个YOLO模型在树莓派4上实现实时处理的最佳目标帧率。
- •
遮挡鲁棒性:这是深度学习模型展现显著优势的关键场景。当使用人工玉米叶对标记进行部分遮挡以模拟真实田间条件时,OpenCV ArUco模块完全无法检测到被遮挡的标记。而YOLOv8n和YOLOv11n模型则能够以高置信度准确检测出所有标记,包括被部分遮挡的,证明了其对复杂田间环境的更强适应性和实用性。
结论与讨论:本研究成功开发了成本低于2000美元的R2B2地面机器人,证明了通过精心选择组件大幅降低农业机器人成本是可行的。在导航方法上,研究系统性地评估了轻量级深度学习模型(YOLOv8n/YOLOv11n)与传统方法(OpenCV ArUco模块)用于ArUco标记检测的性能。结果表明,虽然OpenCV模块在理想条件下速度更快、计算需求更低,但其对部分遮挡极为敏感,限制了在真实杂乱农田环境中的应用。而经过训练的YOLO模型,特别是YOLOv8n,在室外多变条件下保持了高精度(≥85%)和近乎完美的召回率,同时在遮挡情况下表现出卓越的鲁棒性。尽管在边缘设备上的推理速度较慢,但其准确性和鲁棒性满足了实际应用的核心需求。
这项研究的重要意义在于,它为解决阻碍小农户采用农业机器人的成本和导航可靠性两大核心问题提供了切实可行的技术路径。它表明,将低成本硬件与先进的轻量级深度学习模型相结合,完全有能力在资源受限的边缘设备上实现准确、鲁棒且实时的视觉定位,为在不依赖GPS的户外农业环境中部署自主机器人铺平了道路,是推动精准农业技术普及化的重要一步。