利用Maize–YOLO和IPM–Clustering方法进行玉米检测与行提取,以实现自动驾驶农业导航
孙涛(Tao Sun)、
曲俊哲(Junzhe Qu)、
蔡晨(Chen Cai)、
金永奎(Yongkui Jin)、
张松超(Songchao Zhang)、
乐飞翔(Feixiang Le)、
薛新宇(Xinyu Xue)
崔龙飞(Longfei Cui)
《Sensors》:Maize Detection and Row Extraction Using Maize–YOLO and IPM–Clustering Method for Autonomous Agricultural Navigation
Tao Sun,
Junzhe Qu,
Chen Cai,
Yongkui Jin,
Songchao Zhang,
Feixiang Le,
Xinyu Xue and
Longfei Cui
【字体:
大
中
小
】
时间:2026年05月10日
来源:Sensors 3.5
编辑推荐:
**摘要**
实时且准确的作物行提取是自动驾驶农业机械中基于视觉感知的基本要求。然而,在玉米田中,行检测容易受到光照变化、叶片遮挡、杂草干扰以及不均匀土壤背景的影响,这些因素会降低基于GNSS和图像的导航方法的可靠性。为了解决这些挑战,本研究提出了一种以植物为导向的作物行感知
**摘要**
实时且准确的作物行提取是自动驾驶农业机械中基于视觉感知的基本要求。然而,在玉米田中,行检测容易受到光照变化、叶片遮挡、杂草干扰以及不均匀土壤背景的影响,这些因素会降低基于GNSS和图像的导航方法的可靠性。为了解决这些挑战,本研究提出了一种以植物为导向的作物行感知框架,该框架能够从单个玉米植株的检测结果重建作物行结构。基于YOLOv11n开发了一种轻量级的检测模型Maize–YOLO,用于玉米幼苗的检测。该模型引入了三项关键改进,以提升精度与效率之间的平衡:首先,C3k2_Faster_CGLU模块替代了原有的C3k2模块,减少了冗余的卷积计算,并通过卷积门控线性单元改进了特征选择性表示,从而提高了在复杂田地背景下的鲁棒性;其次,设计了一种轻量级的共享检测头Detect_LSH,用于在多尺度特征图之间共享卷积参数,并自适应调整特征幅度,减少了检测头的冗余性同时保持了多尺度预测能力;最后,应用了基于层自适应幅度的剪枝策略,去除了贡献较小的通道,进一步提高了基于CPU的部署计算效率。在实地收集的玉米幼苗图像上的实验结果显示,Maize–YOLO的mAP@0.5达到了97.6%,GFLOPs减少了61.9%,并且保持了84.4 FPS的CPU推理速度。在植物检测之后,使用IPM–DBSCAN–LSM流程估计了行中心线,该流程将检测到的植物中心转换为准顶视图,并将它们聚类为作物行,然后拟合连续的中心线。提取出的作物行位置精度达到了98.6%,平均角度偏差为0.44°。这些结果表明,所提出的方法可以为自动驾驶农业导航和精确田间作业提供准确、轻量级且实时的作物行感知。
**1. 引言**
近年来,智能化发展已成为传统农业自动化和信息化的推动力。农业智能化机械已成为提高田间产量、资源利用效率和环境友好性的实际解决方案。作为全球主要粮食作物之一,玉米对粮食安全至关重要,因此其精准化管理成为研究的重点领域。高精度自动驾驶是精确播种、变量施肥和高效收割的前提条件,这也是智能田间作业的主要方法。自20世纪80年代引入自动驾驶概念以来[1,2],感测、控制和机器视觉技术的持续进步推动了显著进展。然而,在地面不平整、光照变化和作物遮挡等动态室外条件下,仍然难以同时保证位置精度和实时性能[3,4]。
目前,农业机械的自动驾驶主要在三个技术领域发展:全球导航卫星系统(GNSS)、激光雷达(LiDAR)和机器视觉。其中,基于GNSS的导航仍然是实现开放场地高精度定位的主要方法,在良好信号条件下可以达到厘米级精度。这一特性有助于提高农业机械的工作精度和效率[5]。在典型的基于GNSS的导航过程中,根据田间几何形状和农艺约束确定参考路径。在作业过程中,车载GNSS接收器生成绝对位置坐标流,然后与预先规划的路径进行比较以确定横向偏差,控制器实时发出转向修正指令以保持车辆与目标路线的对齐[6]。尽管该绝对坐标跟踪策略已经成熟,但它存在固有限制,因为它缺乏对作物行结构的直接感知[7,8]。系统完全依赖于预先设计的轨迹,对实际作物行位置的空间变化不敏感。这常常导致两种主要问题:(1) 作物损害风险——在播种后的除草或喷洒等操作中,即使计划路径与实际作物行之间有微小偏差,也可能导致植物踩踏和后续产量损失;(2) 环境适应性有限——地形起伏、表面残渣或非结构化障碍物可能会改变车辆姿态,仅依靠GNSS的引导无法动态维持关键操作部件(如喷洒器、切割器)与其工作目标(如作物、杂草、土壤)之间的最佳相对对齐[9]。
除了单一传感器导航方法外,GNSS–视觉融合也越来越受到关注,以增强农业自动驾驶的鲁棒性。在这种系统中,GNSS或RTK-GNSS通常提供全局定位和田间级路径约束,而机器视觉则提供局部环境感知,如作物行检测、避障和行端识别[10]。这种组合可以弥补GNSS的环境感知局限性以及仅依赖视觉的导航在全局规划方面的不足。然而,现有的GNSS–视觉融合方法在实际田间环境中仍存在几个限制:首先,由于信号遮挡、多径效应、卫星可用性和恶劣天气条件,GNSS精度可能会下降;其次,视觉感知对光照变化、阴影、杂草干扰、作物生长阶段和叶片遮挡仍然敏感[10];第三,许多融合框架主要改进了车辆定位或轨迹跟踪,但并未直接解决从复杂田间图像中准确且实时提取作物行结构的问题。此外,紧密耦合的GNSS/IMU/视觉系统通常需要额外的传感器、校准程序和计算资源,这可能增加了部署的复杂性和成本[11]。因此,即使在GNSS–视觉集成的导航系统中,仍然需要一个轻量级且鲁棒的作物行感知模块,以提供可靠的局部行几何信息,用于实时路径指导和精确田间作业。
为了克服GNSS在农田实施与作物行之间相对姿态估计方面的限制,基于视觉的感测和LiDAR在田间感知及自动驾驶中的应用越来越普遍[12,13]。LiDAR基于飞行时间(ToF)原理,通过发送激光脉冲并测量反射信号接收的时间来计算物体距离[14]。所得到的三维点云提供了厘米级空间分辨率,并捕捉了田间环境的关键结构信息,包括作物行几何形状、地形变化和潜在障碍物[15]。尽管LiDAR具有准确的空间感知能力,但由于设备成本高昂、校准过程复杂和数据处理量巨大等实际问题,其在农业机械中的应用仍然有限[16]。因此,在大规模应用中,感测精度、计算复杂性和成本效益之间的平衡成为一个关注点。相比之下,基于机器视觉的作物行检测是一种更轻量级且更经济的解决方案。由于视觉信息丰富且易于与其他系统集成,基于视觉的技术已成为农业无人驾驶研究中最为活跃和成功的领域之一。
通过实时处理田间图像,视觉传感器能够直接估计农业机械相对于作物行的横向偏移和方向偏差。与基于GNSS的导航不同,基于视觉的系统不遵循预定的全局轨迹,从而提高了灵活性和环境适应性[17]。此外,基于视觉的解决方案更具成本效益,提供更多信息,并且更容易集成到系统中,这使得基于视觉的导航成为农业机器人研究的核心问题[18]。在除草和喷洒等高精度田间作业中,机器视觉作为作物行定位和杂草识别的感测技术变得尤为重要[19,20,21,22]。传统的图像处理和基于深度学习的方法是两种主要的基于视觉的作物行检测方法。经典的色彩阈值化和分割流程是区分植被和土壤背景的主要方法,进一步实现了作物行的提取[23,24]。例如,Zhai等人[25]引入了双目立体视觉进行作物行的空间重建,成功率达到了92.78%。然而,该算法的计算负担较大,密集的立体匹配平均耗时634毫秒。Bakker等人[26]结合IPM和灰度分割以及Hough变换来估计方向偏差角,在行不严格平行时成功解决了感兴趣区域的不确定性问题,但计算负担仍然限制了时间性能。Xu等人[27]通过形态重建和投影直方图结合过绿植被特征提取和Otsu阈值化进行玉米-杂草分离和幼苗定位;然而,该方法仅在作物生长相对均匀的情况下才有效。总之,传统的视觉算法在检测植物区域时严重依赖于人工设计的低级特征(如颜色和纹理),在光照变化、阴影或植被覆盖的情况下泛化能力较差。这些限制可能导致线拟合不稳定、鲁棒性低以及在复杂田间环境中的实时实现能力有限。因此,未来工作需要进一步改进基于视觉的作物行检测的精度、鲁棒性和时间复杂度[28,29]。
近年来,深度学习的进步显著推动了农业机器视觉的发展。由于卷积神经网络(CNN)具有端到端特征提取的能力,它们实现了优异的检测性能、推理时间和鲁棒性,并被应用于各种农业应用,如杂草检测[30]、病虫害诊断[31]和自动驾驶[30]。在作物行检测领域,当前的深度学习方法可以分为两类:基于分割的方法和基于对象检测的方法。Adhikari等人[32]使用ES-Net对水稻行图像进行分割,然后提出了一种基于滑动窗口的方法在感兴趣区域(ROI)中对作物行进行聚类和拟合。随后利用两行之间的中线确定导航轨迹。Ponnambalam等人[33]考虑到草莓种植园中不均匀的行间距,提出了一种基于SegNet的分割模型,并结合自适应ROI选择解析器以适应不同的种植结构。Yang等人[34]通过采用改进的U-Net模型对马铃薯行进行分割,结合边缘特征提取和K均值聚类以及最小二乘拟合来追踪行中心线,提高了在场内的适应性。值得注意的是,基于对象检测的方法也显示出巨大潜力。Shi等人[35]提出了DCGA-YOLOv8模型,该模型结合了可变形卷积(DCN)和全局注意力机制,实现了对卷心菜、苤蓝和水稻的最高检测精度。通过与DBSCAN聚类算法结合,该模型在复杂田间环境中实现了厘米级精度的导航线重建。Gong等人[36]提出了改进的YOLOX–Tiny模型,以边界框中心作为控制点进行玉米行检测,并利用最小二乘拟合计算行中心线。他们的系统在光照变化条件下平均方向误差仅为0.59°,为自动化智能除草机器人带来了新的导航精度水平。Li等人[37]提出了改进的YOLOv8-G模型,该模型能够在强光照和杂草存在的环境下检测单个幼苗中心,并通过亲和传播技术进行自适应聚类。该模型的检测精度为96.52%,在幼苗阶段的玉米田中表现良好,深度学习使作物行检测更加自动化、鲁棒和准确。
然而,现有模型计算密集,结构复杂且推理效率不高,不利于在农业机械的嵌入式处理器上实现实时应用。因此,应进一步努力改进轻量级网络设计、高效的特征表示和推理优化,以便在检测精度和计算效率之间实现更实用的平衡。研究表明,传统基于视觉的方法在复杂田间环境中无法提供高精度的作物行检测,而基于深度学习的方法在不同环境中的鲁棒性和泛化能力更强。基于对象检测的方法可以通过边界框回归有效定位每个植物,但它们缺乏编码行信息的显式空间连续性和拓扑结构。因此,通常需要后期处理方法(如DBSCAN聚类)来恢复行中心线,这会导致进一步的计算开销,并增加提取线条对定位噪声的敏感性。另一方面,基于分割的方法可以利用更密集的空间线索,但代价是计算复杂度增加,并且容易将相邻的两行错误地分组,这可能阻碍其在快速农业环境中的应用。在大型玉米田中,由于光照变化、杂草干扰、不同的土壤背景以及不规则的幼苗生长状态,视觉场景的复杂性可能导致作物行图案不连续或弯曲。这些因素增加了模型在环境变化时保持准确性和鲁棒性的难度。因此,检测准确性和实时性能之间总是存在一个不可忽略的权衡,这大大限制了农业机械自主导航的应用可靠性。为了提高准确性和效率,本文提出了一种改进的玉米行检测模型——基于YOLOv11的Maize–YOLO,以解决上述问题。该方法结合了一种新颖的目标检测骨干网络和精细的作物行建模方法,可以有效地捕捉单个植物级别的特征,同时建模行结构的全局几何连续性。通过采用结构改进和基于剪枝的轻量级设计,Maize–YOLO能够在检测准确性和推理速度之间取得良好的平衡。由于其对抗光照、遮挡和背景变化的鲁棒性得到了显著提升,该框架成为复杂田间场景中无人农业机械进行实时导航和精确操作的强大视觉感知解决方案。
2. 材料与方法
所设计的方法名为Maize–YOLO和IPM–Clustering,基于改进的YOLOv11框架来实现对单个玉米植株的高精度检测和作物行配置的精确重建。如图1所示,整个体系结构包括两个主要阶段:(1)作物植株检测——使用改进的轻量级检测器提取植物级别的空间信息,并检测植物中心;(2)作物行结构生成——从检测到的植物中心重建全局行拓扑。在第一阶段,使用改进的YOLOv11n卷积神经网络进行田间图像中的玉米植株检测,该网络通过边界框回归支持对单个目标的精确定位和识别。在第二阶段,使用检测到的盒子的中心点对作物行的暴露空间布局进行降维和聚类分析。随后,使用最小二乘法(LSM)对聚类结果进行回归,以获得连续且平滑的中心线,这些中心线代表了玉米行的几何结构。最后,基于不同田间环境下的检测准确性和行拟合误差分析来评估所提出方法的性能。
2.1. 图像采集和数据集构建
为了模型训练和测试,构建了一个玉米幼苗的田间图像数据集。图像采集在中国东部的三个地点分三个阶段进行。第一阶段于2025年6月在山东省高密市姜庄镇进行;第二阶段于2025年7月在江苏省徐州市绥宁县进行;第三阶段于2025年7月在江苏省南京市江宁区进行。为了提高样本多样性和模型泛化能力, corn田图像是在不同的天气条件、背景纹理和种植模式下拍摄的(图2)。共获得了1555张在不同玉米生长阶段和不同栽培条件下的图像。这些图像是使用iPhone 15智能手机(苹果公司,美国库比蒂诺)的后置摄像头拍摄的,原始分辨率为1080p(1920 × 1080像素)。在田间采集过程中,摄像头保持在距地面大约1.5米的高度,并指向玉米行。为了减少成像几何的变化,拍摄高度和观察方向在不同田间地点保持一致。所有图像均保存为JPG格式,并在模型训练、验证和测试前调整为网络输入大小。图2. 数据集示例图。
使用LabelImg工具(版本1.8.6)手动为玉米植株标注矩形边界框,将所有目标归类为“玉米”。标注文件以YOLO格式导出,其中包含对象类别及其边界框坐标。玉米中的目标紧密排列,并且具有高部分遮挡,使得对象定位变得困难[38]。标注完成后,数据集被随机分为训练、验证和测试三个子集,比例为8:2:1,分别得到1131张训练图像、283张验证图像和141张测试图像。数据集的尺度、空间和视觉多样性能够确保基于深度学习的模型得到充分训练,从而在YOLOv11结构上实现最佳改进。
2.2. 目标检测模型
2.2.1. YOLO系列模型
对于农业应用,特别是在作物行检测和田间或农场车辆的自主导航中,实时性能是直接影响整个系统性能的关键因素。尽管可以使用语义分割算法获得细粒度的识别结果,但这些算法的计算复杂度很高,需要大量的处理资源,且推理时间较长。此外,基于分割的方法通常需要后处理来分离多个作物行掩码,这会增加额外的计算负担。由于大多数农业设备使用的机载计算系统硬件能力有限,执行此类复杂的网络通常会导致较高的延迟。因此,基于分割的作物行提取方法的实际田间性能常常受到实时处理限制的阻碍。
单阶段目标检测器YOLO(You Only Look Once)实现了极快的推理速度,并保持了竞争力强的检测准确率。由于其效率和准确性之间的权衡,YOLO模型已广泛应用于农业视觉任务,如作物检测、病虫害监测以及田间管理[39]。与Faster R-CNN等两阶段方法相比,YOLO将目标检测视为一个端到端的回归问题,直接从完整图像中预测边界框和类别概率。这种集成框架大大降低了计算成本,并显著提高了实时检测性能。
自Redmon等人于2015年发布YOLOv1 [40]以来,YOLO系列在网络架构、特征表示和推理优化方面经历了几代演变。考虑到检测准确性、模型复杂性和部署效率,本研究选择YOLOv11n作为基线模型。这一选择基于其轻量级架构、良好的可移植性以及在检测性能和计算成本之间的良好平衡。与较大的YOLO变体相比,nano版本更适合计算资源有限的实时农业应用。此外,YOLOv11n的模块化网络设计便于集成所提出的C3k2_Faster_CGLU模块、Detect_LSH头部和LAMP剪枝策略。为了避免随意选择基线,通过在第3.6节中报告的相同实验设置下将YOLOv11n与几种代表性的轻量级检测器进行比较,进一步评估了其适用性。因此,选择YOLOv11n作为开发所提出的Maize–YOLO模型的基线框架。YOLOv11的框架如图3所示。
2.2.2. Maize–YOLO的网络架构 C3k2_Faster_CGLU模块
在这项工作中,使用YOLOv11n模型作为基线网络。为了提高特征提取能力,我们用C3k2_Faster_CGLU模块替换了原始的C3k2模块。C3k2模块是YOLOv11n骨干网络中的一个重要特征提取模块,它基于CSPNet(Cross Stage Partial Network)架构[41]。它将输入特征图分成两条平行路径,并在Neck处重新组合它们,以学习多尺度特征表示,从而更好地处理空间信息。但原始的C3k2模块使用了多个堆叠的Bottleneck块,导致通道浪费和较高的计算负担。为了解决这个问题,将Bottleneck单元替换为FasterBlocks,称为C3k2_Faster。这一过程简化了特征提取过程中的计算,并同时增强了骨干网络捕捉空间信息的能力,从而为后续的玉米目标检测提供了更坚实的基础。
FasterBlock借鉴了FasterNet [42]的设计,旨在通过高效的卷积层来降低计算成本和内存使用。其主要创新之处在于部分卷积(PConv)层,其中四分之一的输入通道经过标准卷积处理,而剩下的四分之三直接跳过,用于下一次融合(图4A)。与传统卷积相比,这种模式大大减少了浮点运算(FLOPs)和内存访问成本,PConv的FLOPs仅为标准卷积的十六分之一,同时仍能提供有效的特征传播。PConv操作的FLOPs和内存访问可以表示为:
(1) (2)
其中h和w分别表示输入特征图的高度和宽度;k表示卷积核的大小;cp表示PConv卷积操作涉及的通道数。在部分卷积操作中,只有一部分输入通道经过标准卷积处理,而其余通道直接跳过,然后与卷积后的特征融合。因此,cp小于输入通道的总数,这有助于减少FLOPs和内存访问,同时保持有效的特征传播。图4. 改进的C3k2模块结构图。
尽管FasterBlock更高效,但其感受野仍然主要是局部的,这限制了其对更广泛空间关系的理解。在玉米幼苗图像中(玉米常常重叠并密集生长),仅依赖局部线索可能会使模型对整体作物行图案的几何形状变得不敏感。为了解决这个问题,在架构中集成了卷积门控线性单元(CGLU)模块[43]。CGLU结合了卷积滤波和门控机制,可以增强信息响应并抑制类似噪声的激活,从而获得更具选择性和灵活性的特征。这种修改使模型能够在不增加额外计算开销的情况下捕捉更多的全局上下文信息,从而有利于鲁棒性和性能的提升。
CGLU基于传统的门控线性单元(GLU),在门控分支中使用了3 × 3的深度卷积。唯一的区别是它使门控操作在空间上更加局部敏感,但额外的计算开销可以忽略不计。
如图4B所示,该模块有两个分支:一个分支包括深度卷积和门控激活,用于生成空间自适应的权重;另一个分支生成候选特征图。它们在输出上执行逐元素乘法,然后将乘积线性加回输入特征中,以获得最终输出。这样,局部信息参与了门控过程,使网络能够关注有用的纹理并忽略不重要的细节。
在我们的设计中,FasterBlock中的两个逐点卷积被CGLU取代,形成了Faster–CGLU(FC)模块(图4C)。通过这种方式,PConv以较小的计算成本提取多尺度特征,而CGLU根据特征的重要性自适应地重新加权。所提出的C3k2_Faster_CGLU模块结合了高效的局部特征提取和自适应的全局推理,使检测器能够更准确地识别玉米植株,并在复杂的田间背景下实现性能提升。
2.2.3. Detect_LSH模块
为了在不降低准确性的情况下压缩检测头部,通过优化YOLOv11检测头部提出了一个轻量级的共享头部(LSH)。所提出模块的架构如图5所示。基于共享卷积和自适应特征缩放,LSH在模型效率和预测准确性之间取得了良好的平衡。与典型的检测头部(图5A)不同,后者在每个尺度上分别进行卷积操作,而LSH(图5B)采用了一种统一的共享卷积方法。Neck生成的三个尺度(P3、P4和P5)的特征图首先发送到一个1 × 1卷积层进行通道对齐和标准化,使它们具有一致的通道数量和可比的缩放幅度。然后,标准化的特征图共同输入到两个共享的3 × 3卷积层中,这些层在不同尺度上共享参数。这种架构避免了冗余的计算和参数,促进了不同分辨率特征之间的语义一致性以及更稳健的信息流。特征提取之后,共享的特征被分为两个预测分支:一个回归分支用于预测边界框坐标,另一个分类分支用于预测类别置信度。在每个分支的末端,都插入了一个缩放层来稳定多尺度预测。该层包含可训练的系数,用于调节特征幅度,以适应不同尺度之间的空间分辨率和感受野差异,从而提高模型处理大范围外观变化的能力。在卷积和归一化过程中,我们使用了组归一化(GN)而不是批量归一化,以获得更好的数值稳定性和泛化能力,尤其是在批量较小的情况下。总之,LSH保留了分离检测头的优势——分别对分类和回归进行优化——同时通过共享参数来减少冗余。通过利用共享卷积和自适应缩放,所提出的Detect-LSH模块大大简化了检测头的结构,减少了计算和内存需求,尽管精度略有下降。因此,它适合在处理能力受限的嵌入式系统上进行实时农业对象检测。
为了进一步降低模型的计算成本并使其更便于移动设备使用,我们将层自适应幅度基于的剪枝(LAMP)方案[44]应用于改进后的玉米检测网络。LAMP以分层的方式学习剪枝,而不是直接根据权重的大小来移除权重。LAMP评估每个权重的显著性,并逐渐移除最不显著的权重。移除冗余参数后,网络变得更紧凑、更快,但检测精度几乎保持不变,这对于在嵌入式硬件上进行实时推理也非常重要。LAMP的动机是测量每个权重对其所在层输出的影响,并利用这一度量作为剪枝的标准。根据所选的剪枝协议,重要性得分较低的权重会被逐步(渐进式剪枝)或一次性(一次性剪枝)移除。渐进式剪枝的过程中,稀疏度比例会逐层增加。剪枝后,会对模型进行微调,以恢复任何潜在的性能损失并稳定稀疏结构。通过这种细粒度的自适应稀疏化方法,LAMP在压缩和精度之间实现了更好的平衡。它大幅降低了计算和存储需求,同时保留了全连接基线模型的预测能力。每个权重的相对重要性由以下质量函数给出:(3),其中score(u; W)表示剪枝得分,W[u]和W[v]分别代表排序后的索引u和v对应的权重。具体来说,首先将每一层中的所有权重展平并按照其绝对值降序排序。因此,v ≥ u表示排序后权重序列中的索引顺序,而不是原始的通道索引。分母是从当前排序索引u到序列结束的权重平方的累积和,用于归一化W[u]的平方幅度。归一化得分较低的权重被认为不太重要,在剪枝时优先移除。LAMP不是随机消除单个权重,而是采用一种结构化的剪枝方法,同时剪除贡献最小的整个卷积通道或神经元连接。这样的设计可以保持张量的连续性和规则的内存访问,有利于硬件级别的并行化。因此,在推理时,计算和内存需求显著降低,同时模型架构保持简洁且易于部署。随后会对模型进行微调,以恢复因参数移除而导致的任何精度损失。这一步重新训练旨在使性能更加稳定,并使网络能够再次适应其新的稀疏形式。最终,经过剪枝的检测器实现了与原始模型几乎相同的检测精度,但运算效率显著提高[45]。这种层自适应剪枝策略,在块状结构设计的帮助下,保留了最具区分性的层,同时剪除了对最终预测贡献较小的计算。这种选择性剪枝提高了部署效率和对硬件的适应性,因此该方法适用于实时农业技术和其他移动视觉应用。
模型的性能通过三个常见的评估指标进行了评估:精确度(P)、召回率(R)和平均精确度(mAP)。精确度表示在所有正预测样本中真正例样本的百分比,也反映了模型减少误报的能力。召回率表示被真正检测到的真正例样本的百分比,表明了模型对真实目标的敏感度。通过平均所有对象类别的AP分数,mAP产生了一个单一数字,表征了检测器在该特定数据集上的整体精确度与召回率性能。这些指标的数学表述公式分别为(4)–(7)。除了典型的检测指标外,还有一些指标用于计算效率和所提出模型的潜在部署情况,即GFLOPs、参数数量、模型大小和FPS-CPU。GFLOPs表示执行模型一次前向传递所需的浮点运算次数,可以粗略地指示模型涉及的计算量。GFLOPs的减少意味着更低的计算成本和更快的预测速度,这在实时农业应用中是推荐的。模型大小是指训练权重所需的存储量。这是一个有用的量度,用于评估模型在内存有限的设备上部署的难易程度。FPS-CPU是模型每秒可以在CPU上处理的帧数。由于许多农业控制单元不支持GPU加速,因此在CPU上的推理速度提供了关于检测器在田间性能的实际视角。因此,这是一个有用的指标,用于评估系统的实时响应能力,更重要的是,用于评估其在实际农业机械中经济可行的实用性。
模型的性能通过三个常见的评估指标进行了评价:精确度(P)、召回率(R)和平均精确度(mAP)。精确度表示在所有正预测样本中真正例样本的百分比,这也反映了模型减少误报的能力。召回率表示被真正检测到的真正例样本的百分比,表明了模型对真实目标的敏感度。通过平均所有对象类别的AP分数,mAP产生了一个单一数字,表征了检测器在该特定数据集上的整体精确度与召回率性能。这些指标的数学公式分别为(4)–(7)。除了典型的检测指标外,还有一些指标用于计算效率和所提出模型的潜在部署情况,即GFLOPs、参数数量、模型大小和FPS-CPU。GFLOPs表示执行模型一次前向传递所需的浮点运算次数,可以粗略地指示模型涉及的计算量。GFLOPs的减少意味着更低的计算成本和更快的预测速度,这在实时农业应用中是推荐的。模型大小是指训练权重所需的存储量。这是一个有用的量度,用于评估模型在内存有限的设备上部署的难易程度。FPS-CPU是模型每秒可以在CPU上处理的帧数。由于许多农业控制单元不支持GPU加速,因此在CPU上的推理速度提供了关于检测器在田间性能的实际视角。因此,这是一个有用的指标,用于评估系统的实时响应能力,更重要的是,用于评估其在实际农业机械中经济可行的实用性。
基于Maize-YOLO的检测结果,通过每个玉米植株边界框的中心点坐标计算出每株玉米的位置[46]。这些质心最终用于表征植株的整体空间排列,本质上代表了作物行的聚类。对于作物行的检测,有一些经典方法,如霍夫变换[47]和最小二乘法(LSM)[48],用于直线且对齐的线拟合。在这些理想条件下,当作物行几乎平行且几何变形最小时,这些策略是足够的。然而,在田间的实际图像中,作物行往往向图像的上部聚集。当使用图像坐标空间进行拟合时,这种变形可能会导致严重的误差,在某些情况下,行检测过程可能会失败。直接在图像平面上进行聚类也往往计算密集且稳定性较差,特别是随着检测到的植株数量增加,从而减慢了整个过程[49]。通过在聚类和线拟合之前应用逆透视映射(IPM)变换,这些效应得到了补偿。对于每张图像,选择了四个点将原始图像坐标系映射到请求的并行化地面坐标系。这种映射定义了透视变换矩阵M,可以表示为:(8),其中Psrc表示原始图像中四个角点的坐标,Pdst表示目标平行坐标系中对应的点。每个植株中心点用齐次坐标表示如下:(9)。然后通过矩阵变换得到逆透视坐标:(10),其中表示齐次坐标的第三个分量,用于归一化。这种变换有效地消除了原始图像中作物行的水平聚集效应,使得沿水平轴的行间距更加均匀。因此,它简化了后续的聚类过程,并提高了行结构提取的稳定性。在逆透视坐标系中,应用DBSCAN(基于密度的空间聚类算法)对植株中心点的水平坐标进行聚类,将其分为不同的作物行。对于每个点,其邻域定义如下:(11)。如果邻域内的点数大于或等于最小样本数,则该点被视为核心点并分配到簇k;否则,它被标记为噪声点。一旦DBSCAN聚类完成,每个簇被视为一个候选作物行。为了更精确地描述这些行的几何形状,使用最小二乘法(LSM)通过对每个簇中的中心点拟合一条线。逆透视变换后获得的每个簇包含n个点,其坐标分别为和,其中表示植株中心点的水平坐标,表示垂直坐标。由于图像中的作物行主要沿垂直(y)方向延伸,因此在拟合过程中选择作为自变量,作为因变量。据此,基于最小二乘准则制定了线性模型:(12)。在线拟合阶段之后,每个作物行可以用逆透视坐标系中的线性函数表示。为了可视化和导航分析,这些拟合线的端点然后使用逆变换矩阵M^-1投影回原始图像空间。这种反投影使得检测到的行可以直接显示在输入图像上,使其空间布局更易于解释。拟合和映射过程还有助于平滑由检测噪声或植株点间距不规则引起的随机误差。因此,提取的作物行看起来更加连续和稳定,这对于农业机械系统中的可靠导航路径生成和空间结构分析至关重要。
捕获的田间图像通常包含多行平行的作物。然而,在实际的导航和路径规划场景中,并不需要考虑每一行[50,51]。在检测和拟合之后,本研究关注的是最接近图像中点的两条中心线,这些线被用作导航路径生成的参考线。这些线代表了与车辆操作区域最相关的行,足以提供稳定的引导。为了评估提取的作物行线的准确性,使用手动标注的真实中心线作为基准。通过计算两者之间的角度差来量化提取的线与其对应参考线之间的偏差。如果真实线的斜率为m1,检测线的斜率为m2,则两者之间的角度误差θ可以定义为:(13)。当角度误差超过5°[48]时,作物行提取被认为是无效的,表明算法未能准确识别相应的行方向。此外,为了全面评估算法的整体性能,还记录了每条作物行中心线的拟合时间,以检查计算效率。当比较不同图像的角度误差和拟合时间时,也可以很好地描述所提出方法的准确性和实时性能。这些结果表明,所提出的作物行提取方法在真实田间环境中是稳健且可行的。
用于模型训练和测试的硬件和软件环境在表1中进行了总结。表1. 测试平台。应当注意的是,表1中列出的GPU环境主要用于模型训练、验证和超参数调整。相比之下,本研究中的推理速度评估主要在CPU上进行。该设计被采纳是因为所提出的方法旨在实时应用于农业机械上,在这种环境中,机载计算单元通常受到成本、功耗和硬件尺寸的限制,可能不具备高性能的GPU。因此,选择了基于CPU的FPS作为评估所提模型实际部署效率的主要指标。报告中提到了CUDA和cuDNN配置,以确保训练环境的可重复性,而非表明使用了GPU推理作为主要基准。3. 结果 3.1. YOLOv11n的性能 共收集了1555张玉米田图像,并将其分为训练集、验证集和测试集,使用YOLOv11n模型作为基准。为了平衡训练过程中的模型收敛速度和检测精度,对超参数进行了微调:初始学习率为0.01,优化器采用随机梯度下降(SGD)[48],动量为0.937。为了防止过拟合,使用了0.0005的权重衰减率。数据增强采用了拼贴增强和水平翻转,并应用了RandAugment来引入颜色空间和亮度的随机扰动,以提高模型的鲁棒性和泛化能力。将Num_workers设置为4,并为了防止过拟合,采用了耐心值为100的提前停止策略。批量大小设置为16,训练周期数为300。为了公平比较,所有模型均使用相同的设置进行训练。为了进一步说明基准模型的检测性能(表2),图6展示了一些不同田地环境下的典型检测结果。该模型在各种光照和背景条件下都能准确检测玉米植株,并且对遮挡和背景杂乱具有很强的鲁棒性。可以看出YOLOv11n能够精确识别单个植株,这确保了特征提取的有效性,为后续的轻量化设计和剪枝分析奠定了基础。表2. 基准模型的检测性能。图6. 在不同田地条件下使用基准YOLOv11n模型检测玉米植株的结果。基准模型在各种农业场景中的检测表现良好,为后续的轻量化增强和剪枝实验提供了良好的基础。3.2. 增强了C3k2_Faster_CGLU模块的模型性能 为了评估C3k2_Faster_CGLU模块对检测性能的影响,所提出的模型(记为YOLOv11n-FC)在相同的超参数设置、训练迭代次数和训练策略下进行了训练。这确保了观察到的任何性能差异仅归因于引入的架构修改。实验结果见表3。表3. YOLOv11n-FC的检测性能。相比之下,YOLOv11n-FC模型在保持稳定的整体检测性能的同时,减少了计算成本和存储开销。特别是,GFLOPs从6.3降低到5.6,模型大小从5.2 MB压缩到4.6 MB,这意味着网络更加紧凑和高效。CPU推理的FPS几乎没有变化,表明终端系统的执行速度没有受到计算复杂度降低的影响。改进后的模型召回率和mAP0.5几乎相同,而精确度略有下降(92.7% vs 93.4%)。这表明C3k2_Faster_CGLU模块可以在不显著牺牲精确度的情况下大幅减少计算量。总体而言,该模块在检测精度和计算成本之间实现了理想的平衡,为资源有限的场景下的进一步轻量化模型和应用提供了有益的架构优化路径。3.3. 增强了Detect_LSH模块的模型性能 在YOLOv11n-FC模型中用C3k2_Faster_CGLU替换C3k2模块后,模型的存储复杂性大大降低;然而,精确度略有下降。为了在轻量化模型中弥补这一精度损失,并在检测头部提供更强大的特征表示能力,我们在YOLOv11n-FC的架构上提出了一个轻量级共享检测头(Detect_LSH)模块,即YOLOv11n-FCL(Maize–YOLO)。Detect_LSH是一种共享卷积架构,允许在多尺度特征图之间共享参数,包括一个自适应特征缩放机制,以增强不同特征级别的语义一致性和表示能力。该设计显著减少了检测头中的参数冗余和计算成本,并提高了多尺度特征融合的质量,从而在不增加计算成本的情况下提高了检测精度。为了确认这一改进,我们使用与基准模型和YOLOv11n-FC模型相同的数据集和超参数配置对YOLOv11n-FCL进行了训练和测试。表4显示了检测性能。如表4所示,YOLOv11n-FCL模型进一步降低了资源消耗并实现了更好的检测性能。特别是,GFLOPs从5.6降至4.9,模型大小从4.6 MB缩小到4.2 MB。同时,精确度从92.7%上升到93.1%,其他精度指标与基准模型基本相同。Detect_LSH引入了两项重要发明来提高检测性能:(1)首先,共同的卷积组织允许参数在多尺度特征图中共享,从而高效地在不同尺度间传递高级语义信息。其次,提出了一种基于特征在各个尺度上重要性进行权重的自适应特征缩放方法,旨在提高模型对目标区域的性能。这两种技术的结合效应是,检测头可以拥有更丰富的特征表示,并且还能弥补C3k2_Faster_CGLU模块对弱或细粒度纹理目标造成的轻微精度下降。此外,通过共享参数,Detect_LSH还有效地避免了检测头中的重复计算,使推理过程更高效。基于CPU的FPS增加到62.1,比YOLOv11n-FC(57.6 FPS)提高了7.8%,显示出更好的计算效率和实时应用潜力。总之,添加Detect_LSH模块在多个方面改善了整体检测模型,包括特征表示增强、检测精度恢复、计算效率提升以及更加轻量级的结构设计,从而进一步提升了模型在复杂田地环境中的整体检测能力。3.4. 不同剪枝比率对模型检测性能的影响 在增强的YOLOv11n-FCL模型上采用了LAMP剪枝方案来分析模型轻量化和检测精度之间的关系。不同的剪枝比率在结构上稀疏了卷积通道,从而在保持模型主干架构稳定性的同时降低了计算成本和参数规模。所有剪枝模型都在相同的数据集上使用相同的超参数集进行训练和测试,以确保实验的一致性和可比性。表5展示了不同剪枝比率下模型检测精度的结果。表5. 不同剪枝比率下YOLOv11n-FCL的检测性能。从表5可以看出,随着剪枝比率的增加,模型参数和GFLOPs也明显减少。模型大小被压缩,FPS-CPU显著提高,表明基于LAMP的结构化剪枝可以在不牺牲主干架构稳定性的情况下显著提高计算效率和实时性能。然而,过高的剪枝比率会降低模型的特征表示能力,导致检测精度和召回率性能下降。从性能趋势(图7)来看,当剪枝比率从0增加到0.3时,精确度和mAP0.5几乎没有变化,变化量<0.2%。此外,GFLOPs从4.9降至3.4,计算量减少了30.6%,FPS-CPU增加到72.4。这表明适度剪枝可以显著减少计算量并提高实时性能。当剪枝比率进一步增加到0.4和0.5时,模型仍表现出较强的检测性能。当采用0.5的剪枝比率时,模型获得了93.4%的精确度、92.4%的召回率和97.6%的mAP0.5,与未剪枝模型相比几乎没有精度损失。图8展示了未剪枝和LAMP剪枝(0.5比率)YOLOv11n-FCL的通道级表示。显然,LAMP技术在保留整个网络结构的同时有效剪除了冗余滤波器。当GFLOPs减少了约51%时,模型大小缩小了约69%,FPS-CPU增加了36%(从62.1增加到84.4),实现了检测精度和计算成本之间的最佳平衡。图7. 不同剪枝比率下检测精度和计算效率的变化。图8. 卷积通道数量的比较。当剪枝比率高于0.6时,GFLOPs和模型存储继续减少,但检测结果开始下降。精确度和召回率显著下降;特别是当比率达到0.8时,召回率降至91.1%以下,这意味着过度剪枝会导致特征提取的关键信息丢失,从而无法在复杂田地环境中识别密集或被遮挡的玉米植株。尽管FPS-CPU超过了100,但显著的精度下降使其在实践中不可行。LAMP剪枝在不同稀疏化程度上表现出明显的非线性权衡。在0.5–0.7的剪枝比率下,模型获得了mAP0.5 ≥ 97.6%以及约1.3倍的推理加速。但进一步的剪枝会导致更严重的性能下降。考虑到精度、复杂度和实时因素,剪枝比为0.5的模型在检测性能和轻量化效率之间取得了最佳平衡,表明所提出的方法可以实现嵌入式农业机械平台的轻量化,以高效且稳定地运行。3.5. 消融实验 为了进一步总结每个改进模块的贡献,基于YOLOv11n进行了逐步消融实验。在相同的数据集分割、训练策略和超参数设置下,依次引入了C3k2_Faster模块、CGLU、轻量级共享检测头(LSH)和LAMP剪枝策略。结果见表6。表6. 消融实验结果。如表6所示,引入C3k2_Faster降低了计算成本,同时保持了与基准模型相同的mAP@0.5。进一步整合CGLU略微降低了GFLOPs并提高了基于CPU的推理速度,表明门控特征交互有助于提高特征表示效率。引入LSH后,模型达到了最高的mAP@0.5,为97.7%,而GFLOPs降至4.9,CPU-FPS增加到62.1。最后,在应用0.5的剪枝比率后,模型保持了97.6%的mAP@0.5,同时GFLOPs降至2.4,CPU-FPS增加到84.4。这些结果证实了所提出的模块是互补的,并共同致力于实现轻量化、准确的实时玉米检测模型。3.6. 与其他算法的比较 在相同的训练环境和数据集下,将增强模型与几种流行的对象检测算法进行了比较,包括单阶段检测器(YOLOv3–tiny、YOLOv5n、YOLOv6n、YOLOv8n、YOLOv10n、YOLOv12n和SSD)以及两阶段检测器Faster R-CNN。比较实验中的所有输入参数都严格控制,以确保使用相同的数据集和训练步骤的公平性。表7显示了比较结果。表7. 不同对象检测模型之间的检测性能比较。表7中的比较不仅用于评估最终提出的模型,还用于支持选择YOLOv11n作为后续轻量化优化的基准。如表7所示,基准YOLOv11n模型实现了97.6%的mAP@0.5,GFLOPs为6.3,模型大小为5.2 MB,基于CPU的推理速度为57.3 FPS。与YOLOv3–tiny相比,YOLOv11n的mAP@0.5提高了0.7个百分点,CPU推理速度提高了约50.4%,表明YOLOv11在检测精度和推理效率之间提供了更好的平衡。与其他轻量级YOLO变体(包括YOLOv5n、YOLOv6n、YOLOv8n、YOLOv10n和YOLOv12n)相比,YOLOv11在保持相对较低的计算复杂度和稳定的CPU推理性能的同时,实现了相当的检测精度。所提出的YOLOv11n-FCL(剪枝比率=0.5)进一步提高了模型的部署效率。与YOLOv11n相比,所提模型保持了相同的mAP@0.5(97.6%),同时将GFLOPs从6.3降低到2.4,模型大小从5.2 MB缩小到1.3 MB。与此同时,基于CPU的推理速度从57.3 FPS提高到84.4 FPS,提升了大约47.3%。这些结果表明,引入的C3k2_Faster_CGLU模块、Detect_LSH模块和LAMP剪枝策略有效减少了冗余计算和模型存储,同时保持了检测精度。需要注意的是,所提出模型的优势主要体现在整体精度与效率的平衡上,而不仅仅是检测精度的绝对提升。例如,YOLOv12n的mAP@0.5略高,为97.7%,但它需要5.8 GFLOPs的计算资源和5.2 MB的模型存储空间,其基于CPU的推理速度仅为48.4 FPS。相比之下,所提出的模型在保持mAP@0.5为97.6%的同时,计算资源减少了58.6%,模型大小减少了75.0%,基于CPU的推理速度提高了74.4%。这表明该模型更加适合资源受限的农业应用场景。与传统的检测器相比,所提出的模型也显示出明显优势:SSD的mAP@0.5为87.4%,基于CPU的推理速度为12.8 FPS,而Faster R-CNN的mAP@0.5为93.2%,但推理速度仅为1.21 FPS。相比之下,所提出的YOLOv11n-FCL(剪枝比例为0.5)在检测精度上更高,基于CPU的推理速度也更快,其基于CPU的推理速度大约是SSD的6.6倍,是Faster R-CNN的69.8倍,而计算成本仅为SSD和Faster R-CNN的7.9%和0.51%。
综上所述,尽管几种轻量级YOLO模型在检测精度上表现相似,但所提出的Maize–YOLO模型在mAP@0.5、计算资源消耗、模型大小和基于CPU的推理速度方面实现了最佳平衡。因此,所提出的YOLOv11n-FCL(剪枝比例为0.5)可以为实时玉米植株检测和自动化农业导航中的嵌入式应用提供有效且实用的轻量级解决方案。
3.7. 作物行中心线的检测
模型的预测输出还包含了每个预测边界框的中心位置的x和y坐标,这些坐标可以直接用作单个玉米植株的位置信息。由于相机成像的透视效果,相机在田间拍摄到的最接近的平行作物行实际上并不是完全平行的;它们从图像的底部向顶部逐渐汇聚。因此,如果同时使用这些坐标进行聚类,同一个簇中的植株可能不属于同一行,这不仅降低了行检测和导航路径生成的精度,也增加了聚类过程的计算成本,这是影响系统实时性能的一个重要因素[49]。
为了解决这个问题,首先应用了逆透视映射(IPM)技术,将相机视角下的原始图像转换为无需校准的正交俯视图。这一过程补偿了透视变形,使得在IPM图像中的作物行大致平行。因此,它可以提高作物行检测的精度和实时性能,减轻后续聚类过程的难度。
为了进一步验证所提出的IPM预处理方法的有效性,进行了传统RANSAC + LSM方法与IPM + DBSCAN + LSM流程的对比实验。如图9所示,所提出的方法将聚类和线拟合时间从164 ms显著缩短到了3 ms,显示出计算效率的巨大提升。这一结果证实了IPM变换有效减轻了透视变形,减少了聚类过程中的冗余空间计算,并大大提高了作物行检测的实时性能。
4.1. 适用于实际部署的轻量级检测设计
为了实现玉米植株的检测,Maize–YOLO框架结合了三种互补的设计策略:C3k2_Faster_CGLU特征提取模块、轻量级共享检测头(Detect_LSH)和LAMP剪枝策略。这些组件协同工作,减少了冗余计算并压缩了模型尺寸,同时保持了有效的特征表示。实验结果表明,这种设计在检测性能和效率之间取得了良好的平衡,使模型能够在较低的计算负担下保持高精度。更重要的是,本研究中获得的基于CPU的推理速度表明,该模型适合部署在农业机器人常用的船上处理器上,无需高性能GPU的支持。
与其他轻量级YOLO变体相比,所提出的检测器在保持检测精度的同时提升了推理效率。这对于连续导航任务尤为重要,因为在视觉感知中的延迟会直接影响控制响应、操作稳定性和现场安全性。4.2. 从植物层面感知到作物行的结构重建除了植物检测本身,本研究还将作物行感知视为一个结构重建问题,而不仅仅是由局部视觉外观驱动的任务。从单一植物检测开始,使用IPM–DBSCAN–LSM流程来恢复作物行的全局几何形状。逆透视映射(IPM)步骤补偿了相机图像中的透视汇聚问题,并将场景转换为近似俯视的表示形式,使得作物行变得大致平行。这使得后续的聚类和线拟合更加稳定。在IPM领域,聚类问题被简化为低维形式,使得DBSCAN能够根据空间密度更牢固地分离作物行。然后使用最小二乘法(LSM)平滑植物分布中的局部噪声,生成具有良好几何一致性的连续中心线。通过这种方式,所提出的框架能够在较低的计算成本下实现精确的作物行提取,这对于实时导航任务非常重要。由于本研究的最终目标是自主农业导航,因此应该通过检测指标和与导航相关的几何指标来评估整个感知流程的性能。如表8所示,所提出的Maize–YOLO + IPM–DBSCAN–LSM流程达到了98.6%的有效行提取准确率、0.442°的平均角度偏差、2.24像素的平均中心偏差以及22.53 FPS的基于CPU的处理速度。这些指标直接反映了行方向估计、横向中心线定位和实时导航线生成的可靠性。为了进一步评估这种基于植物层面的结构重建策略的有效性,表9将所提出方法的处理效率与几种基于分割和基于检测的作物行检测或导航线提取方法进行了比较。需要注意的是,所报告的处理速度是从不同研究中收集的,可能会因作物类型、数据集、硬件配置、实现细节以及报告值是指总流程时间还是仅识别时间而有所不同。此外,许多现有研究并未同时报告与导航相关的指标,如角度偏差、中心线偏差、有效行提取率和总流程延迟。因此,表9中的比较主要提供了处理效率和部署潜力的实际参考,而不是所有指标的严格统一基准。表9显示,与基于分割的方法(如U-Net和E-Net)相比,所提出的框架在处理速度上更快,同时保持了较高的几何精度。与基于分割的方法相比,所提出的方法避免了密集的像素级预测,而是从植物层面检测重建行几何形状,从而减少了计算负担。与其他基于检测的方法相比,所提出的流程在提供明确的导航线几何形状的同时,通过IPM变换、DBSCAN聚类和LSM拟合实现了具有竞争力的或更高的处理速度。这些结果表明,从植物层面检测重建作物行是密集分割的一个实际替代方案,特别是在需要实时性能和部署效率的自主农业导航中。4.3. 从像素级分割到植物层面的结构感知传统的基于分割的作物行检测方法[32,58]通常依赖于密集的像素级预测,并且通常假设作物行在视觉上连续且植物间距相对均匀。然而,在实际田间条件下,这些假设经常被不均匀的生长、缺失的植物、杂草干扰和变化的光照所打乱。结果,分割出的行掩码可能会变得碎片化,从而导致导航线提取不稳定。这反映了基于分割的方法的一个更广泛的限制:它们主要关注视觉连续性,而这并不总是与导航的几何需求一致。相比之下,自主导航更直接地与几何一致性和拓扑稳定性相关。因此,所提出的框架采用以植物为中心的感知策略,从离散植物中心的空间分布来推断作物行,而不是连续的像素掩码。通过这种形式,即使视觉线索不完整,只要保留了足够的植物检测,仍然可以恢复作物行的几何形状。使用IPM进一步改进了这一策略,将植物分布转换为更具物理意义的坐标空间。这减少了聚类过程中的模糊性,并提高了对透视失真的鲁棒性。这样,检测–IPM–聚类–拟合流程更清晰地将视觉感知与几何重建分开,有助于在复杂的田间条件下生成更可靠的作物行估计。从像素级分割到植物层面的结构感知的转变,为自主农业导航中的作物行检测提供了更加稳健和高效的解决方案。当前结果表明,利用行种植作物的空间规律性可以提高实际可靠性和部署效率,并可能为未来基于视觉的精准农业导航系统提供有用的方向。尽管取得了这些有希望的结果,但仍存在一些面向部署的限制。首先,本研究中的CPU推理测试是在工作站平台上进行的,而不是在农业机械中常用的嵌入式控制器上进行的。因此,还需要在边缘计算板或车载控制器上进行进一步验证。其次,本研究主要评估了图像级别的玉米检测和作物行中心线提取性能。尚未在实际田间操作条件下进行连续闭环导航实验,包括车辆控制响应、振动干扰和长时间的环境变化。未来的工作将集中在嵌入式部署和实时田间导航验证上,以进一步验证所提出框架的实际适用性。除了与部署相关的限制外,所提出方法的泛化能力也需要进一步验证。虽然本研究使用的数据集来自三个不同的地点,在不同的天气条件下、具有不同的背景纹理和 planting 模式下收集,但实验主要基于玉米幼苗图像进行。因此,所提出的Maize–YOLO + IPM–DBSCAN–LSM流程对其他作物类型、不同生长阶段、弯曲的作物行、缺失的植物和高度不规则的种植模式的适用性尚未得到充分证明。当前的流程依赖于精确的植物检测和行种植作物的空间规律性。当作物行弯曲严重、植物生长不连续、杂草在视觉上与玉米幼苗相似或种植模式高度不规则时,聚类和线拟合可能会变得不稳定。因此,未来的工作将扩展验证数据集,包括不同的作物、多个生长阶段和更复杂的田间环境。此外,还将研究视频序列中的时间信息,以提高作物行跟踪的稳定性,并探索与GNSS、LiDAR或IMU数据的多模态融合,以在具有挑战性的田间条件下进一步增强导航的鲁棒性。5. 结论本研究开发了一个基于改进的YOLOv11n框架,用于玉米植物检测和作物行提取,以解决传统基于视觉的农业导航的主要限制,即检测精度不足、实时性能有限和高计算成本。通过引入C3k2_Faster_CGLU特征提取模块、轻量级共享检测头(Detect_LSH)和LAMP剪枝策略,逐步优化了检测网络。这些改进大大降低了模型复杂性,同时保持了强大的检测精度。最终的Maize–YOLO模型实现了97.6%的mAP@0.5、GFLOPs从6.3减少到2.4,并将模型大小减少了约75%。同时,基于CPU的推理速度从57.3 FPS增加到84.4 FPS,表明所提出的检测器可以在精度和实时效率之间实现强有力的平衡。对于作物行提取,提出了一个集成的IPM–DBSCAN–LSM流程。IPM变换减少了透视失真,使变换后的图像中的行结构更加规则,从而提高了聚类和线拟合的可靠性。使用该流程,该方法实现了98.6%的作物行中心线检测准确率,平均角度偏差为0.442°,基于CPU的处理速度为22.53 FPS。这些结果表明,所提出的框架可以为实际田间导航提供准确和高效的作物行感知。所提出的Maize–YOLO和IPM–聚类方法为自主农业导航提供了稳健和高效的基于视觉的解决方案。未来的工作将致力于将该方法扩展到不同的作物类型和生长阶段,并结合多模态感测信息(如立体视觉和LiDAR点云),以支持3D作物行重建和动态场景建模。这可能会进一步提高农业机器人在智能田间操作和精准路径规划中的能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号