YOLO-GPP：基于端到端学习的番茄果柄抓取位姿预测网络及其在采摘机器人视觉伺服中的应用

《Artificial Intelligence in Agriculture》：YOLO-GPP: End-to-end prediction of the grasp position and pose on tomato peduncle for robotic harvesting

【字体：大中小】 时间：2026年03月18日 来源：Artificial Intelligence in Agriculture 12.4

编辑推荐：

　　为解决机器人采摘中番茄等簇生、易损水果的“如何抓”与“从何抓”的视觉引导难题，本研究提出一种基于YOLOv8的端到端抓取位姿预测网络YOLO-GPP。该网络通过融合DCNv4和SDI-BiFPN模块，直接从RGB图像中并行预测果柄的最佳切割点位置与末端执行器姿态向量。实验表明，模型在测试集上达到了95.3%的mAP-V精度，位姿估计误差仅为2.9°，为实现高效、精准的自动化采摘提供了关键技术方案。

在全球番茄市场持续扩张的背景下，传统人工采摘模式正面临着劳动力需求密集、效率低下、季节性用工短缺以及成本攀升等严峻挑战。对于那些娇嫩的簇生水果，如番茄和葡萄，采摘机器人需要精确识别果柄，并计算出末端执行器（如机械手）的“接近姿态”，才能像经验丰富的果农一样，灵巧地避开果实和枝叶，完成精准的抓取和切割。然而，现实中的农田环境可没那么“友好”：果柄纤细易变形，常被果实或叶片部分遮挡；同一视野内，粗壮的主茎、细长的果柄和硕大的果实尺度差异巨大；加之温室复杂背景和光照不均的干扰，都给机器的“眼睛”带来了巨大考验。

现有的视觉感知方案各有“痛点”。针对球形水果的“抓果”模式，通常只需定位果实中心即可，但这不适用于需要抓握果柄的场景。而针对果柄的感知方法，大多采用“两步走”策略：先用深度学习模型（如实例分割）分割出果柄和主茎的轮廓，再结合传统的图像处理算法（如骨架提取、直线拟合）来推算抓取点和姿态。这种“拼接”流程不仅繁琐，高度依赖后处理算法的稳定性，在遮挡或形变严重时容易失败，而且未能充分利用深度神经网络感知深层视觉特征的潜力。此外，一些依赖RGB-D相机获取三维点云信息的方法，虽然精度高，但对硬件配置和算力要求苛刻，成本高昂。能否让AI直接从一张RGB图片中，像“直觉”一样，同时“看”出该在哪里下剪子、以及剪刀该以什么角度接近呢？

为了攻克这些难题，来自北京农林科学院智能装备研究中心的科研团队在《Artificial Intelligence in Agriculture》上发表了一项创新研究。他们提出了一种名为YOLOv8-GPP（Grasp Position and Pose prediction network）的端到端抓取位姿预测网络。这个网络的神奇之处在于，它能在单张RGB图像输入后，直接、并行地输出目标果柄的最佳抓取点坐标（x, y）和抓取姿态角θ，形成一个完整的抓取向量，为机器人的视觉伺服控制提供“一站式”的几何信息指导。

为了开展这项研究，作者们主要运用了以下几项关键技术方法：首先，构建并标注了一个包含1000张、分辨率为640×640像素的番茄近距离场景自采数据集，涵盖了50-350毫米工作距离及多视角下的图像，并手动标注了最优抓取位姿。其次，提出了YOLOv8-GPP网络架构，其在YOLOv8检测框架基础上，引入了DCNv4（可变形卷积v4）模块以增强网络对目标（如果柄）形变的适应能力，并使用SDI-BiFPN（语义与细节注入-双向特征金字塔网络）模块替换原有结构，以优化多尺度特征融合。最后，设计了一套专门的损失函数，包括基于目标尺度归一化的抓取位置损失，以及采用冯·米塞斯(von Mises)分布、并融入从粗到细训练策略的抓取姿态损失，以确保位姿回归的准确与稳定。模型在配备NVIDIA RTX 4090 GPU的计算机上使用PyTorch框架进行训练，并在搭载Intel i5-13500 CPU的工控机上评估了部署性能。

2.2. YOLOv8-GPP网络架构

研究对YOLOv8框架进行了创新性扩展。网络输入为RGB图像，输出则是一个包含了边界框、类别以及新增的三维抓取向量（x, y, θ）的张量。其架构主要包含三个模块：骨干网络（Backbone Network）、颈部网络（Neck Network）和头部网络（Head Network）。在骨干网络中，作者在最后两个C2f模块引入了DCNv4，以动态调整采样位置，更好地建模果柄在近距离成像下的几何变形和视点畸变。在颈部网络中，用SDI-BiFPN替换了原始的特征金字塔网络（PAN），通过双向特征融合和哈达玛积（Hadamard product）操作，增强了不同尺度特征（如细节丰富的果柄纹理和包含全局语义的主茎背景）之间的交互与互补，以应对场景中巨大的尺度变化。在头部网络，则在标准检测头的基础上，增加了一个专用的抓取向量检测分支，实现端到端的位姿回归。

2.3. 可变形卷积v4 (DCNv4) & 2.4. SDI-BiFPN

这两节详细阐述了两个核心改进模块的原理。DCNv4通过学习的偏移量动态调整卷积核的采样位置，并移除空间聚合中的softmax归一化，增强了动态特性和处理非刚性形变的能力。SDI-BiFPN则结合了双向特征金字塔网络和语义细节注入模块的思想，利用加权融合和元素级乘法，实现了更精确的跨尺度特征融合，为后续的检测和向量预测头提供了可靠的特征支持。

2.5. 损失函数

研究为YOLOv8-GPP设计了一套包含边界框回归、分类、分布焦点损失（DFL）以及新增的抓取位置损失和抓取姿态损失的多任务损失函数。其中，抓取位置损失采用了基于目标边界框面积归一化的欧氏距离平方误差，以确保不同大小目标对损失的贡献平衡。抓取姿态损失则创新性地使用了基于冯·米塞斯分布的损失函数，以自然处理姿态角的周期性（如0°与360°等价）。此外，还提出了“从粗到细”的姿态训练机制：在训练早期，将姿态空间离散化为粗粒度区间进行计算，帮助模型快速收敛；在训练后期，则逐渐过渡到使用细粒度的精确姿态损失，以提升预测精度。

3.1. 实验环境与数据集 & 3.2. 评估指标

研究使用自采的番茄数据集，按7:2:1划分训练、验证和测试集，并进行了数据增强。为全面评估抓取向量检测性能，作者提出了专门用于向量检测任务的向量相似度（VS, Vector Similarity）度量标准，该标准综合考虑了位置和姿态的准确性，并在此基础上定义了平均精度均值-向量（mAP-V, mean Average Precision-Vector）作为核心评估指标。

3.3. 对比实验

研究人员将YOLOv8-GPP与当前主流方法进行了系统对比，包括关键点检测方法（YOLOv8n-Pose结合后处理）和实例分割结合后处理方法（Mask R-CNN, YOLACT, YOLOv8n-Seg）。实验结果表明，YOLOv8-GPP在测试集上取得了95.3%的mAP-V，平均抓取位置定位误差（e-D）为7.07像素，平均抓取姿态估计误差（e-A）为2.9°。在仅使用CPU的工控机上，推理速度达到20.3 FPS，满足实时性要求。与关键点检测方法相比，抓取位置定位误差降低了约47%；与实例分割方法相比，姿态误差降低了约30%。同时，模型参数量（1.98 M）和计算量（7.3 GFLOPs）显著低于多数对比模型，展现了优异的轻量化特性。可视化结果进一步证实，在严重遮挡、果柄弯曲等复杂场景下，基于实例分割的后处理方法容易出现掩码分割错误、拟合失败等问题，而YOLOv8-GPP则能保持稳定、准确的预测。

3.4. 消融实验

通过逐步添加DCNv4、SDI-BiFPN、冯·米塞斯损失和粗粒度训练机制等组件，消融实验验证了各个模块的有效性。完整模型相比基线模型，mAP-V提升了4.0个百分点，参数量减少了35.7%，计算量优化了13.1%，同时保持了实时推理速度。这表明各组件协同工作，共同提升了模型的预测精度和计算效率。

4. 讨论 & 5. 结论

本研究提出的YOLOv8-GPP模型在番茄果柄抓取向量检测任务中表现出色。其成功源于YOLOv8强大的多任务学习框架、DCNv4与SDI-BiFPN对复杂农业环境适应性的增强，以及专门为姿态回归设计的损失函数和训练策略。该研究首次实现了从RGB图像到采摘抓取位姿的端到端预测，将“在哪里采摘”和“如何采摘”两个问题统一在一个框架内解决，显著简化了系统流程，提升了鲁棒性和精度。

当然，研究也存在一定的局限性。模型仅基于单目RGB图像进行预测，当果柄与相机视点垂直或遭受严重立体遮挡时，二维信息可能不足以推断最优的三维抓取姿态。同时，缺乏深度信息也意味着模型无法判断果实、主茎和果柄之间的三维空间关系，存在机械臂轨迹碰撞的潜在风险。

尽管如此，这项研究展示的端到端抓取向量检测框架具有良好的扩展性和普适性。该方法不仅适用于番茄采摘，也可推广至辣椒、葡萄、樱桃等具有类似果柄抓取需求的其他作物。通过针对特定作物的数据标注和模型微调，可以快速构建多样化的果蔬视觉系统。随着农业机器人技术的不断进步，这种端到端的学习范式在农业视觉感知中展现出广阔的应用前景，有望推动智能农业从传统的分步处理迈向集成的智能感知与决策，为解决农业劳动力短缺、提升生产效率提供有效的关键技术支撑。

热点排行

新闻专题