面向复杂农业场景的球状作物三维感知：基于立体视觉与先验增强语义形状建模的PES-3D检测器

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Smart Agricultural Technology》：PES-3D: A Stereo Vision-Based 3D Spherical Crop Detector with Prior-Enhanced Semantic Shape Modelling

【字体：大中小】 时间：2026年02月27日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　本研究针对自动化农业采收与分选中球状作物（如柚子、西瓜）面临的遮挡、枝叶密集和视觉杂乱等挑战，提出了PES-3D（先验增强立体三维检测器）。该框架创新性地融合立体视觉、类别特异性形状先验和优化的二维特征提取骨干网络，实现了图像与点云表征间的有效跨模态对齐，并在复杂田间条件下显著提升了空间定位的准确性与稳定性。在农场规模数据集上的实验表明，PES-3D在IoU=0.5时mAR/mAP达到83.33%/67.36%，性能优于FCAF3D、FF3D等基线方法。该研究为机器人精准定位与抓取规划提供了更准确的作物轮廓感知，有望支持更稳定的操作并降低机械损伤。

在智慧农业蓬勃发展的今天，自动化采收与产后处理已成为提升效率、降低损失的关键。想象一下，一台机器人正在果园或田间地头工作，它的“眼睛”需要精准地找到那些隐藏在繁茂枝叶下、或散落在复杂地面上的球形果实——比如油茶果、油棕果、橄榄，或者我们更熟悉的柚子、西瓜。然而，现实环境充满了挑战：果实相互遮挡、背景杂乱无章、光照变化无常。传统的单目视觉方法难以感知深度，容易出错；而激光雷达等主动深度传感设备虽然精确，但成本高昂且对环境敏感，难以大规模部署。如何在保证成本效益的同时，实现复杂田间环境下对球形作物稳定、精确的三维定位，成为了推动农业机器人实用化必须跨越的一道坎。

为此，中国农业大学信息与电气工程学院的Jingyi Jia、Hong Sun等研究人员在《Smart Agricultural Technology》上发表了一项研究，提出了一种名为PES-3D（Prior-Enhanced Stereo 3D Detector）的创新框架。这项研究旨在利用经济高效的立体视觉硬件，结合对球形作物几何特性的先验知识，构建一个能够在真实农业环境中可靠工作的实例级三维感知系统。研究团队通过精心设计的数据采集、跨模态的特征融合以及新颖的损失函数，最终证明了PES-3D在应对遮挡、杂乱背景等挑战时的卓越性能，不仅在其自建的农场规模数据集上超越了现有先进方法，在著名的KITTI自动驾驶基准测试中也展现了强大的跨领域泛化能力。这项成果为农业机器人的精准“眼手协调”提供了强有力的技术支撑，朝着更智能、更高效的自动化农业生产迈出了坚实一步。

为了达成上述目标，研究者们主要运用了以下几个关键技术方法：首先，使用Luxonis OAK-D立体相机在真实农田和模拟产后场景下采集了柚子和西瓜的立体图像对，并进行了精细的二维（使用LabelMe）和三维（使用LabelCloud）手工标注，构建了专门的任务导向数据集。其次，设计了一个三阶段的PES-3D算法流水线：（1）图像分支：采用基于Visual Attention Network (VAN)的编码器-解码器架构进行2D实例分割，获取物体的边界框和语义掩码；（2）点云分支：利用RAFT-Stereo网络进行实例级的视差估计，进而通过立体几何反投影生成伪点云；（3）三维检测与先验增强：在经典的PointRCNN检测框架中，用RFAConv模块增强局部几何感知，并引入了两种先验——基于CAD模型的数据级结构增强先验和旨在强制几何一致性的球形一致性损失（Spherical Consistency Loss， SCL）。该损失函数包含几何精度、尺度一致性和形状匹配（基于倒角距离）三个组成部分，引导网络预测更符合球体几何特性的边界框。

研究结果

•
2. 研究方法论
- •
  2.3. 图像分支：研究者设计了基于VAN骨干网络的2D目标检测与实例分割模块。实验表明，该图像分支在平均准确率（mAcc）和平均交并比（mIoU）上均优于对比的Mask R-CNN和YOLO-v11模型（如mAcc达到96.30%），为后续三维流程提供了高质量的语义和区域建议。
- •
  2.4. 点云分支
  - •
    2.4.2. 3D检测器：研究将PointRCNN中的Set Abstraction模块替换为RFAConv，以增强对局部点云结构的感知能力。同时，引入了基于柚子CAD模型的点云结构增强策略，通过在训练中合成多尺度、多密度的球形点云样本来丰富数据的几何多样性。
  - •
    2.4.3. 球形一致性损失（SCL）：新提出的SCL损失函数从几何精度、尺度一致性和形状匹配三个维度约束预测结果。消融实验证明，SCL的引入显著提升了检测性能，特别是在处理遮挡和点云不完整的情况时。
•
3. 结果与讨论
- •
  3.1.1. 自定义数据集上的实验结果：在自建的柚子数据集上，PES-3D在IoU=0.5时取得了83.33%的mAR和67.36%的mAP，在IoU=0.7时取得了62.50%的mAR和38.01%的mAP，均优于PointPillar、ImVoteNet、FCAF3D和FF3D等主流三维检测方法。可视化结果显示了其在2D检测、图像投影3D框和点云3D定位方面的有效性。在未参与训练的西瓜田间数据集上，PES-3D也展现了良好的泛化能力和结构感知效果。此外，按遮挡程度分层的评估显示，即使在重度遮挡（>50%）下，该方法仍能保持52.40%的mAP（IoU=0.5），证明了其鲁棒性。
- •
  3.1.2. KITTI数据集上的实验结果：在跨领域的KITTI基准测试中，PES-3D同样表现出色。在中等难度设定和IoU=0.7的标准下，其三维检测精度（AP_3D）达到77.45%，大幅超过S-RCNN、Disp R-CNN和ZoomNet等方法，证明了该框架强大的通用性和在处理复杂场景（如遮挡、小目标）方面的优势。
- •
  3.2. 消融实验：系统性的消融研究分别评估了图像分支的VAN骨干网络、点云分支的RFAConv模块、CAD模型先验增强以及球形一致性损失（SCL）各组成部分的贡献。结果表明，每个模块都对最终性能有正向提升，其中SCL的引入带来了最显著的性能增益，尤其是在提升边界框的几何一致性方面作用关键。

结论与意义

本研究成功开发并验证了PES-3D，一个面向实际农业生产环境的、基于立体视觉的球形作物三维感知框架。其核心贡献在于将成本效益高的立体视觉硬件与类别特定的形状先验知识相结合，通过创新的跨模态对齐和几何约束损失函数，有效解决了在遮挡、杂乱背景下进行精确三维定位的难题。

实验结果表明，PES-3D不仅在专门的自定义农业数据集上取得了领先的性能，还在通用的KITTI自动驾驶数据集上展现了卓越的跨领域泛化能力。这标志着该方法不仅适用于特定的球形作物检测任务，其核心思想——即利用几何先验增强基于视觉的三维感知——对于其他具有规则几何形状的农业目标（如圆柱形果实、方形包装盒）乃至更广泛的机器人感知场景都具有重要的借鉴意义。

该研究的现实意义尤为突出。通过提供更准确、更稳定的作物轮廓三维感知，PES-3D能够直接服务于农业机器人的定位和抓取规划系统。这意味着未来的采收机器人可以更可靠地识别并定位果实，即使是那些部分被树叶遮挡或散落在不平整地面上的目标，从而有望实现更稳定的机械操作，减少采收和分选过程中的物理损伤，提升整体作业效率和质量。尽管全面的系统级验证仍在进行中，但此项工作无疑为推动智能农业从实验室走向田间地头提供了关键的技术基石。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号