LeafRemoval-YOLO-K：一种用于番茄植株茎叶分离及切割点定位的混合视觉识别网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers and Electronics in Agriculture》：LeafRemoval-YOLO-K: A hybrid visual recognition network for stem-petiole segmentation and cutting point localization in tomato plants

【字体：大中小】 时间：2026年03月06日 来源：Computers and Electronics in Agriculture 8.9

编辑推荐：

　　温室番茄叶片自动化去除研究提出融合YOLOv8与MMSegmentation的 LeafRemoval-YOLO-K双阶段策略，通过茎-叶目标检测、子图实例分割和主茎语义分割构建三维空间定位模型，结合深度辅助的形态学处理实现86.5%的切割点定位精度。

张俊雄|郭家阳|赵成伟|李伟|袁婷

中国农业大学工程学院，北京，中国

摘要

在温室环境中自动去除番茄植株的叶子面临着显著的视觉识别挑战，包括严重的遮挡、结构复杂性和茎-叶柄形态的多样性。为了解决温室环境中番茄植株自动去叶过程中的视觉识别问题，本研究提出了一种两阶段视觉识别策略，该策略结合了2D图像检测和深度辅助的空间推理。在分析了温室生长条件、植物结构和工作空间特征后，构建了三种类型的数据集：茎-叶柄目标检测、子图像实例分割和主茎语义分割。开发了一种混合网络模型LeafRemoval-YOLO-K，该模型结合了YOLOv8进行关键点检测和实例分割，并使用K-Net作为解码器头进行语义分割。利用自收集的数据集，YOLOv8模型在关键点检测方面的准确率、召回率和F1分数分别为85.3%、88.9%和87.1%，在子图像实例分割方面的准确率、召回率和F1分数分别为92.0%、99.5%和95.6%。K-Net语义分割模型在划分主茎区域方面表现出强大的性能，准确率为84.14%，召回率为87.09%，F1分数为85.59%，平均交并比（IoU）为73.34%，总体准确率为86.09%。融合的2D特征被用于切割点定位算法，以识别和分割茎与叶柄之间的连接区域。实验结果表明，所提出的策略实现了86.5%的切割点定位准确率，为番茄植株自动去叶的视觉感知模块提供了一种有效可靠的方法。这项工作为温室农业中的后续机器人操作奠定了理论和技术基础。

引言

番茄是全球种植最广泛的蔬菜作物之一，为了提高产量稳定性和资源效率，温室栽培的应用日益增多。在其生长周期中，手动去除叶子仍然是主要的方法，这既耗时又费力。因此，实现机械化和自动化的去叶过程对于减少对人工劳动的依赖、提高生产效率和降低运营成本至关重要。在这种情况下，能够及时准确检测叶子切割目标并确定其位置的计算机视觉技术成为自动化的关键推动因素。

在农业应用中，由于环境本身的非结构化特性，对象检测技术面临独特的挑战。水果和植物器官通常具有复杂的空间排列，包括密集堆积、相互遮挡以及由于拥挤而导致的变形。这种复杂性限制了传统数字图像处理方法的有效性。随着深度学习的快速发展，现代技术如对象检测和图像分割在处理这些复杂性方面展现了更强的能力，使得在农业环境中更准确地识别和定位多个目标成为可能。

最近的研究探索了多种用于植物叶片检测、分割和修剪点定位的视觉感知策略。Ahlin等人（2016年）开发了一种基于AlexNet的深度学习视觉模块的自主果实采摘系统。他们的方法依赖于逐帧分析和基于FLANN的匹配来跟踪候选叶子，强调时间一致性和几何约束，而不是对植物的高精度结构理解。后续方法转向了更细粒度的实例级和轮廓级表示。例如，郭等人（2021年）通过引入掩码组装模块和细化模块改进了叶片实例分割，实现了90.09%的分割准确率；而陈等人（2019年）采用连续函数建模获得了比Mask R-CNN更平滑和更准确的叶片轮廓。这些方法明显增强了单个叶片的像素级划分，但它们主要将叶片视为孤立的对象，对茎、叶柄和邻近器官的结构背景关注较少。

在实例分割的基础上，一些研究针对特定的修剪和结构分析任务进行了优化。冯等人（2022年）应用Mask R-CNN来定位番茄植株上的修剪点，通过分割和分离主茎和侧枝来实现。Merrick Campbell等人（2022年）进一步将深度相机和3D点云处理集成到切割末端执行器中，估计叶片质心和6D姿态，以便对多种果树进行切割和抓取操作。最近，荣等人（2023年）通过添加SeMask、FAM和FSM模块增强了基于Swin Transformer V2的语义分割模型，以提取番茄萼片和茎，实现了82.5%的mIoU和89.79%的mPA。同时，基于YOLO的框架也被用于修剪相关任务：梁等人（2025年）提出了TPS-YOLO网络，改进了YOLOv5并引入了修剪分支定位算法来检测温室番茄侧枝上的修剪点；而马等人（2025年）通过扩展YOLOv8-pose开发了STRAW-YOLO，以识别温室草莓植物的三个关键点并利用点云辅助估计它们的姿态。这些研究展示了从通用检测向任务导向的关键点和修剪点定位的明显趋势。

尽管取得了这些进展，现有方法在温室环境中的实际自动去叶应用方面仍存在一些局限性。首先，大多数工作将检测、实例分割和语义分割设计为独立的流程：例如，叶片像素被分割（郭等人，2021年；陈等人，2019年），修剪区域被检测（冯等人，2022年；梁等人，2025年），或者茎和相关结构被语义分割（荣等人，2023年），但这些任务之间的交互作用较弱或缺失。这种模块化设计使得难以准确定位茎和叶柄之间的精确连接区域，这对于安全和准确的切割至关重要。其次，许多研究在相对受控的成像条件下进行评估，遮挡程度有限且植物形态简化；在密集的叶层、严重重叠的叶片和典型的温室番茄纹理条件下，它们的性能和鲁棒性可能会显著下降。最后，只有少数方法在设计视觉特征和决策规则时明确考虑了植物的层次结构（叶片-叶柄-茎），这限制了这些模型在不同生长阶段和植物结构下的通用性。

为了解决这些差距，本研究提出了一种混合视觉识别框架，将关键点检测、实例分割和语义分割紧密集成在一个统一的、任务导向的流程中，用于温室条件下的自动番茄叶片去除。通过明确建模叶片级细节和周围的茎-叶柄背景，所提出的方法旨在提高在复杂遮挡和变化叶片姿态下的修剪点定位的准确性和鲁棒性，从而增强智能修剪机器人的实际应用性。

总体而言，传统的图像处理算法适用于具有已知任务约束的结构化环境，并已在工厂和车间等工业场景中得到广泛应用。然而，温室环境的特点是植物生长密集和遮挡模式复杂，番茄叶片、果实和枝条交织在一起，形成了典型的非结构化场景。为了实现自动去叶，准确和鲁棒的视觉识别算法在温室环境中至关重要。在温室环境中，视觉识别通常面临三个主要挑战：

(1)

目标物体在相机视野中的高随机性。在温室环境中，用于修剪的叶柄表现出多样的形态和空间分布。它们可能出现在视野中的任意位置，并且缺乏一致的方向或形状。

(2)

叶柄与主茎在形态和颜色上的相似性。单一算法难以区分叶柄和茎。对于全局观察，较长的观察距离和视觉杂乱常常导致误报或遗漏分支的检测。对于局部观察，仅使用裁剪区域内的视觉线索很难区分叶柄和茎。

(3)

严重的遮挡。由于温室中的紧凑种植结构，番茄枝条经常重叠和交织，叶柄容易被叶片或邻近枝条遮挡。

在温室环境中，基于RGB相机并结合传统图像处理算法的方法虽然成本低廉且易于部署，但对光照变化、复杂背景和植物遮挡非常敏感。因此，它们往往无法可靠地捕捉到关键目标的位置，导致识别结果的鲁棒性和稳定性较差。LiDAR传感器虽然能够提供深度信息并在一定范围内展示强大的空间感知能力，但容易受到环境光和温室中植物枝条和叶片的多层遮挡的影响。这通常会导致点云数据稀疏且不连续，从而降低整体场景重建和目标提取的准确性。三维点云技术在某种程度上可以表示植物结构的空间分布；然而，其数据密度受到传感器分辨率和采集角度的限制。在叶片重叠和植物结构紧凑的区域，信息丢失频繁发生，这增加了后续识别和定位的难度。此外，在实际场景中应用三维点云重建需要大量的计算时间，从而降低了自动去叶的效率。

为了解决这些挑战，本研究采用了一种基于2D图像的感知方法，利用基于深度学习的对象检测和分割来识别关键的修剪区域。与3D传感器相比，2D成像具有易于采集、信息密度高和分辨率可控等优点，能够更清晰地捕捉植物茎、侧枝和果实的纹理和边缘特征。此外，基于深度学习的2D视觉算法已经发展成熟，能够在复杂背景下实现高精度检测和分割，非常适合温室环境的变光照和结构条件。提出了一种两阶段视觉识别策略，结合了2D图像检测和3D空间定位。开发了一种名为LeafRemoval-YOLO-K的深度学习模型，基于YOLOv8和MMSegmentation，用于检测温室番茄植株的叶柄并定位切割点。提出了一个三步视觉识别策略：（1）数据集构建（2）图像检测和分割（3）切割点识别算法和3D空间定位。切割点的2D图像坐标进一步使用深度相机投影到3D空间中，从而在相机坐标系中进行定位。整个工作流程如图1所示。

为了增强所提出的修剪策略的生理学基础，本研究中的叶片去除标准遵循了温室番茄栽培中使用的高线训练系统的标准实践。随着番茄植株的生长，会进行 vine lowering（ vine lowering 是一种调整植株高度的农业技术）以保持结果区的恒定高度。位于果实簇附近或下方的叶柄会被系统地修剪，以优化果实周围的养分分布、空气流通和光照。因此，在本研究中，修剪目标的确定基于它们与结果节点的空间关系，而不是传统的叶片老化迹象。

数据集收集

在北京大兴区弘富农业科技有限公司运营的一个多跨度的温室中，将AUBO i5 6-DOF机器人臂安装在一个轨道移动平台上。在机器人臂的末端执行器上安装了一个Intel RealSense D435深度相机，用于捕捉自然生长的番茄植株的RGB和深度图像。在图像采集过程中，深度相机的光轴与地面平行，垂直距离为0.6–0.8米

YOLOv8姿态和分割模型

训练完成后，使用精确度（P）、召回率（R）和F1分数来评估模型的性能。此外，由于关键点模型和实例分割模型具有多个目标，因此分别对目标边界框/关键点和目标边界框/掩码进行评估。训练结果如表2所示。

YOLOv8姿态模型在边界框检测和关键点定位方面进行了评估。

讨论与结论

为了实现温室环境中番茄植株的自动去叶，本文分析了温室中番茄植株的生长环境和种植条件。结合温室的硬件设备，选择了一种基于2D图像检测和3D空间定位的方法。提出了一种基于YOLOv8和MMsegmentation的网络模型LeafRemoval-YOLO-K。YOLOv8作为主要框架，而MMsegmentation模块被集成进来

CRediT作者贡献声明

张俊雄：撰写 – 审稿与编辑。郭家阳：撰写 – 原始草稿。赵成伟：验证。李伟：可视化。袁婷：监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了北京智能温室蔬菜创新联盟项目（BAIC12-2025）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号