编辑推荐:
本文综述了茶芽自动采收领域面临的感知挑战,并系统性地提出了一个创新的解决方案——TeaNeRF。该研究将茶芽精准采收视为一个集成的三维视觉感知问题,提出了一种面向采收规划的感知管线,巧妙地将二维检测与分割、单目深度估计以及神经辐射场(NeRF)三维重建技术融合贯通。通过在4,700张真实茶园图像数据集上的验证,该方法在检测准确率(mAP@50 = 91.7%)、分割质量(IoU = 0.640)及三维感知性能上均表现出显著提升,最终从重建的语义点云中实现了茶芽精确计数和采收候选点定位,为下游自动化收割系统提供了可靠、结构化的三维空间信息基础。
Introduction
精准的茶芽感知是茶叶智能化、精细化采收规划的基本前提。然而,在实际茶园环境中,由于茶芽目标尺寸小、遮挡严重、背景复杂混乱以及缺乏准确的三维空间信息,实现面向采收规划的可靠感知仍然极具挑战性。为解决这些挑战,本研究提出了TeaNeRF,一个专为采收导向茶芽分析设计的集成三维视觉感知管线。区别于将检测、分割和空间分析作为独立任务,TeaNeRF将顺序的二维识别、单目深度估计和神经辐射场重建整合为一个连贯的感知流程,从而实现对复杂自然场景中茶芽的准确空间理解。该集成主要在感知输出层面进行,通过固定接口连接多个模块化组件,而非联合优化或端到端可训练的形式。所提出的框架结合了增强的基于YOLO的检测器、提示引导分割和单目深度先验,以指导基于NeRF的三维重建。通过结合深度监督和语义感知神经场,TeaNeRF生成密集且几何一致的点云,并具有可靠的语义分离能力。基于重建的语义点云,进一步开发了三维聚类和几何拟合策略,以实现感知层面的茶芽计数和采收导向候选点估计。在包含4,700张茶园图像的真实数据集上进行的实验表明,TeaNeRF在检测准确率、分割质量和整体三维感知性能上均有提升。代表性茶树的案例分析结果表明,所提出的基于3D语义点云的方法可以为下游采收规划提供可行的茶芽计数行为和一致的空间引导线索。通过提供包括茶芽位置、数量和采收候选点在内的结构化三维空间信息,TeaNeRF为自动化茶叶采收系统的下游规划提供了实用的感知级输出。
Materials and methods
Pipeline overview
本研究提出了一种集成的三维视觉感知管线,它整合了茶芽识别、语义分割、计数和面向采收的候选采摘点估计,以支持真实茶园环境中的采收规划和准备。整体工作流程包括:(A) 获取茶树的多视角图像,并使用COLMAP估计相机位姿;(B) 使用YOLOv11检测茶芽,并使用检测结果引导SAM2进行精准语义分割;(C) 应用Depth Anything v2估计单目深度图;(D) 基于图像和深度先验,通过语义NeRF模型重建茶树的三维结构,从中提取芽级点云用于茶芽计数和采收候选点定位。模块选择(YOLOv11、SAM2、Depth Anything V2、NeRF)旨在复杂户外采收环境中平衡准确性、鲁棒性和实际应用性。
Data acquisition
研究聚焦于复杂户外环境下的茶芽图像采集。开发了一个自动图像采集系统,以围绕单棵茶树进行可控旋转,并通过设置采集间隔灵活调整捕获图像的数量。所有图像使用Obsmeet 4K相机捕获,分辨率为3840 × 2160像素,存储在JPG格式中。数据采集于2025年4月在中国湖北省咸宁市崇阳县的自然田间条件下进行。最终数据集包含4700张黄茶茶芽的静态图像,涵盖了多样的视角和遮挡条件。图像中的茶芽目标使用Trex标注工具手动标注,生成用于模型训练的边界框标签。
Data preprocessing
在数据预处理阶段,首先使用COLMAP估计原始图像的相机位姿,从而恢复采集时的几何信息。同时,为了在可用训练数据条件下增强数据多样性并提高基于YOLO的茶芽识别模型的泛化能力,对数据集应用了多种数据增强技术,包括灰度转换、亮度调整、高斯噪声添加、色调饱和度调整和Cutout。这些增强仅用于二维识别模型的训练。对于三维重建过程,不应用数据增强和噪声注入,而是根据光照条件、清晰度等质量指标进一步筛选图像,手动移除过曝、欠曝或低对比度等低质量图像,以确保相机位姿估计和后续神经重建的几何稳定性。筛选后,每组保留的高质量图像数量在168到225张之间。
2D image processing
YOLOv11是新版本的YOLO系列,在实时目标检测任务中结合了准确性、速度和效率。相比其前代,YOLOv11在网络结构和训练策略上进行了深度优化,显著增强了特征提取能力和推理性能。本研究针对YOLOv11引入了多项改进以提升其在茶园复杂环境下的检测性能。首先,采用轻量级的DySample动态上采样模块取代传统的最近邻插值上采样策略。DySample采用基于点的自适应采样机制,根据局部特征响应动态调整采样位置,显著减少了参数数量和计算开销,同时保留了细粒度的空间细节。其次,在YOLOv11骨干网络的C3k2模块中,引入了C3k2_DG-SimAM模块,该模块集成了卷积门控线性单元(CGLU)和简单注意力模块(SimAM)。CGLU通过轻量级的深度门控抑制冗余激活并选择性强调信息性特征响应,而SimAM则在不引入额外可学习参数的情况下,跨空间和通道维度建模神经元级重要性,从而增强特征判别力。最后,引入了一种新的损失函数——innerIoU,用于提高小型、难以定位的茶芽目标的边界框定位精度。InnerIoU不仅评估边界框之间的重叠区域,还进一步考虑预测框与实际框的对齐程度,为目标定位提供了更严格的标准。通过上述改进,检测的准确性和鲁棒性得到了提升。
Image semantic segmentation
Segment Anything Model 2 (SAM2)是Meta AI引入的新一代图像分割模型,在推理效率和分割性能上均优于其前身SAM。SAM2采用更紧凑、高效的架构设计,支持以点、边界框或文本等形式灵活分割感兴趣区域。为实现茶芽区域的精准提取和背景剔除,本研究结合YOLOv11和SAM2构建了高效的语义分割框架。该方法利用YOLOv11提供的目标检测框作为提示,引导SAM2生成相应的掩码,从而克服了SAM2仅输出二进制掩码、缺乏语义标注的限制,完成了语义级的分割。为进一步提高分割掩码的准确性和鲁棒性,引入了基于面积和分割稳定性的过滤策略,以消除不满足阈值要求的掩码区域。同时,使用形态学腐蚀操作优化保留掩码的边缘,去除区域中的小伪影,改善目标轮廓的完整性和清晰度。该方法不仅显著降低了人工标注成本,还提高了复杂环境下茶芽图像的分割精度,为后续目标分析和三维重建提供了可靠基础。
Depth estimation
由于茶树结构复杂、叶片遮挡严重、表面纹理重复度高且易受光照条件影响,传统的基于图像匹配的方法在茶树三维重建中面临巨大挑战。为此,引入高质量深度图可显著提高重建的几何精度和鲁棒性。深度图为每个像素提供空间位置信息,有效缓解了由遮挡、纹理丢失或稀疏特征引起的匹配困难。本研究使用Depth Anything V2模型进行深度估计。该模型是一个基于视觉模型的通用深度估计框架,能够在无监督和弱监督场景下对广泛的自然图像进行高质量深度预测。Depth Anything V2在架构上结合了图像编码器和多尺度深度解码器,具有良好的跨场景泛化能力和对复杂光照及纹理遮挡的鲁棒性。通过将该模型应用于多视角图像,可以为后续三维重建任务提供密集、连续的深度信息,为提高NeRF的训练精度和几何恢复能力提供有力支持。
Tea tree 3D reconstruction
为实现茶树的高质量三维重建,本研究采用了NeRFStudio内的Nerfacto框架。Nerfacto通过优化采样策略和网络设计,提供了神经辐射场的高效实现,在渲染质量和计算效率之间取得了良好的平衡,适用于田间条件下复杂植物结构的高分辨率重建。为提升几何保真度并加速收敛,在训练过程中通过深度监督损失引入了单目深度先验,使模型能更好地捕捉细枝和密集茶芽簇等精细结构。此外,引入了一个语义分支,将Nerfacto从纯外观建模扩展到语义感知的三维重建。语义场预测作为空间位置函数的茶芽概率,使得语义信息与重建几何保持一致对齐。标准的颜色、深度和语义的体积渲染公式与原始NeRF框架保持一致。
Tea bud point cloud processing
与大多数专注于视觉重建或表型分析的现有基于NeRF的农业研究不同,本节介绍了一种面向采收的三维感知策略。通过显式处理芽级语义点云,所提出的方法将三维重建与实际采收任务(包括茶芽计数和采收候选点估计)联系起来。采收候选点从芽级语义点云中获得,为后续的采收规划提供三维空间参考。该设计使得能够从重建的点云中提取可操作的空间线索,为采收导向的应用建立有效的感知基础。
Point cloud processing and bud-level clustering
在聚类分析之前,首先对重建的三维点云进行预处理以去除孤立的噪声点。具体而言,应用基于半径的滤波策略,丢弃在预定义半径内邻点数量不足的点。此步骤有效减少了重建过程中引入的虚假点,提高了后续聚类和几何分析的可靠性。为实现可靠的茶芽实例分离和计数,采用了基于密度的空间聚类算法(DBSCAN)。DBSCAN通过评估预定义邻域内的局部点密度来识别核心点,并将密度可达的点分组为簇,同时自动拒绝稀疏的离群点。通过此过程,单个茶芽被分离为不同的三维簇,每个簇对应一个候选茶芽实例。对于空间尺度较小的簇,应用了额外的合并策略。如果两个簇质心之间的欧氏距离小于茶芽的平均半径,则认为它们属于同一茶芽结构并进行合并。剩余的微小簇通过估计其体积大小进行进一步检查,体积显著小于典型茶芽簇的簇被视为非目标结构并被移除。经过这些步骤后,得到的芽级簇为茶芽计数和后续空间分析提供了稳健的基础。
Harvesting-oriented candidate point estimation
基于上一步获得的芽级点云簇,为每个茶芽估计一个采收导向候选点。此估计旨在提供一个源自感知的、稳定的三维空间参考,而非最终的机器人可执行切割指令。对于每个茶芽簇,首先沿Z轴(垂直方向)对所有点进行排序,并提取最低高度范围(例如,最低的5%)内的点子集。这些点用作采收导向先验下基侧表面区域的几何近似,而非假设固定的解剖学茎-芽连接点。这种代理通常在重建点云中可见基部结构时对应于簇的附着侧,但它不依赖于所有茶芽在全局坐标系中严格向上生长的假设。因此,横向或斜向生长的茶芽仍可被处理。为减轻噪声和孤立极端点的影响,采用了稳健的估计策略。具体而言,对所选的较低子集应用基于RANSAC的平面拟合或局部几何中心估计,为基侧定位提供局部几何先验。拟合平面的几何中心(或在平面拟合退化时估计的局部中心)被作为候选点。与直接选择单个极端点相比,该策略在点云扰动下具有更好的稳定性和可重复性。估计的候选点纯粹源自三维感知,代表了采收导向的引导线索,可以为下游采收规划提供一致的空间参考。
Results
Detection modeling of tea buds
本研究使用精确率(P)、召回率(R)和平均精度(mAP)对检测模型进行评估。消融实验表明,所提出的每个组件(DySample、DG-SimAM、InnerIoU)都对整体检测性能有积极贡献。当组合使用时,所提模型取得了最佳结果,精确率、召回率、mAP@50和mAP@50:95分别达到0.827、0.843、0.917和0.651。与基线YOLOv11n相比,这些值分别提高了5.1%、4.2%、4.8%和2.7%,同时保持了相当的参数量和计算成本。这表明引入的模块不仅增强了特征提取和定位精度,而且在准确性和效率之间取得了良好的权衡。此外,与其他YOLO变体(YOLOv5n、YOLOv8n、YOLOv10n、YOLOv11n)的比较显示,改进后的基于YOLOv11的模型在所有评估指标上均表现出色。特别是在mAP@50:95上的提升表明,在更严格的IoU阈值下,边界框回归更加精确,这对于检测复杂茶园环境中小型、密集分布和部分遮挡的茶芽至关重要。
2D image segmentation
为实现茶芽的语义分割,本研究采用了三种方法进行比较:YOLO+SAM、YOLO+SAM2和自训练的U-Net,并以代表性单阶段实例分割模型Mask R-CNN作为基线。U-Net的训练数据集包括两部分:从捕获数据集中手动标注的60张图像,以及从YOLO+SAM2分割结果中精炼得到的30张额外图像。性能对比结果显示,YOLO+SAM2取得了最高的IoU(0.640)和Dice系数(0.779),同时保持了合理的推理时间(0.511秒)。YOLO+SAM紧随其后,IoU为0.629,Dice为0.771。U-Net速度显著更快(0.013秒)但精度较低(IoU 0.597, Dice 0.747)。Mask R-CNN表现出较低的分割精度(IoU 0.578, Dice 0.725),但计算效率较高(0.028秒)。定性比较显示,YOLO+SAM2在小型和遮挡茶芽的分割上产生更精确的结果,边界描绘优于SAM。U-Net尽管速度快且不依赖提示信息,但在复杂树冠条件下倾向于过度分割茶叶,且难以处理精细或深嵌的茶芽。Mask R-CNN虽然能够直接预测实例级掩码,但在密集遮挡区域通常遭受不完整或碎片化的茶芽分割。总体而言,YOLO+SAM2在分割精度和推理效率之间实现了最佳平衡。
Tea tree 3D reconstruction
本研究采用多模态编码和协作神经网络建模,在重建层面建立了三维空间与二维图像之间的高效映射。具体而言,沿每条射线的空间点(x, y, z)及其对应的视图方向向量d分别使用哈希编码和球谐(SH)编码进行特征提取。哈希编码有效降低了传统位置编码的计算开销,支持高分辨率几何建模,而