利用无锚点推理和图推理框架进行密集茶芽的检测以及采摘点的识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Exploiting anchor-free and graph reasoning framework for dense tea bud detection and picking point identification

【字体：大中小】 时间：2026年05月11日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　沈志业|蔡英虎|袁凯雷|刘斌|甄文斌|马瑞军|齐龙华南农业大学工程学院，广州510642，中国摘要准确检测茶芽并识别采摘点是实现自动化茶叶采摘的关键。然而，在自然种植环境中，由于茶芽密集聚集、空间分布不规则以及频繁遮挡，这些任务仍然十分困难。为了解决这些问题，

　　沈志业|蔡英虎|袁凯雷|刘斌|甄文斌|马瑞军|齐龙
华南农业大学工程学院，广州510642，中国

摘要
准确检测茶芽并识别采摘点是实现自动化茶叶采摘的关键。然而，在自然种植环境中，由于茶芽密集聚集、空间分布不规则以及频繁遮挡，这些任务仍然十分困难。为了解决这些问题，本研究提出了一个两阶段感知框架，该框架将无锚点密集茶芽检测与图推理方法相结合，以准确识别采摘点。在第一阶段，采用无锚点密集茶芽检测策略，以避免在拥挤场景中分配不稳定的锚点。该策略结合了边界框精细化和交并比（IoU）类别分数，使检测置信度与几何精度保持一致。在第二阶段，利用精细化检测结果作为遮挡采摘点识别模块的结构线索。通过引入具有相对位置损失的功能图层，可以建模采摘点与辅助地标之间的空间依赖关系，从而基于学习到的结构线索推断出被遮挡的目标。在包含5001张图像的定制数据集上的实验表明，与同类方法相比，所提出的框架在相同评估协议下取得了具有竞争力的性能。具体来说，其在密集检测方面的平均精确度（mAP）为60.9%，在遮挡采摘点识别方面的mAP为96.2%。该框架已部署在嵌入式计算设备上，检测速度达到每秒28.50帧（FPS），采摘点识别速度为每个茶芽8.88毫秒。这些结果证明了其在实际茶叶采摘应用中的可行性。

引言
茶是全球消费最广泛的饮品之一，因其独特的风味和显著的健康益处而备受推崇（张勇等，2025年）。然而，随着全球茶叶产量的持续增加，该行业面临着劳动力成本上升和熟练采摘工人短缺的双重挑战。这些挑战在优质茶叶的生产中尤为突出，因为优质茶叶需要严格的质量标准，并且必须在有限的季节窗口内采摘以确保新鲜度和产品质量。传统的优质茶叶采摘仍然主要依赖人工劳动，这不仅体力要求高、耗时长，而且难以保持稳定的精度和及时性。因此，自动化茶叶采摘机器人已成为提高采摘效率和支持茶叶产业可持续发展的重要技术途径。

在自动化茶叶采摘机器人中，视觉感知是机器人操作的关键前提，因为茶芽检测的准确性和采摘点定位的准确性直接影响采摘的质量和成功率（沈志业等，2026年）。然而，自然茶叶种植环境非常复杂。茶芽通常以密集的簇状生长，空间分布不规则，且其采摘点经常被相邻的茶芽、嫩叶或成熟叶片遮挡。这些特征使得视觉算法难以分离单个茶芽并准确推断出相应的采摘点。因此，实用的自动化优质茶叶采摘系统不仅要能够可靠地检测密集的茶芽，还要能够识别被遮挡的采摘点，并保持计算效率以支持机器人的部署。

近期基于深度学习的茶芽感知研究大致可以分为三个技术方向。第一个方向专注于使用CNN和YOLO基检测器改进茶芽检测。代表性研究通过增强特征提取、多尺度融合和轻量级检测来应对自然种植环境中小型、密集且视觉上相似的茶丛（例如，基于YOLOv5的轻量级模型YOLOX-S、YOLOv7-LEES和YOLOv8检测器已在复杂田间条件下提高了检测精度和效率（桂勇等，2023年；林伟等，2023年；刘丹等，2025年；刘志等，2025年）。这些方法展示了现代单阶段检测器在茶芽定位方面的有效性。

第二个方向试图通过引入更丰富的表示方式（如多模态融合和基于变换器的全局建模）来增强鲁棒性。基于RGB-D的茶芽检测利用互补的深度信息来弥补RGB图像在复杂背景下的局限性，而基于变换器的框架则改善了长距离依赖关系建模和全局特征表示（吴刚等，2024年；王明等，2026年）。这些研究拓宽了茶芽检测器的特征表示能力，有助于处理复杂的视觉条件。此外，最近的通用检测框架（龚勇等，2025年；鲍鹏等，2025年；Mehta和Kukreja，2026年；李伟等，2025年；唐红等，2025年），如Hyper-YOLO（冯刚等，2025年），进一步表明高阶特征交互和跨层次表示学习可以提高密集物体的检测性能。尽管这些方法提高了表示能力和检测鲁棒性，但它们主要是为对象级检测设计的，通常产生边界框输出。因此，它们并没有明确解决机器人茶叶采摘所需的采摘点识别问题，尤其是在遮挡或视觉条件不明确的情况下。

第三个方向将采摘点定位纳入机器人采摘的感知流程中。一些研究结合深度学习检测与3D重建或传统图像处理来估计空间采摘位置（李伟等，2023年；朱明等，2023年；余刚等，2025年）。其他研究则基于Mask R-CNN、改进的YOLOv5或Swin Transformer进行联合检测和采摘点定位（程刚等，2023年；帅强等，2023年；潘剑等，2024年）。这些方法增强了视觉感知与机器人操作之间的联系。然而，许多方法仍依赖于点云重建、预定义的几何假设、分割输出或基于形态学的后处理。因此，它们的遮挡处理主要基于外观增强或基于规则的估计，而不是茶芽组分之间的显式结构推理。当采摘点被重叠的叶子或相邻茶芽部分或完全遮挡时，直接回归或基于形态学的估计可能会变得不稳定。为了进一步明确所提出框架与最新研究的相对位置，表1从任务设置、检测范式、密集对象处理、遮挡或采摘点策略、计算复杂性和部署证据等方面总结了代表性方法。

由于这些研究使用不同的数据集、注释标准、硬件平台和运行时设置进行了评估，因此它们的报告准确性和FPS值无法直接比较。因此，表1用于方法论定位，而在同一数据集上的受控性能比较在第3节中报告。如表1所示，近期研究从不同角度改进了茶芽检测和采摘点定位，包括基于轻量级YOLO的检测、无锚点检测、基于变换器的表示、RGB-D融合和基于形态学的采摘点估计。这些方法有助于提高检测精度、特征表示和计算效率。然而，比较也揭示了三个局限性：首先，许多以检测为导向的方法主要关注边界框级别的茶芽定位，而下游的采摘点识别需求尚未得到明确解决；其次，现有的采摘点定位方法主要依赖于3D重建、分割、注意力增强特征或基于形态学的规则，但它们很少建模茶芽、叶片、辅助地标和采摘点之间的结构依赖关系；第三，虽然报告了一些轻量级或面向部署的模型，但在机器人采摘平台上的系统验证仍然有限。

这些局限性在优质茶叶采摘中尤为重要。在密集的茶叶种植环境中，这些局限性更加明显。如图1所示，相邻的茶芽可能会严重重叠，一个茶芽的边界框可能会干扰另一个茶芽的边界框。对于依赖NMS的检测流程，这种重叠可能导致检测漏失或错误抑制。更重要的是，即使茶芽被正确检测到，由于其被相邻茶芽或成熟叶片遮挡，其采摘点也可能不可见。这表明密集茶芽检测和遮挡采摘点识别应被视为耦合的感知问题，而不是两个独立的任务。为了解决这些问题，本研究提出了DOTNet，这是一种专为自然茶叶种植环境中的密集茶芽检测和遮挡采摘点识别设计的两阶段感知框架。在第一阶段，开发了一个无锚点密集茶芽检测（DTDet）模块，以提高密集分布茶芽场景中的定位可靠性。通过结合边界框精细化和交并比（IoU）类别分数，DTDet使检测置信度与几何定位质量保持一致，并减少了由于密集重叠造成的不确定性。在第二阶段，开发了一个遮挡采摘点识别（OPIdent）模块，从检测到的茶芽区域推断采摘点。OPIdent不仅依赖于局部视觉外观，还利用了具有相对位置损失的功能图层和辅助地标来建模采摘点之间的空间依赖关系。通过这种方式，可以利用可见的结构线索推断出部分被遮挡的采摘点。此外，DOTNet已在机器人茶叶采摘平台上进行了部署和评估，为其在自动化茶叶采摘中的实际应用提供了系统级别的证据。

本文的主要贡献总结如下：
（1）提出了一种两阶段感知框架，将无锚点密集茶芽检测与基于图的结构推理相结合，能够在密集和遮挡的田间条件下实现茶芽检测和采摘点识别。
（2）设计的密集茶芽检测（DTDet）模块采用无锚点架构，结合边界框精细化和IoU类别分数，以提高定位可靠性并减少密集聚集茶芽场景中的检测不确定性。
（3）开发的遮挡采摘点识别（OPIdent）模块能够建模采摘点与辅助地标之间的空间依赖关系。通过利用学习到的结构关系，OPIdent可以在有限的视觉线索下更可靠地推断出被遮挡的采摘点。
（4）该框架已在机器人茶叶采摘平台上部署并在真实种植条件下进行了评估，证明了其在实际自动化茶叶采摘中的潜力。

本文的其余部分结构如下：第2节介绍了本研究使用的材料并详细说明了DOTNet的实现方式。第3节进行了广泛实验以评估其性能。第4节讨论了局限性并概述了未来的工作。最后，第5节总结了本文。

数据集构建
在本研究中，选择了广泛种植的大叶红茶品种英红IX作为实验对象。所有图像均来自中国广东省清远市的广东省农业科学院茶叶研究所（如图2所示）。2023年6月初至2025年6月底，使用iPhone 12、iPhone 14和Okulo P1 RGB-D相机共拍摄了5001张茶芽图像。所有图像均保存为JPEG格式。

实验细节
DOTNet的训练过程分为两个阶段。在第一阶段，使用SGD优化器进行DTDet训练，初始学习率为1e?2，权重衰减为1e?4，批量大小为16，训练进行了24个周期。在第二阶段，使用Adam优化器对OPIdent进行优化，初始学习率为5e?4，权重衰减为1e?4，批量大小为16，训练进行了210个周期。

讨论
所提出的DOTNet框架通过联合实现密集茶芽检测和遮挡采摘点识别，为自动化茶叶采摘提供了有效的感知解决方案。实验结果表明，该框架在复杂的田间环境中能够实现可靠的性能，并在检测准确性和计算效率方面与同类方法具有竞争力。现场实验进一步证实了其在实际应用中的可行性。

结论
在本研究中，我们提出了DOTNet，这是一种两阶段感知框架，它结合了无锚点检测和基于图的推理，以应对自动化茶叶采摘中的密集分布和遮挡问题。通过将感知任务分解为密集茶芽检测和采摘点识别，所提出的方法有效平衡了定位可靠性和结构推断。首先，无锚点密集茶芽检测（DTDet）模块解决了……

作者贡献声明
沈志业：撰写——原始草稿、可视化、方法论、数据整理、概念化。
蔡英虎：验证、软件、概念化。
袁凯雷：软件、数据整理。
刘斌：可视化、数据整理。
甄文斌：项目管理和协调、数据整理、概念化。
马瑞军：撰写——审阅与编辑、监督、资金获取、正式分析。龙琪：写作——审稿与编辑、监督、资源、利益冲突声明
作者声明他们没有已知的、可能影响本文所述工作的财务利益或个人关系。

致谢
本研究得到了广东省科技计划（2023B0202120001）、广东省现代农业产业技术创新体系建设项目（以农产品为单元，茶产业技术创新体系）（2026CXTD11）、国家自然科学基金（62302171）以及广东省自然科学基金（2025A1515012858）的支持。

联系信箱：

粤ICP备09063491号

热点排行