《Artificial Intelligence in Agriculture》:From pixels to points: An AI framework with weaker-and-fewer-labels for lightweight 3D phenotyping using 2D-3D coordinate mapping and VLMs
编辑推荐:
本研究针对传统3D植物表型分析依赖人工标注、计算复杂的问题,提出了一种融合视觉语言模型(VLM)与2D-3D坐标映射的轻量化AI框架。通过双目相机采集顶视RGB图像与点云数据,利用提示词“plant”驱动Grounding DINO和SAM模型自动生成掩膜,并迁移至轻量级YOLO11-segment模型实现高效推理。该方法在稀疏冠层条件下,株高和冠幅的RMSE分别达1.7 cm和1.0 cm,显著降低标注依赖与计算复杂度,为番茄优良品种高通量筛选提供了技术支持。
番茄作为全球三大贸易蔬菜之一,在设施农业中具有重要经济价值。幼苗期的表型特征直接影响后期产量与抗逆性,但传统人工测量方法效率低、主观性强。尽管基于RGB图像和二维卷积神经网络(2D-CNN)的植物表型分析技术因成本低、速度快而被广泛应用,但其无法获取三维形态信息,且依赖参考物进行像素换算,难以直接获取物理尺寸。而激光雷达(LiDAR)和多视角成像等三维技术虽能重建点云,却面临设备成本高、数据处理复杂、依赖密集标注等瓶颈。
为突破这些限制,南京林业大学的研究团队在《Artificial Intelligence in Agriculture》发表论文,提出了一种名为“从像素到点”的轻量化AI框架。该研究通过整合2D-3D坐标映射与视觉语言模型(VLM),仅需单视角数据即可实现番茄幼苗三维表型参数的高效重建与分析。研究采用ZED mini2双目相机采集顶视RGB图像与空间对齐的点云数据,利用Grounding DINO模型通过文本提示“plant”自动生成边界框,再通过Segment Anything Model(SAM)生成分割掩膜,极大减少了人工标注需求。这些弱标注数据进一步迁移至仅5.8 MB的YOLO11-segment模型,实现边缘设备的高效推理。核心创新在于通过2D掩膜驱动3D点云分割,避免了复杂3D神经网络的使用。
关键技术方法包括:(1)基于双目相机的2D图像与3D点云同步采集;(2)利用VLM(Grounding DINO+SAM)实现零样本植物掩膜生成;(3)通过坐标映射公式将2D像素坐标(u,v)与3D点云坐标(X,Y,Z)关联;(4)采用旋转卡尺算法计算冠幅,结合超绿指数(ExG)优化掩膜精度;(5)针对密集冠层植株,引入棋盘格参考平面提升株高测量精度。
3.1. 番茄幼苗检测与分割
通过对比YOLO系列模型,GD+YOLOv11在检测任务中达到最高mAP50=97.2%,其生成的边界框作为SAM的输入,最终分割模型mAP50达96.0%。通过ExG特征分割与形态学处理,有效去除非目标杂质,提升掩膜质量。
3.2. 番茄幼苗点云分割
基于2D掩膜与坐标映射的3D点云分割方法,在边缘设备上仅需0.14秒/株,较PointNet++语义分割速度提升十倍以上(AP=0.949)。
3.3. 表型参数提取结果
与人工测量相比,稀疏冠层植株的株高与冠幅计算R2分别达0.93和0.95,RMSE为1.7 cm和1.0 cm。对于密集冠层样本,引入参考棋盘格后株高RMSE从9.57 cm降至2.07 cm。
3.4. 边缘设备计算效率
在NVIDIA Jetson Orin NX上,该方法处理含20株植物的图像-点云对仅需6.7秒,显著优于传统3D分割方法(>120秒)。
研究结论表明,该框架通过弱标注与轻量化设计,实现了番茄幼苗三维表型参数的高精度、低成本提取。其创新性体现在三个方面:一是利用VLM减少标注依赖,二是通过2D驱动3D分割降低计算复杂度,三是适配边缘设备部署。局限性在于对极小幼苗点云重建不足,且存在点云漂移问题。未来可通过加权点云置信度优化参数测量精度,并扩展至其他作物表型分析。该技术为设施农业的智能化管理、优良品种筛选提供了实用化工具。