基于弱标注与2D-3D坐标映射的轻量化番茄幼苗三维表型分析AI框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Artificial Intelligence in Agriculture》：From pixels to points: An AI framework with weaker-and-fewer-labels for lightweight 3D phenotyping using 2D-3D coordinate mapping and VLMs

【字体：大中小】 时间：2026年02月06日 来源：Artificial Intelligence in Agriculture 12.4

编辑推荐：

　　本研究针对传统3D植物表型分析依赖人工标注、计算复杂的问题，提出了一种融合视觉语言模型（VLM）与2D-3D坐标映射的轻量化AI框架。通过双目相机采集顶视RGB图像与点云数据，利用提示词“plant”驱动Grounding DINO和SAM模型自动生成掩膜，并迁移至轻量级YOLO11-segment模型实现高效推理。该方法在稀疏冠层条件下，株高和冠幅的RMSE分别达1.7 cm和1.0 cm，显著降低标注依赖与计算复杂度，为番茄优良品种高通量筛选提供了技术支持。

番茄作为全球三大贸易蔬菜之一，在设施农业中具有重要经济价值。幼苗期的表型特征直接影响后期产量与抗逆性，但传统人工测量方法效率低、主观性强。尽管基于RGB图像和二维卷积神经网络（2D-CNN）的植物表型分析技术因成本低、速度快而被广泛应用，但其无法获取三维形态信息，且依赖参考物进行像素换算，难以直接获取物理尺寸。而激光雷达（LiDAR）和多视角成像等三维技术虽能重建点云，却面临设备成本高、数据处理复杂、依赖密集标注等瓶颈。

为突破这些限制，南京林业大学的研究团队在《Artificial Intelligence in Agriculture》发表论文，提出了一种名为“从像素到点”的轻量化AI框架。该研究通过整合2D-3D坐标映射与视觉语言模型（VLM），仅需单视角数据即可实现番茄幼苗三维表型参数的高效重建与分析。研究采用ZED mini2双目相机采集顶视RGB图像与空间对齐的点云数据，利用Grounding DINO模型通过文本提示“plant”自动生成边界框，再通过Segment Anything Model（SAM）生成分割掩膜，极大减少了人工标注需求。这些弱标注数据进一步迁移至仅5.8 MB的YOLO11-segment模型，实现边缘设备的高效推理。核心创新在于通过2D掩膜驱动3D点云分割，避免了复杂3D神经网络的使用。

关键技术方法包括：（1）基于双目相机的2D图像与3D点云同步采集；（2）利用VLM（Grounding DINO+SAM）实现零样本植物掩膜生成；（3）通过坐标映射公式将2D像素坐标（u,v）与3D点云坐标（X,Y,Z）关联；（4）采用旋转卡尺算法计算冠幅，结合超绿指数（ExG）优化掩膜精度；（5）针对密集冠层植株，引入棋盘格参考平面提升株高测量精度。

3.1. 番茄幼苗检测与分割

通过对比YOLO系列模型，GD+YOLOv11在检测任务中达到最高mAP₅₀=97.2%，其生成的边界框作为SAM的输入，最终分割模型mAP₅₀达96.0%。通过ExG特征分割与形态学处理，有效去除非目标杂质，提升掩膜质量。

3.2. 番茄幼苗点云分割

基于2D掩膜与坐标映射的3D点云分割方法，在边缘设备上仅需0.14秒/株，较PointNet++语义分割速度提升十倍以上（AP=0.949）。

3.3. 表型参数提取结果

与人工测量相比，稀疏冠层植株的株高与冠幅计算R²分别达0.93和0.95，RMSE为1.7 cm和1.0 cm。对于密集冠层样本，引入参考棋盘格后株高RMSE从9.57 cm降至2.07 cm。

3.4. 边缘设备计算效率

在NVIDIA Jetson Orin NX上，该方法处理含20株植物的图像-点云对仅需6.7秒，显著优于传统3D分割方法（>120秒）。

研究结论表明，该框架通过弱标注与轻量化设计，实现了番茄幼苗三维表型参数的高精度、低成本提取。其创新性体现在三个方面：一是利用VLM减少标注依赖，二是通过2D驱动3D分割降低计算复杂度，三是适配边缘设备部署。局限性在于对极小幼苗点云重建不足，且存在点云漂移问题。未来可通过加权点云置信度优化参数测量精度，并扩展至其他作物表型分析。该技术为设施农业的智能化管理、优良品种筛选提供了实用化工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号