集成VLM的3D感知模型，用于实现鲁棒的机器人抓取功能，该模型能够适应具有任意形状的可变形袋子

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Robotics and Autonomous Systems》：VLM-integrated 3D perception model for robust robotic grasping adapted to deformable sacks with arbitrary shapes

【字体：大中小】 时间：2026年02月11日 来源：Robotics and Autonomous Systems 5.2

编辑推荐：

　　基于零样本视觉语言模型的物流包裹自适应抓取系统研究

Seongje Kim | Jonghun Yoon

汉阳大学机械设计工程系/材料、设备与专业，韩国首尔城东区王辛尼路222号，邮编04763

摘要

本研究提出了一个集成视觉语言和3D感知的系统，用于稳健地抓取非标准物流包裹，包括未经训练的箱子和可变形的麻袋。为了解决传统识别模型在处理未见或形状不规则物体时的局限性，我们提出了一个基于视觉语言模型（VLM）的零样本物体识别框架，并结合了置信度阈值优化和非最大值抑制（NMS）算法以提高检测可靠性。该系统进一步结合了基于3D点云的后处理技术，以提取适用于刚性和可变形物体几何形状的精确抓取点。所提出的方法在检测未经训练的箱子和麻袋时，平均精度（mAP）达到了80.1%；在使用协作机器人的实际卸货场景中，箱子的抓取成功率为99.0%，可变形麻袋的抓取成功率为73.0%。与需要对新物体类型进行大量重新训练的先前方法不同，该系统能够实现通用化的实时抓取，无需额外的数据集准备。在3D空间中混合使用基于规则和学习的方法，有助于在不同类型的物体之间选择稳定的抓取点。这项工作证明了零样本识别和抓取非标准物流物品的可行性，为动态工业环境中的自动化包裹卸货提供了一种实用的解决方案。

引言

随着电子商务领域的快速发展，物流操作对自动化的需求日益增长。包裹卸货尤其劳动密集，并且由于重复性和高强度的任务而存在显著的安全风险。因此，装卸过程的自动化已成为物流行业的一个关键挑战。为此，开发能够稳健识别各种材料和形状的物体（如箱子、麻袋和塑料包装的包裹）并在实时确定精确机器人抓取点的技术至关重要。

尽管基于深度学习的物体检测技术取得了进展，但现代的多尺度检测器设计（融合了金字塔特征和自下而上的路径[1,2]以及具有跨阶段部分连接的高效骨干网络[3]）在面对物流环境中未见或不规则形状的包裹（例如箱子、麻袋）时仍存在困难。因此，当遇到物流环境中常见的新型或不规则形状的物品时，它们的性能会下降[[4],[5],[6]]。由于对齐和遮挡的原因，堆叠的箱子通常被视为一个整体[5,7]，而麻袋和塑料包装由于其可变形和柔性的特性，在边界检测方面存在困难。这些因素导致了未经训练或非标准物体的识别和抓取成功率较低。

为了克服这些限制，主要探索了两种方法：基于学习的抓取点检测方法和基于几何的抓取点检测方法。基于学习的方法（如DexNet[8]和PointNetGPD[9]）利用大规模的3D模拟数据来预测规则物体的高质量抓取。然而，这些模型难以泛化到不规则或未见过的形状。为了解决这个问题，提出了几种基于点云的方法，包括GPD[10]、GraspNet[11]、VGN[12]和Contact-GraspNet[13]。虽然这些方法提高了灵活性，但在涉及传感器噪声、材料变化或部分可见性的条件下，它们的性能往往会下降。

与此同时，也开发了基于几何的方法，这些方法利用平面、曲率和法向量特征来估计可抓取区域。基于RANSAC的平面提取[14]和GraspPose[10]等技术提供了快速且无需训练的解决方案。然而，这些方法在处理复杂的可变形形状（如织物袋）时面临挑战。为了进一步应对物体的物理变化，还提出了基于仿真的方法（如DefGraspSim[15]）来模拟变形特性。

除了抓取检测之外，机器人物流中的物体识别技术也有所发展。PointNet++[16]、VoxelNet[17]、PV-RCNN[18]和ImVoteNet[19]等技术在检测规则3D物体（如箱子或消费电子产品）方面表现出高精度。然而，它们仍然难以处理遮挡、形状变化和卡车内部杂乱环境中的视线不良问题[[20],[21],[22]]。例如，Kim等人[23]报告称，在真实的卡车实验中，只能单独识别最顶层的箱子。其他研究[22],[24],[25],[26]在解决重叠问题或识别具有不规则几何形状的物体方面取得了有限的成功。因此，大多数研究仍然集中在规则形状上，很少有解决方案适用于实际世界中的不规则物体处理。

最近，视觉语言模型（VLMs）如CLIP[27]、BLIP[28]和YOLO-World[28]仅使用文本提示即可实现新物体的零样本识别。这些模型适用于物体多样性高且训练数据可用性低的物流环境。特别是YOLO-World，支持实时检测和灵活的语言输入，适用于小批量、高混合的包裹流。然而，在物流场景中，由于光照变化、物体重叠和极端形状变形，仍然存在挑战，这影响了识别性能和一致性[29]。

为了缓解这些问题，已经探索了各种改进措施。提出了使用CLIP[30]的少样本结构、结合3D上下文的语义操作策略[31,32]、多模态抓取方法[[33],[34],[35]]以及基于3D重建的方法（如ZeroGrasp[36]）。然而，这些系统通常专注于受限室内环境中的规则物体处理，在处理重叠、柔性或可变形的物品（如箱子和麻袋）的物流任务时仍然有限。

在这项研究中，我们提出了一个集成抓取系统，该系统结合了基于零样本VLM的识别、非最大值抑制（NMS）和基于3D点云的后处理。系统进一步结合了置信度阈值优化和基于规则的抓取点提案策略，以提高对规则和不规则物体的性能。我们的检测模块采用了CSPNet骨干网络，并添加了FPN/PANet聚合层，然后添加了NMS和3D点云后处理，以增强物流特定的稳健性。

实验条件

实验旨在验证所提出系统在类似物流环境中的识别和抓取性能，特别是对于非标准、可变形和重叠的物体。为了确保评估的现实性和可重复性，实验条件分为两个部分：（1）测试环境和物体规格；（2）系统配置和评估指标。

系统概述

图2和图3中提出的系统由三个主要模块组成：（1）不规则物体识别模块；（2）使用3D点云进行个体物体隔离的分割模块；（3）针对分割后的物体的抓取点提取模块。首先，基于YOLO-World和通过RGB-D相机获取的颜色图像及深度信息进行零样本物体识别。随后应用非最大值抑制（NMS）[37]后处理

检测性能

为了模拟包含箱型和可变形麻袋型包裹的的真实物流卸货环境，从实际装载现场收集了100张RGB图像。使用LabelMe工具[45]生成了真实注释，共得到1,280个边界框，其中1,024个对应于刚性箱型物体，256个对应于柔性麻袋型物体。该数据集的构建旨在实现对物体检测性能的全面定量评估

结论

本研究提出了一个稳健且适应性强的自动化包裹卸货系统，有效解决了现有基于学习的方法在处理不规则、可变形和重叠物流物体时的关键限制。通过将预训练的视觉语言模型与包括置信度阈值优化和增强型非最大值抑制（NMS）的双重后处理流程相结合，该系统在物体检测和

资金支持

本工作得到了韩国政府（MSIT）资助的韩国国家研究基金会（NRF）（RS-2025-00555072）的支持。作者没有需要声明的利益冲突。本研究得到了韩国贸易、工业和能源部（MOTIE）的财政支持，该项目属于“170k封闭截面滚压和电动汽车车身自由曲率弯曲技术开发”（参考编号20022814）计划，由韩国先进技术研究院监督

CRediT作者贡献声明

Seongje Kim：撰写——原始草稿、验证、软件、方法论、概念化。Jonghun Yoon：监督、项目管理、资金获取、概念化。

联系信箱：

粤ICP备09063491号

摘要

引言

实验条件

系统概述

检测性能

结论

资金支持

CRediT作者贡献声明

热点排行