随着电子商务领域的快速发展,物流操作对自动化的需求日益增长。包裹卸货尤其劳动密集,并且由于重复性和高强度的任务而存在显著的安全风险。因此,装卸过程的自动化已成为物流行业的一个关键挑战。为此,开发能够稳健识别各种材料和形状的物体(如箱子、麻袋和塑料包装的包裹)并在实时确定精确机器人抓取点的技术至关重要。
尽管基于深度学习的物体检测技术取得了进展,但现代的多尺度检测器设计(融合了金字塔特征和自下而上的路径[1,2]以及具有跨阶段部分连接的高效骨干网络[3])在面对物流环境中未见或不规则形状的包裹(例如箱子、麻袋)时仍存在困难。因此,当遇到物流环境中常见的新型或不规则形状的物品时,它们的性能会下降[[4],[5],[6]]。由于对齐和遮挡的原因,堆叠的箱子通常被视为一个整体[5,7],而麻袋和塑料包装由于其可变形和柔性的特性,在边界检测方面存在困难。这些因素导致了未经训练或非标准物体的识别和抓取成功率较低。
为了克服这些限制,主要探索了两种方法:基于学习的抓取点检测方法和基于几何的抓取点检测方法。基于学习的方法(如DexNet[8]和PointNetGPD[9])利用大规模的3D模拟数据来预测规则物体的高质量抓取。然而,这些模型难以泛化到不规则或未见过的形状。为了解决这个问题,提出了几种基于点云的方法,包括GPD[10]、GraspNet[11]、VGN[12]和Contact-GraspNet[13]。虽然这些方法提高了灵活性,但在涉及传感器噪声、材料变化或部分可见性的条件下,它们的性能往往会下降。
与此同时,也开发了基于几何的方法,这些方法利用平面、曲率和法向量特征来估计可抓取区域。基于RANSAC的平面提取[14]和GraspPose[10]等技术提供了快速且无需训练的解决方案。然而,这些方法在处理复杂的可变形形状(如织物袋)时面临挑战。为了进一步应对物体的物理变化,还提出了基于仿真的方法(如DefGraspSim[15])来模拟变形特性。
除了抓取检测之外,机器人物流中的物体识别技术也有所发展。PointNet++[16]、VoxelNet[17]、PV-RCNN[18]和ImVoteNet[19]等技术在检测规则3D物体(如箱子或消费电子产品)方面表现出高精度。然而,它们仍然难以处理遮挡、形状变化和卡车内部杂乱环境中的视线不良问题[[20],[21],[22]]。例如,Kim等人[23]报告称,在真实的卡车实验中,只能单独识别最顶层的箱子。其他研究[22],[24],[25],[26]在解决重叠问题或识别具有不规则几何形状的物体方面取得了有限的成功。因此,大多数研究仍然集中在规则形状上,很少有解决方案适用于实际世界中的不规则物体处理。
最近,视觉语言模型(VLMs)如CLIP[27]、BLIP[28]和YOLO-World[28]仅使用文本提示即可实现新物体的零样本识别。这些模型适用于物体多样性高且训练数据可用性低的物流环境。特别是YOLO-World,支持实时检测和灵活的语言输入,适用于小批量、高混合的包裹流。然而,在物流场景中,由于光照变化、物体重叠和极端形状变形,仍然存在挑战,这影响了识别性能和一致性[29]。
为了缓解这些问题,已经探索了各种改进措施。提出了使用CLIP[30]的少样本结构、结合3D上下文的语义操作策略[31,32]、多模态抓取方法[[33],[34],[35]]以及基于3D重建的方法(如ZeroGrasp[36])。然而,这些系统通常专注于受限室内环境中的规则物体处理,在处理重叠、柔性或可变形的物品(如箱子和麻袋)的物流任务时仍然有限。
在这项研究中,我们提出了一个集成抓取系统,该系统结合了基于零样本VLM的识别、非最大值抑制(NMS)和基于3D点云的后处理。系统进一步结合了置信度阈值优化和基于规则的抓取点提案策略,以提高对规则和不规则物体的性能。我们的检测模块采用了CSPNet骨干网络,并添加了FPN/PANet聚合层,然后添加了NMS和3D点云后处理,以增强物流特定的稳健性。