ResFuNet：一种基于视觉的鲁棒检测框架，用于机器人抓取姿态估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：ResFuNet: A robust vision-based detection framework for robotic grasp pose estimation

【字体：大中小】 时间：2026年05月10日 来源：Displays 3.4

编辑推荐：

　　王旭健|方明|王白阳|王新笛|杨洋|王洪俊中国山东大学国家精英工程师研究生院，济南摘要机器人抓取需要精确的感知和可靠的抓取姿态检测，尤其是在处理对边缘敏感的物体和复杂场景时。实现具有强泛化能力的高精度抓取姿态检测仍然具有挑战性。为了解决这个问题，我们提出了基于

　　王旭健|方明|王白阳|王新笛|杨洋|王洪俊
中国山东大学国家精英工程师研究生院，济南

摘要
机器人抓取需要精确的感知和可靠的抓取姿态检测，尤其是在处理对边缘敏感的物体和复杂场景时。实现具有强泛化能力的高精度抓取姿态检测仍然具有挑战性。为了解决这个问题，我们提出了基于视觉的抓取姿态估计框架ResFuNet。ResFuNet采用ResNet18作为主干网络来提取RGB-D图像的多尺度特征，并整合了三个关键模块：（i）一种新颖的融合注意力机制，以提高高级特征的区分能力；（ii）带有可变形卷积的增强型特征金字塔网络解码器，以提高对物体轮廓检测的敏感性；（iii）自适应接收场模块，用于动态优化空间特征表示。引入了一种动态权重损失函数来平衡多个优化目标。在Cornell和Jacquard基准数据集上的全面评估表明，ResFuNet实现了具有竞争力的检测精度。具体来说，它在Cornell数据集上表现出色，并在Jacquard数据集上保持了较高的精度和高效的推理速度。此外，使用UR5机械臂进行的实际实验验证了该框架的鲁棒性和泛化能力，特别是在对边缘敏感的抓取场景中。这些结果突显了ResFuNet作为有效的基于视觉的机器人抓取检测方法的潜力。

引言
机器人抓取技术在工业自动化、医疗康复和日常生活中发挥着越来越重要的作用[1]、[2]、[3]。然而，要实现高效和自主的抓取操作，需要精确的感知和可靠的抓取姿态估计，尤其是在处理对边缘敏感的物体时。在这些场景中，有效的可抓取区域通常很窄且位于物体轮廓附近。姿势检测的微小偏差可能导致碰撞或抓取失败。因此，本工作的核心问题是如何实现高精度的抓取检测，以便有效区分物体轮廓和背景杂乱。早期的两阶段方法[4]、[5]计算要求较高，而单阶段回归模型[6]往往牺牲了精度。尽管后续的基于区域的网络[7]、[8]、[9]提高了检测性能，但它们引入了额外的架构复杂性，且缺乏足够的质量评估指标，可能导致抓取规划不佳[10]。基于学习的方法已经推动了该领域的发展[4]、[11]，但在现有框架中，建立视觉信息和抓取姿态之间的可靠映射仍然具有三个主要限制：
•特征融合不足：将高级语义特征和低级空间特征融合的策略仍然很原始。大多数方法采用简单的串联[12]，这无法保留对边缘敏感物体所需的细粒度边缘信息。
•固定接收场：标准卷积操作具有固定的接收场，使得难以适应不规则物体的几何变化[13]、[14]。
•多任务优化不平衡：多任务训练中损失（位置、角度、宽度）的固定权重通常会妨碍收敛，导致分类性能不佳。

为了提高抓取检测精度并应对这些挑战，本文介绍了ResFuNet。该网络处理RGB-D输入图像以预测抓取质量、旋转角度和开口宽度。与现有方法相比，ResFuNet引入了融合注意力机制，以有效聚焦于信息丰富的区域或边缘。该方法还探讨了物体的多尺度特征融合问题，使用Enhanced FPN和ARF模块在不同尺度上进行特征提取和融合。在Cornell和Jacquard数据集上，ResFuNet在参数数量减少的情况下实现了更高的精度。通过UR5机械臂的抓取测试进一步验证了其泛化能力和操作效果。

本文的主要贡献可以总结如下：
•本文提出了一种新颖的基于视觉的机器人抓取姿态估计框架ResFuNet。该框架结合了ContourAware融合解码器以提高轮廓感知能力，自适应接收场（ARF）模块用于动态优化空间特征表示，并采用动态权重损失函数来平衡多个优化目标。
•本文证明了ResFuNet在两个广泛使用的公共数据集（Cornell和Jacquard）上实现了具有竞争力的估计精度和鲁棒性，验证了其泛化能力。
•本文在UR5机械臂上进行了全面的实际实验，定量确认了ResFuNet在实际机器人抓取场景中的有效性和鲁棒性，尤其是在处理对边缘敏感的物体时。

章节片段
**机器人抓取检测的深度学习方法**
机器学习的进步使得深度学习算法在机器人技术中得到了广泛应用[10]、[15]、[16]、[17]。早期的方法将抓取检测视为分类或回归问题。Lenz等人[15]提出了一种两阶段抓取检测方法：第一个网络生成抓取候选项，然后第二个网络从这些候选项中识别出最优抓取姿态。然而，这种方法由于滑动窗口搜索而消耗大量计算时间。

**抓取表示**
在基于RGB-D图像的抓取检测任务中，抓取矩形的定义至关重要。许多研究已经探讨了这个问题[7]、[8]、[9]、[15]、[28]。其中，[29]提出了一种广泛采用的表示方法，定义为：g={x,y,h,w,θ}，其中(x,y)指定抓取矩形的中心坐标，θ定义其旋转角度，(w,h)分别表示夹持器的宽度和高度。这种表示有效地捕捉了抓取的位置信息。

**数据集**
已经建立了大量带有抓取矩形的公共抓取数据集，其中Cornell数据集[15]是最广泛使用的实际平面抓取数据集，用于评估网络性能。Jacquard数据集[30]是第二普遍的基准数据集，其规模是Cornell的50倍，并提供了更多的物体多样性。所提出的方法在两个数据集上都进行了评估。

**结果**
我们将提出的网络与五种最新的先进（SOTA）深度学习方法进行了基准测试，以评估其性能。抓取性能使用Cornell和Jacquard数据集进行评估。

**讨论**
为了验证所提出的自适应权重损失的有效性，我们使用原始的简单加性损失和固定权重损失进行了消融实验，而不是自适应损失。具体的实验结果如表7所示。loss1表示所有损失权重均为1，loss2表示不同的损失被分配了不同的权重，proposed表示自适应权重损失。结果显示，固定权重的损失比自适应权重的损失具有更好的收敛效果。

**结论**
在本文中，我们提出了基于编码器-解码器的新型机器人抓取姿态估计框架ResFuNet。通过整合多尺度特征融合、通过自适应接收场模块增强轮廓感知以及动态权重损失函数，ResFuNet有效地提高了抓取姿态估计的精度和鲁棒性。在Cornell和Jacquard数据集上的广泛评估表明，ResFuNet实现了具有竞争力的性能。

**未引用的参考文献**
[37]、[38]、[39]、[40]

**利益冲突声明**
作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

热点排行