视觉-触觉融合的类人手机器人抓取控制深度强化学习框架EP-DDPG

《Biomedical Signal Processing and Control》:EP-DDPG: A deep reinforcement learning framework for visual-tactile fusion in grasping control of humanoid robotic hand

【字体: 时间:2026年02月21日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  本研究针对非结构化环境下五指仿人手机器人灵巧抓取任务中视觉与触觉模态信息融合不足的挑战,提出了一种新颖的深度强化学习框架EP-DDPG。该框架通过融合视觉与触觉感知、引入熵正则化和优先经验回放机制,显著提升了机器人的自主学习和抓取控制能力。实验结果表明,该框架在仿真和真实实验中均实现了高成功率和优异的泛化性能,为解决非结构场景下的机器人感知与操控一体化问题提供了创新思路。

  
灵巧的抓取是机器人完成各种精细操作任务的基础。然而,在非结构化的现实环境中,面对形状、重量、材质未知的物体,传统的基于规则和模型的方法显得力不从心。尽管深度强化学习为机器人自主学习抓取策略开辟了新路径,但大多数研究要么仅依赖视觉信息进行粗略定位,无法精确控制指尖力度;要么只使用触觉反馈来调整抓握,缺乏对物体全局状态的感知。如何有效融合这两种互补的感知模态,使仿人手机器手能像人手一样,既能“看”得见物体姿态,又能“感受”到接触力,从而实现稳定、自适应、类人的抓取,成为当前机器人研究领域亟待攻克的难题。正是为了解决这一挑战,来自山东大学的研究团队在《Biomedical Signal Processing and Control》上发表论文,提出了一种名为EP-DDPG的新型深度强化学习框架,旨在通过视觉与触觉信息的深度融合,提升仿人手机器手在非结构化环境中的自主抓取能力。
为了开展此项研究,作者采用了几个关键技术方法:首先,将抓取任务建模为马尔可夫决策过程(Markov Decision Process, MDP),以机器手关节角度、期望角度和目标物体标识符(使用YOLOv8识别)作为状态输入,以关节运动指令作为连续动作输出。其次,设计了一个融合接触力奖励和熵奖励的分段奖励函数,以引导学习过程。核心技术创新在于,将视觉信息(来自深度摄像头)与触觉信息(来自指尖力传感器)统一融合到DRL策略学习过程中。研究的主体框架是改进的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法,引入了两项关键改进:一是将熵正则化同时应用于奖励函数和策略更新中,以鼓励探索;二是采用了优先经验回放(Prioritized Experience Replay, PER)机制来提高学习效率。最后,通过在仿真和真实机器人平台上的实验,将该框架与DDPG、SAC、PPO、TD3等基线方法进行比较验证。
3.2. 基于DRL的视觉-触觉融合机器人抓取
  • 3.2.1. 状态:智能体(机器人)的状态被定义为三元组,包括机器人观测到的关节角度、期望的关节角度以及待抓取物体的标识符(由YOLOv8提供)。其中,观测角度通过深度相机和附着在指尖上的彩色标记点进行三维定位和逆运动学计算得出,从而实现了基于视觉的状态感知。
  • 3.2.2. 动作:动作空间是连续的,对应机器人五根手指的期望关节角度。为了增加探索性,在策略网络输出的动作上叠加了Ornstein-Uhlenbeck噪声。
  • 3.2.3. 奖励:奖励函数由接触力奖励和熵奖励两部分组成,旨在鼓励快速、稳定且不损坏物体的抓取。接触力奖励根据每个手指的指尖力是否处于设定的力阈值范围(fmin至 fmax)内进行分段计算。熵奖励则旨在鼓励策略的探索性,其权重随训练回合数衰减。
  • 3.2.4. 终止条件:一次抓取尝试在四种情况下结束:成功抓取并抬起物体;抬起过程中物体掉落;任何指尖力超过最大阈值fmax;达到最大步数仍未成功接触物体。
3.3. EP-DDPG的策略学习
该方法的核心是基于DDPG算法进行改进。如图1所示,其网络结构包括一个Actor网络(输出动作)和一个Critic网络(评估状态-动作对的价值)。创新点在于引入了PER机制,即根据时序差分(Temporal Difference, TD)误差的绝对值来优先回放更重要的经验样本,以加速学习。同时,在策略梯度更新中加入了自适应熵正则化项(如公式(15)所示),以平衡探索(尝试新动作)与利用(执行已知好动作)的矛盾,防止过早收敛到次优策略。
4. 实验与结果
研究通过仿真和实体实验验证了EP-DDPG框架的有效性。
  • 仿真实验:在仿真环境中,EP-DDPG在训练集上取得了高达94.5%的抓取成功率,在测试集上达到89.4%。与DDPG、SAC、PPO、TD3等基线方法相比,平均成功率分别高出约27.3%和28.4%,并且在面对未见过的物体时表现出更强的泛化能力。
  • 实体实验:在真实机器人平台上,EP-DDPG在训练集和测试集上的抓取成功率分别达到93.9%和84.8%,同样显著优于其他对比方法。实验证实了视觉与触觉融合对于处理物体物理特性(如材质、重量)未知情况的重要性。
5. 结论与讨论
该研究成功提出并验证了一种创新的深度强化学习框架EP-DDPG,用于解决仿人手机器人抓取中的视觉-触觉感知融合问题。研究的主要贡献在于:1)将优先经验回放和熵正则化技术整合到DDPG框架中,显著提升了训练效率和策略性能;2)在策略学习过程中直接融合视觉和触觉信息,充分利用了两种感知模态的互补优势;3)在仿真和真实世界的抓取任务中,EP-DDPG相较于主流DRL方法展现出更高的成功率和更强的泛化能力。
这项工作的意义在于,它为实现非结构化环境中机器人自主、灵巧的操作迈出了重要一步。通过深度强化学习有效整合多模态感知,机器人能够更全面地理解环境并做出更精准的决策。未来,该框架有望扩展到更复杂的物体操作任务,并应用于康复辅助、智能制造等领域,推动类人机器人传感器运动融合技术的发展。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号