基于概率模型预测控制的灵巧手多目标操作(Multi-goal dexterous hand manipulation using probabilistic model-based reinforcement learning)

《Biomimetic Intelligence and Robotics》：Multi-goal dexterous hand manipulation using probabilistic model-based reinforcement learning

【字体：大中小】 时间：2026年06月07日 来源：Biomimetic Intelligence and Robotics 5.4

编辑推荐：

　　本文探讨利用基于模型的强化学习(Reinforcement Learning, RL)解决灵巧手多目标操作任务的挑战。研究人员提出目标条件概率模型预测控制(Goal-Conditioned Probabilistic Model Predictive Cont

本文探讨利用基于模型的强化学习(Reinforcement Learning, RL)解决灵巧手多目标操作任务的挑战。研究人员提出目标条件概率模型预测控制(Goal-Conditioned Probabilistic Model Predictive Control, GC-PMPC)，设计概率神经网络集成(Probabilistic Neural Network Ensembles)来描述高维灵巧手动力学，并引入异步MPC策略以满足真实灵巧手系统的控制频率要求。在四种随机生成目标的Shadow Hand仿真场景中的广泛评估表明，GC-PMPC优于现有最优基线。该方法成功驱动了具有12个主动自由度(Degrees of Freedom, DOFs)和5个触觉传感器的绳索驱动灵巧手DexHand 021，在约80分钟的交互内学会将立方骰子操作至三个目标位姿，证明了其在低成本灵巧手平台上具有卓越的学习效率和控制性能。

《Biomimetic Intelligence and Robotics》刊载论文解读：基于目标条件概率模型预测控制的灵巧手多目标操作研究

研究背景与动机

实现类人控制的灵巧机械手是机器人领域的关键挑战。传统控制方法受限于建模复杂动力学及规划手—物体交互的困难；模仿学习(Imitation Learning)依赖高质量示教数据且缺乏环境自适应交互学习能力，泛化性差；无模型强化学习(Model-Free RL)在多目标(GCRL, Goal-Conditioned Reinforcement Learning)任务中面临稀疏奖励和庞大任务空间导致的策略不稳定及低样本效率问题，常需数十小时训练。基于模型的强化学习(Model-Based RL, MBRL)通过习得系统动力学模型提升样本效率，但现有方法如DPETS(Dropout-based Probabilistic Ensembles with Trajectory Sampling)在高维灵巧手多目标操作中存在模型表达能力不足、预测时域受限及无法满足实机高频控制需求等问题。为此，Yingzhuo Jiang、Wenjun Huang、Rongdun Lin、Chenyang Miao、Tianfu Sun及Yunduan Cui开展了本研究，提出GC-PMPC框架以解决上述问题。

主要关键技术方法

研究人员在DPETS基础上改进提出GC-PMPC：(1)构建更宽的概率神经网络集成，对输入状态—动作对进行逐特征标准化(Input Standardization)以缓解高维异构数据尺度不一致问题，并在损失函数中增加预测方差约束项惩罚过大预测方差(Δ=30)以抑制长期累积误差；(2)设计异步MPC(Asynchronous MPC)策略，解耦MPC优化线程与灵巧手控制线程，按系统控制频率ν^system与MPC频率ν^MPC比值向上取整确定每步输出动作数x=?ν^system/ν^MPC?，并加入状态平滑项(λ_smooth=0.01)抑制异步执行引起的状态跳变；(3)动力学模型仅预测状态转移不含目标信息，多目标规划通过MPC奖励函数中直接替换目标位姿实现。仿真实验在Gymnasium-Robotics的四种Shadow Hand场景(HandReach-v2、HandManipulateEggDense-v1、HandManipulateEggRotateDense-v1、HandManipulateBlockRotateXYZDense-v1)进行，对比基线包括SAC(Soft Actor-Critic)、TD7、DDPG+HER(Hindsight Experience Replay)、DPETS及TDMPC(Temporal Difference Model Predictive Control)；实机实验采用DexHand 021(12主动DOFs, 5触觉传感器)，通过Intel RealSense D435深度相机结合Sam6D与FoundationPose6D获取骰子位姿，顺序训练面2、4、5朝上三个目标，模型更新采用连续两步状态—动作样本。

研究结果

4.1. Experimental settings

仿真设定集成网络数B=5，Dropout粒子数M=20，预热5000步，预测时域H=50，网络结构512-512-512，方差惩罚Δ=30；实机预热4000步，H=30，每步输出动作数x=2，状态平滑参数λ_smooth=0.01。各基线算法按标准配置运行，每回合50步，独立重复3次取均值与标准差。

4.2. Simulation results

在HandReach-v2任务中，GC-PMPC约200回合掌握任务，学习效率显著优于基线，成功率高于DPETS，模型无关RL需24万回合才接近其200回合效果。在含随机位姿的蛋形物体操作(HandManipulateEggDense-v1)中，GC-PMPC经100回合成功率约80%，明显优于其他基线。在仅考虑姿态旋转的蛋形与方块操作任务(HandManipulateEggRotateDense-v1、HandManipulateBlockRotateXYZDense-v1)中，GC-PMPC经4000回合成功率分别约70%和高于其余基线两倍以上，输入标准化与方差惩罚共同提升了复杂任务中的训练稳定性与最终性能。加噪鲁棒性测试中GC-PMPC在观测叠加0.1×σ_sim噪声下仍保持优势。改进Adroit Relocate任务(40维观测、30维动作、球体尺寸随机70%~130%)中GC-PMPC奖励约为初始策略两倍，显著优于SAC与DPETS。轨迹可视化显示DPETS位置误差大，TDMPC致物体掉落。

4.3. Real-world hardware results

实机按顺序学三个骰子目标位姿(各100回合约28分钟，共约80分钟)，GC-PMPC是唯一显现稳定学习曲线的方法，DPETS与TDMPC无明显改善。GC-PMPC在学习新目标时保持旧目标性能。骰子翻转各目标主要动用不同手指DOFs协调：目标1(面4朝上)借助环指PIP与MCP推压骰子，拇指与中指防掉落；目标2(面5朝上)以拇指旋转(Thumb Rot、MCP、DIP)为主；目标3(面2朝上)先拇指定位再配合中指与环指完成。模型预测轨迹与实测吻合，标准差随误差增大自适应调整。未额外训练直接用原模型操控变速箱旋转150°，成功率50%，主要受物体重量导致位姿大幅偏移后手指重调无力影响，但证明方法具泛化潜力。

4.4. Engineering challenges in real-world dexterous hand

实机受电机干涉、温漂、仅有指尖触觉无关节速度反馈及缺腕关节(12 DOFs vs 20 DOFs)限制，学习效率低于仿真。失败案例分析显示硬件实际轨迹与算法预测微小偏差逐步累积可致物体掉落，虽在线MPC更新仍难完全校正显著硬件误差。

讨论与结论翻译

研究人员指出GC-PMPC通过引入带输入标准化的概率神经网络集成及预测方差惩罚增强了高维状态—动作空间的模型表达能力与泛化性；异步MPC策略配合状态平滑项解决了灵巧手系统控制频率匹配与策略鲁棒性问题。仿真与实机结果验证了其相较SAC、TD7、DDPG+HER、DPETS及TDMPC在收敛速度与成功率上的优势，且在低成本DexHand 021上约80分钟学会多目标骰子操作，展示了基于概率模型与MPC策略在灵巧操作任务中的应用潜力。

原文结论节选翻译：

"本文提出目标条件概率模型预测控制(Goal-Conditioned Probabilistic Model Predictive Control, GC-PMPC)，一种面向灵巧手多目标操作的实用基于模型强化学习方法。所提方法融合经输入标准化改进的概率神经网络集成及预测方差惩罚项，提升了高维状态—动作空间下的模型表达能力与泛化能力。此外引入带状态平滑的异步MPC策略，以应对实际灵巧手系统中控制频率要求与策略鲁棒性的挑战。在四种Shadow Hand仿真操作场景中综合评估表明，GC-PMPC在学习效率与成功率上均优于现有的模型无关及基于模型的先进基线方法。在配备12个主动自由度和5个触觉传感器的DexHand 021实机系统上，所提方法利用单目相机位姿检测，在约80分钟学习时间内成功完成骰子多目标旋转操作。这些结果不仅验证了该方法在低成本灵巧手平台上的高效性与适应性，也展示了结合概率基于模型强化学习与MPC策略应对挑战性灵巧操作任务的重要潜力。"

热点排行