基于监督学习与强化学习(Reinforcement Learning, RL)的六自由度机械臂逆运动学(Inverse Kinematics, IK)学习方法及其在ABB GoFa协作机器人上的实时验证
《Engineered Regeneration》:Artificial intelligence driven real time robotics inverse kinematics computation for smart manufacturing
编辑推荐:
本文提出一种基于数据驱动的逆运动学(Inverse Kinematics, IK)计算方法,分别采用监督学习(Supervised Learning)与带演示的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG
本文提出一种基于数据驱动的逆运动学(Inverse Kinematics, IK)计算方法,分别采用监督学习(Supervised Learning)与带演示的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)结合后见经验回放(Hindsight Experience Replay, HER)的强化学习(Reinforcement Learning, RL)框架,以替代传统基于雅可比(Jacobian)矩阵的迭代数值求解器。研究人员以ABB CRB 15000 GoFa 5 kg六自由度(6-DOF)协作机械臂为对象,利用URDF前向运动学(Forward Kinematics, FK)生成位姿-关节角配对数据集,训练多层感知机(Multilayer Perceptron, MLP)、极端梯度提升树(eXtreme Gradient Boosting, XGBoost)及RL策略网络,并在4 ms外部引导运动(Externally Guided Motion, EGM)控制周期内进行单次前向推理求解IK。研究对比了三种学习型IK解算器与阻尼最小二乘法(Damped Least Squares, DLS)及Levenberg-Marquardt(LM)算法在任务空间精度、每查询延迟(Latency)及实机跟踪表现上的差异。结果表明,学习型IK可在亚毫秒级延迟内达到毫米级末端精度,满足实时协同控制约束;其中混合演示比(demo_ratio=0.4)的RL策略在低数据量下具最优笛卡尔精度,XGBoost在方向误差上略优,MLP提供稳定基线;增加训练数据量显著提升监督模型性能且具有统计显著性(p<0.05),而RL在少量演示下即趋近饱和。所有模型在物理机器人上验证了仿真结论的有效性。
论文解读:基于监督学习与强化学习的六自由度机械臂逆运动学实时求解及ABB GoFa平台验证
一、研究背景与立题依据
传统工业机器人逆运动学(Inverse Kinematics, IK)多采用基于雅可比(Jacobian)伪逆或阻尼最小二乘(Damped Least Squares, DLS)的迭代数值解法。此类方法虽在收敛后可获高精度,但每步需计算矩阵求逆与多次迭代,计算耗时随精度要求波动,最坏情况延迟可达数十毫秒,难以保证嵌入低延时(如4 ms)外部引导运动(Externally Guided Motion, EGM)控制周期。此外,靠近奇异位形时数值稳定性差,且无法天然处理关节限位等多重约束。近年来机器学习(Machine Learning, ML)方法可通过离线训练实现端到端的位姿至关节角映射,推理时为常数时间运算,为实时IK提供新思路。然而,监督回归易因IK多值性产生模糊,且泛化受限于采样空间;纯强化学习(Reinforcement Learning, RL)在稀疏奖励下一阶IK问题中探索困难。现有文献缺乏对MLP、树模型与带演示RL三种学习型IK在同一硬件与控制周期下的系统性对比及统计显著性验证。为此,Menéndez García A等人于《Engineered Regeneration》发表本研究,旨在建立统一实验流程,量化比较学习型IK与经典数值解法在ABB GoFa协作机器人上的精度–延迟权衡及实机可用性,明确数据量与演示注入对性能的影响。
二、主要关键技术方法
研究人员基于ABB CRB 15000 GoFa 5 kg(6-DOF)URDF模型,冻结前三个基关节于零位,均匀扫掠腕关节(q4, q5, q6)∈[-90°, 90°](1°分辨率),经前向运动学(Forward Kinematics, FK)得位姿–关节配对,构建4000与50000样本次两种数据预算并随机无放回子抽样。监督分支以位姿(x, y, z, roll, pitch, yaw)为输入、关节矢量为输出,分别训练四隐层MLP(LeakyReLU + BatchNorm + Dropout, Adam优化器)与XGBoost(max_depth=10),损失为关节角均方误差(Mean Squared Error, MSE)。RL分支将IK建模为单步目标条件连续控制问题,采用DDPG族Actor-Critic架构(3×256单元隐层, tanh输出缩至关节限),引入在线状态归一化、目标网络Polyak平滑更新(τ=0.01)及高斯探索噪声;维护演示缓冲区和RL缓冲区,按演示比demo_ratio∈{0, 0.4, 1}混合采样,Hindsight Experience Replay(HER)对自生成与演示转移均做目标重标(goal relabelling);奖励函数为位置与方向误差负加权和(β=0.2)附精调奖励。离线与实机评估均将预测关节裁剪至URDF限位后经同一FK映射回任务空间,以位置平均绝对误差(Mean Absolute Error, MAE)、均方根误差(Root Mean Square Error, RMSE)及1 mm/0.1 rad高精度成功率衡量,单种子与十种子配对t检验验数据量效应。实机通过EGM 4 ms周期下发MLP、XGBoost及demo_ratio=0.4 RL(50k)之关节指令并记录反馈。
三、研究结果
3.2. Abstract IK problem(抽象IK问题形式化)
研究人员定义关节构型q∈Rn,可行集Q受上下限位约束,末端位姿x=(p, R)∈SE(3),fk(q)=(fp(q), fR(q))为FK。位置误差ep(q)=pd-fp(q),方向误差eR(q)=vee(log(fR(q)?Rd))取自SO(3)到其李代数so(3),加权拼为六维任务空间误差e?x(q),IK化为约束最小化‖e?x(q)‖22。此非线性非凸问题引入增益αp, αR平衡量纲与优先级。
4. Supervised-learning–based inverse kinematics computation(基于监督学习的IK计算)
MLP与XGBoost以FK生成数据为真值做关节角回归。结论:50k样本MLP使正弦轨迹y轴MAE由6.27 mm降至1.19 mm,高精度成功率由0%升至17.4%;XGBoost相应由2.98 mm降至0.89 mm且成功率32%。两模型表面泛化(球体/椭球体)随数据增多改善,椭球区域误差低于球体。十种子配对t检验证实监督模型随样本量增加各指标显著改善(p<0.05)。XGBoost残差分布略紧于MLP。
5. Computation based on reinforcement learning(基于强化学习的IK计算)
DDPG+HER训练,demo_ratio调控演示混入比。结论:4k数据下纯RL(demo_ratio=0) y向MAE达14.9 mm,纯模仿(demo_ratio=1)中等但泛化弱,混合(demo_ratio=0.4) y向MAE降至1.53 mm,各笛卡尔分量入低毫米级;50k数据三设置均改善但demo_ratio=0.4仍综合最优(x MAE 0.52 mm)。曲线显示demo_ratio=0.4最早穿越收敛阈值且最终回报约2.3倍于另两者,证实HER与演示互补——缺演示则探索不足,缺HER则过拟合演示分布。RL在4k已达均值笛卡尔误差1.39±0.42 mm且50k仅微降至1.35±0.25 mm(p>0.05),呈数据高效饱和态。表面测试球面均值位置误48~52 mm(球)与9.5~12.1 mm(椭球),随数据缩小。
7.2.4. Comparative analysis of RL, MLP, and XGBoost(RL、MLP与XGBoost对比分析)
同预算下同评正弦轨迹。结论:4k时RL(demo_ratio=0.4)均值笛卡尔误0.73 mm优于XGBoost(4.32 mm)与MLP(9.23 mm),但XGBoost与MLP误差分布尾部更短;50k三者收敛至1.6~2.0 mm笛卡尔带,XGBoost方向误差略小(3.11°)而RL笛卡尔微优(1.61 mm)。表明数据充足时限选影响减弱,稀缺时RL混演示占优但监督模型残差保守。
7.3. Statistical significance of the dataset-size effect(数据集规模效应的统计显著性)
十独立种子配对t检验。结论:MLP与XGBoost从4k→50k样本笛卡尔均值误降约2.4与2.3倍(p?0.05),RL无统计显著变化(p>0.05),印证RL早饱和与监督强依赖数据覆盖。
7.4. Experimental validation(实验验证/实机部署)
ABB GoFa经EGM运行50k训练三模型追踪千点正弦轨迹。结论:实测末端位置误差多集中于±1 mm、方向±6°(≈0.1 rad)内,形状保真,存微小相位滞后系传感通信与柔顺所致;RL略长尾但均合协作精度要求,仿真结论迁移至硬件成立。
7.5. Real-time feasibility and comparison with numerical inverse-kinematics baselines(实时可行性及与传统数值IK基线对比)
对比未阻尼伪逆、DLS、LM与三学习型IK同轨迹精度与延迟。结论:DLS/LM均值笛卡尔误0.26~0.27 mm(优于学习型),均延迟16.3 ms与20.1 ms、最差27.3 ms与38.0 ms超4 ms周期;未阻尼伪逆误10.7 mm且延迟不稳。MLP均延迟0.166 ms(max 0.166 ms)、XGBoost 1.7 μs、RL 0.297 ms(max 0.514 ms),均远低于EGM周期余量87%~99.96%。学习型IK牺牲少量绝对精度换取实时可调度性,为4 ms控制环唯一达标方案。
四、讨论与结论翻译
讨论指出数据量与覆盖比模型族对监督IK更关键;RL中HER与演示缓冲交互是性能关键(缺任一方收敛差);RL在所用数据范围呈早饱和,再提升需改架构或扩目标分布;学习型IK在椭球区优于球区反映工作空间非均匀性;实机验证迁移成功但局限为单机器人、腕关节主导采样、未显式含力矩/碰障/冗余优选、RL为单步非多步闭环。建议分层架构结合监督初解、RL任意目标映射及阻尼雅可比微调。
结论翻译:
本研究针对ABB CRB 15000 GoFa 5 kg六自由度协作机械臂在4 ms EGM控制周期下的逆运动学求解,系统化对比并实机部署了三类学习型IK解算器——多层感知机(Multilayer Perceptron, MLP)、极端梯度提升树(XGBoost)及带后见经验回放(Hindsight Experience Replay, HER)与可调演示缓冲的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)强化学习(Reinforcement Learning, RL)策略。实验表明:(1) 监督模型性能随真实运动学数据量(4k→50k)显著增加(p<0.05),投资数据获取至少与选模型同等重要;(2) RL中演示占比demo_ratio=0.4混合训练之组合使HER与专家转移互补,克服纯RL探索难与纯模仿泛化差,单步IK精度在低数据下达亚毫米级笛卡尔均误;(3) RL代理在测试数据范围呈数据高效饱和(4k与50k无统计显著差异),早达近优精度;(4) 三者各有侧重——RL均笛卡尔误最低(稀缺数据下)、XGBoost方向误略小且延迟极低(1.7 μs)、MLP提供稳定基线——足量数据时收敛至相近1.6~2.0 mm笛卡尔带;(5) 学习型IK延迟(≤0.3 ms)较阻尼最小二乘(DLS, ≥16 ms)与Levenberg-Marquardt(LM, ≥20 ms)低1~2数量级且唯一满足4 ms硬实时约束,实机末端误差多落±1 mm内,证明其为协同操控实时IK实用替代。局限含腕主导采样、单步RL、未建模冗余与碰障,未来应扩展全空间采样、多模态IK分布建模(Normalizing Flow / Mixture Density Network, MDN)、多步闭环RL及接触丰富任务验证。