基于监督学习与强化学习(Reinforcement Learning, RL)的六自由度机械臂逆运动学(Inverse Kinematics, IK)学习方法及其在ABB GoFa协作机器人上的实时验证

《Engineered Regeneration》：Artificial intelligence driven real time robotics inverse kinematics computation for smart manufacturing

【字体：大中小】 时间：2026年06月01日 来源：Engineered Regeneration CS22.5

编辑推荐：

　　本文提出一种基于数据驱动的逆运动学(Inverse Kinematics, IK)计算方法，分别采用监督学习(Supervised Learning)与带演示的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG

本文提出一种基于数据驱动的逆运动学(Inverse Kinematics, IK)计算方法，分别采用监督学习(Supervised Learning)与带演示的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)结合后见经验回放(Hindsight Experience Replay, HER)的强化学习(Reinforcement Learning, RL)框架，以替代传统基于雅可比(Jacobian)矩阵的迭代数值求解器。研究人员以ABB CRB 15000 GoFa 5 kg六自由度(6-DOF)协作机械臂为对象，利用URDF前向运动学(Forward Kinematics, FK)生成位姿-关节角配对数据集，训练多层感知机(Multilayer Perceptron, MLP)、极端梯度提升树(eXtreme Gradient Boosting, XGBoost)及RL策略网络，并在4 ms外部引导运动(Externally Guided Motion, EGM)控制周期内进行单次前向推理求解IK。研究对比了三种学习型IK解算器与阻尼最小二乘法(Damped Least Squares, DLS)及Levenberg-Marquardt(LM)算法在任务空间精度、每查询延迟(Latency)及实机跟踪表现上的差异。结果表明，学习型IK可在亚毫秒级延迟内达到毫米级末端精度，满足实时协同控制约束；其中混合演示比(demo_ratio=0.4)的RL策略在低数据量下具最优笛卡尔精度，XGBoost在方向误差上略优，MLP提供稳定基线；增加训练数据量显著提升监督模型性能且具有统计显著性(p<0.05)，而RL在少量演示下即趋近饱和。所有模型在物理机器人上验证了仿真结论的有效性。

论文解读：基于监督学习与强化学习的六自由度机械臂逆运动学实时求解及ABB GoFa平台验证

一、研究背景与立题依据

传统工业机器人逆运动学(Inverse Kinematics, IK)多采用基于雅可比(Jacobian)伪逆或阻尼最小二乘(Damped Least Squares, DLS)的迭代数值解法。此类方法虽在收敛后可获高精度，但每步需计算矩阵求逆与多次迭代，计算耗时随精度要求波动，最坏情况延迟可达数十毫秒，难以保证嵌入低延时（如4 ms）外部引导运动(Externally Guided Motion, EGM)控制周期。此外，靠近奇异位形时数值稳定性差，且无法天然处理关节限位等多重约束。近年来机器学习(Machine Learning, ML)方法可通过离线训练实现端到端的位姿至关节角映射，推理时为常数时间运算，为实时IK提供新思路。然而，监督回归易因IK多值性产生模糊，且泛化受限于采样空间；纯强化学习(Reinforcement Learning, RL)在稀疏奖励下一阶IK问题中探索困难。现有文献缺乏对MLP、树模型与带演示RL三种学习型IK在同一硬件与控制周期下的系统性对比及统计显著性验证。为此，Menéndez García A等人于《Engineered Regeneration》发表本研究，旨在建立统一实验流程，量化比较学习型IK与经典数值解法在ABB GoFa协作机器人上的精度–延迟权衡及实机可用性，明确数据量与演示注入对性能的影响。

二、主要关键技术方法

研究人员基于ABB CRB 15000 GoFa 5 kg（6-DOF）URDF模型，冻结前三个基关节于零位，均匀扫掠腕关节(q₄, q₅, q₆)∈[-90°, 90°]（1°分辨率），经前向运动学(Forward Kinematics, FK)得位姿–关节配对，构建4000与50000样本次两种数据预算并随机无放回子抽样。监督分支以位姿(x, y, z, roll, pitch, yaw)为输入、关节矢量为输出，分别训练四隐层MLP（LeakyReLU + BatchNorm + Dropout, Adam优化器）与XGBoost（max_depth=10），损失为关节角均方误差(Mean Squared Error, MSE)。RL分支将IK建模为单步目标条件连续控制问题，采用DDPG族Actor-Critic架构（3×256单元隐层, tanh输出缩至关节限），引入在线状态归一化、目标网络Polyak平滑更新(τ=0.01)及高斯探索噪声；维护演示缓冲区和RL缓冲区，按演示比demo_ratio∈{0, 0.4, 1}混合采样，Hindsight Experience Replay(HER)对自生成与演示转移均做目标重标(goal relabelling)；奖励函数为位置与方向误差负加权和（β=0.2）附精调奖励。离线与实机评估均将预测关节裁剪至URDF限位后经同一FK映射回任务空间，以位置平均绝对误差(Mean Absolute Error, MAE)、均方根误差(Root Mean Square Error, RMSE)及1 mm/0.1 rad高精度成功率衡量，单种子与十种子配对t检验验数据量效应。实机通过EGM 4 ms周期下发MLP、XGBoost及demo_ratio=0.4 RL(50k)之关节指令并记录反馈。

三、研究结果

3.2. Abstract IK problem（抽象IK问题形式化）

研究人员定义关节构型q∈Rⁿ，可行集Q受上下限位约束，末端位姿x=(p, R)∈SE(3)，fk(q)=(f_p(q), f_R(q))为FK。位置误差e_p(q)=p_d-f_p(q)，方向误差e_R(q)=vee(log(f_R(q)^?R_d))取自SO(3)到其李代数so(3)，加权拼为六维任务空间误差e?_x(q)，IK化为约束最小化‖e?_x(q)‖₂²。此非线性非凸问题引入增益α_p, α_R平衡量纲与优先级。

4. Supervised-learning–based inverse kinematics computation（基于监督学习的IK计算）

MLP与XGBoost以FK生成数据为真值做关节角回归。结论：50k样本MLP使正弦轨迹y轴MAE由6.27 mm降至1.19 mm，高精度成功率由0%升至17.4%；XGBoost相应由2.98 mm降至0.89 mm且成功率32%。两模型表面泛化（球体/椭球体）随数据增多改善，椭球区域误差低于球体。十种子配对t检验证实监督模型随样本量增加各指标显著改善（p<0.05）。XGBoost残差分布略紧于MLP。

5. Computation based on reinforcement learning（基于强化学习的IK计算）

DDPG+HER训练，demo_ratio调控演示混入比。结论：4k数据下纯RL(demo_ratio=0) y向MAE达14.9 mm，纯模仿(demo_ratio=1)中等但泛化弱，混合(demo_ratio=0.4) y向MAE降至1.53 mm，各笛卡尔分量入低毫米级；50k数据三设置均改善但demo_ratio=0.4仍综合最优（x MAE 0.52 mm）。曲线显示demo_ratio=0.4最早穿越收敛阈值且最终回报约2.3倍于另两者，证实HER与演示互补——缺演示则探索不足，缺HER则过拟合演示分布。RL在4k已达均值笛卡尔误差1.39±0.42 mm且50k仅微降至1.35±0.25 mm（p>0.05），呈数据高效饱和态。表面测试球面均值位置误48~52 mm（球）与9.5~12.1 mm（椭球），随数据缩小。

7.2.4. Comparative analysis of RL, MLP, and XGBoost（RL、MLP与XGBoost对比分析）

同预算下同评正弦轨迹。结论：4k时RL(demo_ratio=0.4)均值笛卡尔误0.73 mm优于XGBoost(4.32 mm)与MLP(9.23 mm)，但XGBoost与MLP误差分布尾部更短；50k三者收敛至1.6~2.0 mm笛卡尔带，XGBoost方向误差略小(3.11°)而RL笛卡尔微优(1.61 mm)。表明数据充足时限选影响减弱，稀缺时RL混演示占优但监督模型残差保守。

7.3. Statistical significance of the dataset-size effect（数据集规模效应的统计显著性）

十独立种子配对t检验。结论：MLP与XGBoost从4k→50k样本笛卡尔均值误降约2.4与2.3倍(p?0.05)，RL无统计显著变化(p>0.05)，印证RL早饱和与监督强依赖数据覆盖。

7.4. Experimental validation（实验验证/实机部署）

ABB GoFa经EGM运行50k训练三模型追踪千点正弦轨迹。结论：实测末端位置误差多集中于±1 mm、方向±6°(≈0.1 rad)内，形状保真，存微小相位滞后系传感通信与柔顺所致；RL略长尾但均合协作精度要求，仿真结论迁移至硬件成立。

7.5. Real-time feasibility and comparison with numerical inverse-kinematics baselines（实时可行性及与传统数值IK基线对比）

对比未阻尼伪逆、DLS、LM与三学习型IK同轨迹精度与延迟。结论：DLS/LM均值笛卡尔误0.26~0.27 mm（优于学习型），均延迟16.3 ms与20.1 ms、最差27.3 ms与38.0 ms超4 ms周期；未阻尼伪逆误10.7 mm且延迟不稳。MLP均延迟0.166 ms(max 0.166 ms)、XGBoost 1.7 μs、RL 0.297 ms(max 0.514 ms)，均远低于EGM周期余量87%~99.96%。学习型IK牺牲少量绝对精度换取实时可调度性，为4 ms控制环唯一达标方案。

四、讨论与结论翻译

讨论指出数据量与覆盖比模型族对监督IK更关键；RL中HER与演示缓冲交互是性能关键（缺任一方收敛差）；RL在所用数据范围呈早饱和，再提升需改架构或扩目标分布；学习型IK在椭球区优于球区反映工作空间非均匀性；实机验证迁移成功但局限为单机器人、腕关节主导采样、未显式含力矩/碰障/冗余优选、RL为单步非多步闭环。建议分层架构结合监督初解、RL任意目标映射及阻尼雅可比微调。

结论翻译：

本研究针对ABB CRB 15000 GoFa 5 kg六自由度协作机械臂在4 ms EGM控制周期下的逆运动学求解，系统化对比并实机部署了三类学习型IK解算器——多层感知机(Multilayer Perceptron, MLP)、极端梯度提升树(XGBoost)及带后见经验回放(Hindsight Experience Replay, HER)与可调演示缓冲的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)强化学习(Reinforcement Learning, RL)策略。实验表明：(1) 监督模型性能随真实运动学数据量(4k→50k)显著增加(p<0.05)，投资数据获取至少与选模型同等重要；(2) RL中演示占比demo_ratio=0.4混合训练之组合使HER与专家转移互补，克服纯RL探索难与纯模仿泛化差，单步IK精度在低数据下达亚毫米级笛卡尔均误；(3) RL代理在测试数据范围呈数据高效饱和(4k与50k无统计显著差异)，早达近优精度；(4) 三者各有侧重——RL均笛卡尔误最低(稀缺数据下)、XGBoost方向误略小且延迟极低(1.7 μs)、MLP提供稳定基线——足量数据时收敛至相近1.6~2.0 mm笛卡尔带；(5) 学习型IK延迟(≤0.3 ms)较阻尼最小二乘(DLS, ≥16 ms)与Levenberg-Marquardt(LM, ≥20 ms)低1~2数量级且唯一满足4 ms硬实时约束，实机末端误差多落±1 mm内，证明其为协同操控实时IK实用替代。局限含腕主导采样、单步RL、未建模冗余与碰障，未来应扩展全空间采样、多模态IK分布建模(Normalizing Flow / Mixture Density Network, MDN)、多步闭环RL及接触丰富任务验证。

热点排行