基于强化学习的个性化自适应辅助控制提升机器人辅助臂部伸展训练的参与度、表现与保持效果

《IEEE Transactions on Neural Systems and Rehabilitation Engineering》：Personalized Adaptive Assistance with Reinforcement Learning Control Enhances Engagement, Performance, and Retention in Robot-Assisted Arm-Reaching Exercises

【字体：大中小】 时间：2026年01月04日 来源：IEEE Transactions on Neural Systems and Rehabilitation Engineering 5.2

编辑推荐：

　　本研究针对传统自适应按需辅助(AAN)控制器在机器人辅助上肢康复中的局限性，开发了一种新型强化学习按需辅助(RL-AAN)控制器。该控制器采用改进的动作依赖启发式动态规划(ADHDP)框架，能够实时自主调整运动误差与机器人辅助之间的平衡，仅依赖少量无需受试者特定手动调整的高层可调参数。通过在缆驱动机器人上进行的实验验证，与传统的迭代学习控制(AN)控制器相比，RL-AAN在训练期间显著减少了机器人辅助量，促进了用户的主动参与和任务表现，并且在训练后的保持测试中展现出更精确的臂部伸展轨迹，凸显了其在康复应用中的潜力。

在中枢或外周神经系统损伤（如脑卒中、创伤性脑损伤、脊髓损伤）、神经退行性疾病或肌肉骨骼损伤后，运动功能的康复是恢复过程的基本组成部分。强烈、重复、任务导向的训练可以通过运动（再）学习过程帮助脑损伤患者重获丧失的运动功能。然而，传统的康复干预措施对治疗师而言是劳动密集型和体力消耗大的，并且由于训练有素的人员的有限可用性和高成本而受到限制，这制约了训练课程的频率和强度。机器人辅助康复旨在通过由机器人训练师介导的训练来重新训练运动规划、控制和执行，这些训练师提供受控的辅助或阻力，通常结合实时多感官反馈，并记录定量数据以指导针对性治疗。这项技术有潜力减轻治疗师的身体负担，优化人力资源分配，并标准化康复方案，同时使患者能够进行自我管理的家庭式训练。

由于主动努力是运动学习的关键促进因素，人们假设机器人训练师应仅提供患者完成所需运动任务所需的最低水平的辅助。因此，理想的设备应在用户表现良好时是透明的（即对用户不施加力），并且仅在用户遇到完成任务困难时才进行干预，以纠正过度的运动误差。符合此原则的控制策略被称为“按需辅助”(AAN)、“患者主导”或“患者协作”控制器。开创性的AAN策略依赖于具有固定刚度和阻尼参数的传统阻抗控制器(IC)，实现了运动误差与机器人辅助之间的静态关系。此类控制器需要大量手动调整，因为机器人的顺从性必须根据患者在治疗计划中不断变化的运动技能进行调整。为了克服这个缺点，后来的研究引入了自适应AAN控制器，这些控制器基于患者最近的表现，利用比例迭代学习控制(ILC)法则自主调整底层IC的刚度。从初始状态开始，ILC-AAN控制器在每次运动重复时更新阻抗参数，将先前的阻抗参数乘以一个常数遗忘因子，并加上前一次重复测量的运动误差的给定函数，再乘以一个常数增益。

尽管ILC-AAN很流行，但它需要大量的试错调整，并且其只考虑用户最近一次表现的短视控制律可能无法有效复制人类运动适应的复杂动力学。这促使了新的基于学习的AAN控制器的开发。

与其它最优控制策略不同，强化学习(RL)控制器在与环境交互的同时实时学习最优策略。这在难以获得环境准确模型的情况下尤其方便，例如涉及复杂人机动力学的物理人机交互(pHRI)。本研究基于执行器-评判器(actor-critic)强化学习框架，其中执行器根据系统状态和评判器的反馈决定每个周期(k)最合适的动作，而评判器则根据预期的长期成本评估该动作的有效性。在RL控制中，第k个周期的长期成本V(k)定义为所有未来负奖励的折扣总和。启发式动态规划(HDP)的基本思想是通过函数逼近来估计V(k)。遵循这种方法，评判器神经网络(NN)通过最小化源自贝尔曼方程的时间差分误差t_d(k)来估计第k个周期的近似长期成本V?(k)。本研究采用了动作依赖HDP(ADHDP)，一种适用于复杂系统且具有方便的一致最终有界性(UUB)特性的改进HDP算法。遵循ADHDP方法，评判器NN将V?(k)估计为一个状态-动作值函数，同时考虑状态和动作作为输入。因此，最优策略是使V(k)最小化的策略。

在本实现中，RL-AAN模型的特点包括：状态S(k) = [ē_pos(k), ē_neg(k), e⁺_pos(k), e⁺_neg(k)]，其中ē_pos(k), e⁺_pos(k) 和 ē_neg(k), e⁺_neg(k) 分别是在第k个周期内测量的正误差（与扰动力F_pert方向相同）和负误差（与F_pert方向相反）的平均值（上划线表示）和峰值（上标+表示）。可能的动作是阻抗参数g(k) ∈ [0, 0.5] mm^-1。即时成本为r(k) = S^T(k)ΛS(k)，其中Λ ∈ R^4×4是一个正定对角权重矩阵。执行器和评判器网络都是具有一个隐藏层和S型激活函数的非线性前馈神经网络。评判器NN的权重使用学习率α_c的梯度下降法更新，以最小化时间差分误差的二次成本E_c(k)。执行器NN的权重使用学习率α_a的梯度下降法更新，以最小化执行器成本函数E_a(k)，该函数是近似长期成本V?(k)（代表运动误差）和当前机器人辅助水平g(k)的凸组合的平方，其相对重要性由控制目标U_c(k)调制。U_c(k)根据用户在过去w_U个周期的表现，通过特定规则进行更新，本质上控制了运动训练中两个相互冲突的目标之间的平衡：最小化外部辅助以鼓励主动努力，与最小化运动误差以促进正确任务执行。当用户表现良好时，控制器增加U_c，从而接受更大的运动误差并进一步惩罚机器人引导，导致操纵杆更顺从。相反，当运动误差增加时，控制器减少U_c，加强辅助作用以减少运动误差。此外，可接受的误差水平η(k)根据用户在过去w_η个周期的表现进行更新，形成了一种基于表现课程学习的结构，允许RL-AAN控制器不仅调整辅助水平，还能根据用户表现调整任务难度。

为了验证RL-AAN控制器的有效性，研究团队将其与传统的ILC-AAN控制器进行了比较。实验在一个定制的平面缆驱动并联机器人(CDPR)上进行，该机器人通过四根平行排列的涂层钢缆对其末端执行器（操纵杆）施加所需的平面力。参与者进行了一系列平面点对点臂部伸展任务，需要沿着显示在屏幕上的参考直线路径移动操纵杆，以到达六个预定目标之一，同时抵抗外部扰动力和机器人提供的辅助力。扰动力F_pert被定义为与操纵杆瞬时速度垂直且与其大小成正比。辅助力F_AAN则由一个非线性阻抗定律产生，该定律在参考路径周围创建了一个对称的非线性弹性虚拟墙，其斜率由阻抗参数g控制。

研究招募了15名健康成年人参与实验，每位参与者分别体验RL-AAN和ILC-AAN两种控制器，两次访问间隔至少48小时以消除残留效应。实验协议包括熟悉化(FAM)、基线(BSLN)、训练前(PRE)、四个训练阶段(T-1至T-4)以及三个训练后(PT1至PT3)评估阶段。在训练阶段，控制器根据参与者的表现周期性地调整阻抗参数g。

主要技术方法

研究采用定制开发的缆驱动并联机器人(CDPR)作为实验平台，其工作空间为630 mm × 630 mm。机器人辅助臂部伸展任务通过一个严肃游戏实现，用户需在扰动下沿指定路径移动操纵杆。辅助力场通过非线性阻抗定律生成，其刚度参数由RL-AAN或ILC-AAN控制器实时调整。RL-AAN控制器基于动作依赖启发式动态规划(ADHDP)框架，包含执行器和评判器两个神经网络，通过梯度下降法在线学习最优策略，动态平衡运动误差与机器人辅助。ILC-AAN控制器则采用比例迭代学习控制律，依据最近一次运动的误差更新阻抗参数。实验对15名健康成人进行了对照研究，比较两种控制器在促进运动适应和短期保持效果方面的差异。

研究结果

训练期间的运动适应

在代表参与者身上，RL-AAN控制器在整个运动重复（周期）中时间差分误差t_d持续较小，表明对V?的估计准确。U_c的趋势取决于最近的运动误差。当U_c为1时，RL-AAN控制器不提供辅助（g为零）。相反，当U_c降低时，执行器NN通过增加g来响应。此外，持续的良好表现导致RL-AAN控制器增加任务难度（即降低η），而表现下降则产生相反效果。与RL-AAN控制器相比，ILC-AAN控制器产生的g通常更大且更稳定，表明辅助更僵硬且响应性较差。在组水平上，两种控制器在PRE到T-1期间都引起了ē_pos的显著减少。然而，RL-AAN控制器表现出比ILC-AAN控制器更顺从的行为，如显著更低的g值所示。有趣的是，LMM分析还揭示了RL-AAN控制器从T-1到T-4在ē_pos%方面的显著改善，同时伴随着ē_neg%的显著增加。这些趋势共同表明从补偿不足到过度补偿的明显转变，这在ILC-AAN控制器中未观察到。此外，随着RL-AAN训练的进行，在高任务难度(η_high)下执行任务的次数增加，而在低任务难度(η_low)下的次数减少，表明控制器成功诱导了训练期间的运动适应。在捕捉试验（意外撤除辅助和扰动）中，两种控制器都显示出在捕捉试验周期相比前一周期ē_neg的显著增加，证明了与人类运动适应相关的内部前馈模型的形成。

训练后的保持效果

对训练后数据的LMM分析显示，在RL-AAN训练后，相对于PRE表现，补偿不足（即正的Δē_pos%）立即出现显著减少，并且在所有三个PT阶段都保持了这种改善，没有表现出明显的性能下降。虽然在ILC-AAN训练后也立即观察到了补偿不足的显著减少，但其改善程度小于RL-AAN训练后的观察结果，表明RL-AAN训练后任务执行更准确。这很可能是由于参与者在训练期间过度依赖ILC辅助。PT1在T-4结束后仅1分钟开始，当僵硬的ILC辅助被突然移除时，受试者必须重新适应以在没有机器人引导的情况下有效抵消F_pert。RL-AAN方法在整个训练过程中产生了更顺从的辅助，从而减轻了这种不良的后效。总之，在RL-AAN控制器训练期间更多地暴露于扰动，引发了训练后更准确的目标运动保持，与ILC-AAN控制器相比，性能的增益主要由抵消F_pert的较低倾向（即更少的补偿不足）所驱动。

结论与讨论

本研究引入了首个在线RL-based AAN策略，明确设计用于在上肢伸展练习期间促进运动准确性和用户主动努力。提出的RL-AAN控制器采用ADHDP框架，根据用户最近的表现调节机器人辅助水平。与其它用于上肢康复的RL-based控制器不同，该控制器在执行器成本中动态调整用户表现和努力之间的平衡，并通过控制目标U_c和任务难度η来鼓励主动参与和促进运动适应。

通过在健康个体身上使用缆驱动康复机器人进行的测试，RL-AAN控制器在训练期间优于ILC-AAN控制器，在用户身上引发了相似水平的运动准确性，同时施加了显著更低的辅助。此外，研究参与者在RL-AAN控制器训练后表现出更准确的目标运动保持。

这项工作为持续研究证明个性化在pHRI和机器人辅助训练中的益处做出了贡献，为未来在脑损伤人群中的验证研究铺平了道路。然而，该研究也存在一些局限性，例如可接受误差阈值和网络学习率是手动设置的，可能无法很好地推广到具有异质性功能损伤的用户。未来的工作应包括对表格I中参数的自动优化，以及比较RL-based和ILC-based辅助与无辅助练习（仅提供视觉反馈）的对照组。在将这种方法应用于脑卒中后个体之前，还需要进行大量的调整和验证工作，因为他们的损伤特征会深刻影响任务表现。

总之，RL-AAN控制器代表了一种有前途的个性化机器人辅助康复方法，它通过自适应地调整辅助水平和任务难度，有效地促进了用户的主动参与和运动学习，展示了在康复领域应用的巨大潜力。

热点排行

新闻专题