运动活力的多巴胺编码:奖励预期误差实时调控人类伸手动作活力的神经机制

《SCIENCE ADVANCES》:Rapid dopaminergic signatures in movement: Reach vigor reflects reward prediction error and learned expectation

【字体: 时间:2026年03月01日 来源:SCIENCE ADVANCES 12.5

编辑推荐:

  本研究探索了多巴胺(DA)相关的奖赏学习信号如何快速调节人类运动活力。通过设计一个带概率奖赏的伸手任务,研究者发现,伸手动作的峰速度随奖赏预期(Expected Value)增加而提高。至关重要的是,在获得结果反馈后,伸手速度会依据奖赏预期误差(RPE)的符号和大小被瞬时增强或减弱。试次间的运动学变化反映了价值更新,这与多巴胺阶段性学习信号一致。这些结果首次揭示了运动活力在毫秒级时间尺度上受到奖赏学习信号的实时调制,为大脑动机计算如何影响运动控制提供了直接的行为学证据。

  
当我们在游戏中为了获得高分而奋力一击,或在工作中为了完成任务而加快节奏时,我们的动作会变得更加有力、迅速。这种“运动活力”的提升,普遍认为与对目标的预期价值有关——我们期待的奖励越高,动作就越有劲儿。但大脑究竟是如何将“觉得某事值得做”这种主观动机,转化为“快速有力地去做”这种具体动作指令的呢?长期以来,神经科学界一直怀疑神经递质多巴胺(DA)是连接价值与活力的关键桥梁。多巴胺神经元不仅编码奖赏预期和“奖赏预期误差”——即实际所得与预期之间的落差,这一学习的关键信号,还深入参与运动控制。那么,一个诱人的假设便是:我们的运动活力,或许能像一面“镜子”,实时反映出大脑内部这些微妙的多巴胺学习信号。然而,这种关联是否真的存在?它是在动作启动时就已决定,还是能在动作执行过程中被即时调整?为了解答这些问题,一篇发表在《SCIENCE ADVANCES》上的研究,通过精巧的行为实验,首次在人类身上捕捉到了运动活力动态追踪多巴胺经典学习信号的直接证据。
研究者们运用了基于机器人臂的伸手任务、细致的运动学分析、广义线性混合模型、一维统计参数映射以及贝叶斯分层学习模型等关键技术方法。在实验中,参与者使用KINARM机器人臂控制屏幕上的光标,完成“出-回”式伸手动作。任务的核心是四个与不同奖赏概率(0%、33%、66%、100%)相关联的虚拟目标。通过对比“明确告知概率”与“让参与者从经验中学习”两种实验条件,研究者系统探讨了运动活力与奖赏预期、奖赏预期误差、学习价值以及奖赏历史等多重因素的关系,并分析了生物力学努力(目标方向)对选择和活力的影响。
结果
实验1:明确奖赏预期下的活力反应
  • 峰速度追踪奖赏预期:当提示目标的奖赏预期E[R]增加时,伸手出去动作的峰速度也随之增加。到达目标的时间则随着奖赏预期增加而减少。反应时也随E[R]增加而降低。
  • 返回速度受RPE影响:在参与者击中目标并获得(或未获得)奖赏反馈后,其返回动作的速度受到该试次奖赏预期误差的显著影响。在控制向外峰速度等因素后,RPE对返回峰速度有显著正向效应。即时速度的标准化分析显示,在反馈呈现后212毫秒,RPE对相对速度就产生了显著的负向效应(即更大的正RPE导致更大的返回活力)。同一试次内,向外与返回峰速度的差异也随RPE显著变化,RPE越正,差异越小。
实验2:学习价值下的活力与选择
  • 选择行为反映奖赏预期和努力:在未告知概率、需从经验中学习的任务中,参与者在后续的选择试次中能够选择奖赏概率更高的选项,平均准确率为71%。选择准确率和反应时都随着选项间隐藏奖赏期望的差值增大而提高/减少。同时,目标方向(代表生物力学努力)显著影响决策,当更高奖赏的选项所需努力更小时,其被选择的频率更高。
  • 单目标试次活力追踪预期并反映学习:在学习的单目标试次阶段,向外峰速度对奖赏预期的反应斜率随着试验的进行而增加,表明活力动态响应了概率性奖赏,反映了学习过程。在学习阶段结束时,峰速度对奖赏预期的反应斜率能预测该受试者在后续选择试次中的准确率。
  • 返回速度变化追踪RPE:与实验1类似,即使在需学习的环境中,返回动作的活力依然受到RPE的快速调制,效应出现在反馈后214毫秒。RPE对同一试次内向外与返回峰速度的差异也有显著影响。
  • 生物力学努力减慢向外峰速度:在两次实验中,平均向外峰速度均因目标方向(即相对惯性)而异,朝向惯性较小方向的动作更快。这表明努力成本影响了基础运动活力。
  • 单目标试次主观活力反应预测选择:参与者在单目标试次末期对不同目标的相对峰速度,与其在后续选择试次中选择这些目标的频率显著相关。峰速度差异可以直接预测选择偏好率。
价值估计
  • 学习价值能更好地解释单目标试次活力:研究者构建了一个贝叶斯分层Delta规则学习模型,从选择行为中估计每个试次、每个目标的主观学习价值,该价值整合了奖赏和主观努力成本。模型显示,学习价值能显著预测单目标试次的向外峰速度,且其预测效果优于仅使用奖赏期望。此外,试次间的价值更新与相继试次间峰速度的变化显著相关,而价值预期误差对同一试次内向外与返回峰速度的相对差异也有显著影响。
  • 近期奖赏历史导致更快动作:在控制当前试次价值的情况下,整合了近期奖赏接收历史的“奖赏历史”变量,在两次实验中均能独立地预测向外峰速度的增加。这表明存在一种与特定目标价值无关、但能普遍增强运动动机的奖赏历史效应。
结论与讨论
RPE快速影响进行中的运动
本研究首次证明,奖赏预期误差能在进行中的运动上产生调节作用,导致与预期误差符号相符的加速或减速,且此效应与预期误差的大小成比例。这种快速的活力反应,可能与由阶段性RPE信号时间整合引起的纹状体多巴胺水平快速升降有关。研究表明,从感觉输入到观察到行为效应(约212-214毫秒)的时间过程,与已知的感觉运动奖励预测通路延迟相符,支持了该效应源于经调谐的感觉运动奖励预测的可行性。
主观努力成本被整合进相对选择偏好和运动活力
研究发现,个体在花费生物力学努力以获得金钱奖赏的意愿上存在差异,且这种差异既体现在选择行为上,也体现在先前单目标试次的运动活力上。目标方向对选择偏好的影响大小与对个体运动活力的影响大小相关。研究采用的价值学习模型假设价值预期误差整合了奖赏和努力,该模型能更好地描述选择数据,并且学习价值能有效预测运动活力在多个时间尺度上的变化。这支持了奖赏和努力成本可以被结合成一个单一的、主观的决策变量,该变量同时描述了个体化的运动活力和选择偏好。
环境确定性可能解释奖赏历史反应的差异
研究结果凸显了“被告知的随机性”与“体验的随机性”之间的差异。RPE对运动活力的效应在两种环境中是相似的。最明显的区别在于近期奖赏历史的影响。在需学习的环境中,奖赏历史对活力的影响具有更长的“记忆”,缓慢整合多次试次;而在明确告知概率的环境中,其影响更“冲动”、衰减更快。这可能反映了环境不确定性的差异,当平均奖赏期望必须通过经验学习时,更新速率会降低。
总结
两项实验共同证明,运动活力对多巴胺学习和动机的神经关联具有跨时间尺度的敏感性。活力随奖赏可能性增加而增加,并在进行中运动中根据RPE被快速、按比例调整。从选择行为中建模得到的特定于试次的学习价值,可整合奖赏和主观努力,并预测个体在不同时间尺度上的伸手活力。此外,与特定目标价值无关的近期奖赏历史也能显著增强活力。这些结果强调了已知的短时程多巴胺学习信号与运动活力增强之间的联系,这种联系不仅出现在提示呈现和动作启动时,也出现在反馈提供后正在进行运动的即刻。这为多巴胺在学习、动机和运动控制中的三重角色如何共同塑造行为提供了新的见解。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号