自身与替代经历在强化学习中对情景记忆的共同影响

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Science of Learning》：Shared effects of one’s own and others’ experiences during reinforcement learning on episodic memory

【字体：大中小】 时间：2026年03月02日 来源：npj Science of Learning 3

编辑推荐：

　　人类如何将亲历的奖赏预测错误与观察他人时产生的替代性奖赏预测错误整合，进而塑造记忆，是理解社会学习与记忆交互机制的前沿问题。研究人员围绕“奖赏预测错误(RPEs)在经验和观察性强化学习中对情景记忆的调节作用”这一主题，采用决策任务和偶然记忆范式开展研究。结果表明，尽管两种学习条件下的记忆识别准确率无差异，但亲历试次引发了更高的记忆信心，且赌博行为与积极RPEs共同促进了对记忆项目的编码。该研究发表于《npj Science of Learning》，揭示了观察性学习与经验性学习在神经编码机制上的共性，为理解社会互动如何影响记忆形成提供了新视角。

在生活的舞台上，我们不仅是自己故事的演员，也是他人经历的观众。我们从个人尝试与错误中汲取教训，也会通过观察他人的成败得失来调整自己的行为，这种向他人学习的能力是社会生活的基石。这背后涉及一种名为强化学习(Reinforcement Learning)的基本机制，它帮助我们根据行为的后果（奖赏或惩罚）来优化未来的选择。在这个机制中，奖赏预测错误(Reward Prediction Error, RPE)扮演着关键角色，它量化了实际结果与预期之间的差异，是驱动学习和行为调整的核心信号。当我们亲自行动并获得意外惊喜（正RPE）或失望（负RPE）时，大脑会利用这些信号来强化或削弱相关的记忆与行为路径。但一个有趣且未完全阐明的问题是：当我们只是“旁观”他人经历类似的成败时，大脑中产生的、对应于他人的“替代性奖赏预测错误”（vicarious RPEs）是否具有同样的魔力？它能否像我们亲身经历产生的RPE一样，深刻地刻录下当时的场景，塑造我们的情景记忆(Episodic Memory)？

此前的研究已证实，个人直接经验产生的RPEs与记忆的形成密切相关。然而，对于观察性学习(Observational Learning)中产生的替代性RPEs是否以及如何影响记忆，科学界仍知之甚少。理解这一点，对于揭示社会互动如何内化为个人知识、如何影响我们的决策与记忆网络具有根本性的意义。为了填补这一知识空白，一项发表在《npj Science of Learning》上的研究，由Guggenmos等人开展，巧妙地设计实验，探索了经验和观察两种强化学习途径如何共同塑造我们对事件（情景）的记忆，并特别检验了RPEs在这一过程中的作用。

研究人员采用了一项结合决策任务与偶然记忆范式的实验。在实验中，参与者会亲身体验一个赌博决策任务（经验学习条件），也会观察另一位虚构玩家的赌博选择与结果（观察学习条件）。任务中呈现的图片（记忆项目）与赌博决策相关联。在之后出其不意的记忆测试中，参与者需要对之前出现过的这些图片进行再认判断，并报告他们的信心水平。通过计算和分析参与者在任务中的选择、获得的奖赏、以及由此产生的RPEs（包括基于自身结果的经验RPEs和基于观察他人结果的替代性RPEs），研究者能够精细地剖析不同学习来源的RPEs对后续记忆表现的影响。

研究者们得到了几个重要发现。首先，在宏观的记忆准确性上，无论是通过亲身经历还是通过观察他人学到的信息，其最终的记忆再认准确率并没有显著差异。这表明，观察学习作为一种间接的信息获取方式，在形成事实性记忆方面可以与直接经验一样有效。然而，一个微妙的差异出现在记忆的主观体验上：参与者对自己在亲身经历试次中编码的图片，其记忆信心显著高于在观察试次中编码的图片。这说明，尽管“记住”的结果可能相同，但“记得牢不牢靠”的感觉却因学习来源而异，亲历往往带来更确定、更强烈的记忆感。

更关键的发现在于奖赏预测错误(RPEs)的作用机制。分析显示，无论是个人亲历的赌博决策行为本身，还是在记忆项目呈现时伴随的正向RPEs（无论是来自自身经验还是观察他人），都与该记忆项目随后被更好地记住（更高的记忆强度）显著相关。换言之，当一次选择伴随冒险（赌博），或者当结果带来意外的惊喜（正RPE）时，无论这惊喜是自己感受到的还是为他人感到的，当时正在呈现的“场景”（记忆项目）都会被更深刻地编码进大脑。这一模式跨越了经验和观察两种学习条件，强烈暗示了存在一种共享的、通用的记忆编码机制：积极的预测错误信号（正RPE）和相关的决策上下文，共同构成了一个高效的“记忆增强器”，它并不严格区分信号的来源是“第一人称”还是“第三人称”。

这项研究的结论深化了我们对社会学习与记忆交互的理解。它表明，观察他人的选择和结果不仅仅影响我们未来的决策策略，还能通过激发与亲身经历相似的神经信号（如替代性RPEs），实质性且有效地塑造我们对相关事件的情景记忆。研究强调了在经验和观察性强化学习中，记忆编码机制存在共性，正RPEs作为一种关键的计算信号，能够跨模式地促进记忆巩固。这为理解人类如何在社会环境中高效学习和记忆提供了新的计算与神经框架，也将观察性学习的研究从单纯的行为模仿，延伸到了更深刻的记忆形成与整合层面。未来，探索不同社会关系、情感共鸣等因素如何调节这种替代性RPEs对记忆的影响，将是极具前景的方向。

联系信箱：

粤ICP备09063491号

热点排行