奖赏与不确定性历史对大鼠决策的差异化调控：基于强化学习的动态概率反转学习研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Uncertainty and reward histories have distinct effects on decisions after wins and losses

【字体：大中小】 时间：2026年02月01日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对动物如何整合反馈信息进行适应性决策的科学问题，通过动态概率反转学习任务，揭示了大鼠在奖赏不确定性环境中对胜负反馈的不对称学习机制。研究人员开发了整合不确定性历史（通过无符号奖赏预测误差）和主观奖赏历史的强化学习模型，发现可预测环境和低不确定条件下，大鼠更重视胜利反馈（高胜留-低败移策略），且存在性别特异性差异。该研究为理解适应性决策的潜在计算机制提供了新视角。

在复杂多变的环境中，如何根据反馈信息灵活调整决策策略，是智能行为研究的核心议题。动物实验反复证实，生物体对正负反馈的学习存在显著不对称性，这种"偏袒式学习"现象虽被广泛记录，但其背后的计算神经机制始终迷雾重重。特别是在动态环境中，当奖赏规则不断变化时，大脑如何通过表征环境不确定性来差异化处理成功与失败经验，更成为领域内亟待破解的谜题。

为揭开这一机制的神秘面纱，研究团队以大鼠为模型，开展了一项精巧的动态概率反转学习研究。通过设计具有可变奖赏预测性的任务模块，科学家们首次揭示了不确定性历史与奖赏历史如何像两个默契的指挥家，共同调控着大鼠对胜负反馈的敏感度。当环境信号清晰可辨时，大鼠展现出令人惊叹的决策智慧：它们会更重视胜利的喜悦而非失败的教训，通过提高"胜利后坚持"的概率同时减少"失败后转换"的倾向，这种精妙的不对称学习策略使它们能够锁定正确选择，同时淡化偶然失败带来的干扰。

更引人入胜的是，研究发现了性别特异性的计算模式。雄性大鼠在做出"胜留"决策时，其不确定性历史的影响权重显著高于雌性个体。这一发现不仅揭示了决策机制的性别二态性，更提示了神经计算通路可能存在的本质差异。

关键技术方法：

研究采用动态概率反转学习任务范式，通过可变奖赏预测性区块设计，结合基于无符号奖赏预测误差（unsigned reward prediction error）的不确定性历史量化方法和主观奖赏历史计算模型，建立了强化学习框架下的行为分析体系。实验使用大鼠行为数据集，通过计算建模分析胜留-败移概率等行为指标。

不确定性历史对决策的调控机制

研究人员通过构建整合不确定性历史和主观奖赏历史的强化学习模型发现，在环境可预测性较高的条件下，大鼠表现出显著的不对称学习模式。当动物对"正确"选择具有较高确信度时，它们赋予胜利反馈的权重明显超过失败反馈，具体表现为胜留概率升高而败移概率降低。这种策略优化使大鼠能够在稳定环境中保持优势选择，同时有效过滤偶然性失败的干扰。

环境可预测性的调节作用

研究结果显示，环境可预测性是不对称学习的关键调节因子。在奖赏规则相对稳定的任务阶段，大鼠能够快速建立有效的决策策略，其不确定性评估系统会主动调整对胜负反馈的敏感度。这种动态调节机制体现了生物体对环境统计规律的自适应能力，为理解柔性决策的神经基础提供了重要线索。

性别特异性计算模式

深入分析揭示了有趣的性别差异：雄性大鼠在胜留决策过程中更易受到不确定性历史的影响。这种性别特异性计算模式表明，尽管两性个体都采用不对称学习策略，但其背后的神经计算过程可能存在本质区别，这为研究决策机制的生物学基础开辟了新的方向。

研究结论与意义

该研究通过计算建模和行为分析，首次系统阐明了不确定性历史与奖赏历史在调节胜负反馈权重中的独立作用。发现的不对称学习策略不仅是生物体适应动态环境的重要行为机制，更揭示了内在计算过程的复杂性。特别是性别差异的发现，强调了对决策神经机制进行研究时需要考虑生物学因素的重要性。这些成果为理解智能行为如何通过潜在计算过程实现环境自适应提供了全新视角，对神经科学和人工智能领域都具有深远影响。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号