编辑推荐:
伏隔核壳区(NAcs)是奖赏引导行为的关键脑区,但其如何在不同学习模式和训练阶段编码奖赏大小尚不清楚。研究人员通过光纤光度法记录大鼠在巴甫洛夫与操作性任务中的NAcs钙活动。结果发现,NAcs活动在接受奖赏后持续反映奖赏大小,但信号的时间和形式取决于任务类型与训练经验。研究表明,NAcs神经元主要在奖赏接收点编码奖赏大小,且这种编码随学习类型与训练时长动态调整,为理解其在奖赏驱动行为中的动态、情境特异性作用提供了新见解。
想象一下,你的大脑里有一个负责处理“奖励”信息的关键区域,它就像一个精明的财务顾问,时刻评估着不同行动可能带来的“收益”大小,并据此指导你的行为。这个区域就是位于大脑深处的伏隔核(Nucleus Accumbens, NAc),尤其是其壳区(shell, NAcs)。无论是闻到美食的香味(条件刺激)让你流口水,还是学会按按钮获得零食(操作性行为),NAcs都深度参与其中。然而,尽管我们知道NAcs对奖赏至关重要,但一个核心问题长期悬而未决:它究竟如何编码不同大小的奖赏?这种编码方式是否会因为我们是被动接受信号(如巴甫洛夫条件反射)还是主动做出选择(如操作性条件反射)而不同?又是否会随着我们学习经验的积累而发生改变?理解这些动态过程,对于揭示我们如何根据预期价值调整行为、乃至成瘾和抑郁症等涉及奖赏系统失调的疾病机制都至关重要。
发表在《Neurobiology of Learning and Memory》上的这项研究,正是为了回答这些问题。研究团队的核心目标是探究NAcs神经元群体活动(通过钙信号反映)在编码奖赏大小时,如何受到学习模式(巴甫洛夫 vs. 操作性)和训练阶段(早期 vs. 晚期)的影响。他们假设,NAcs对奖赏大小的编码并非一成不变,而是具有高度的情境依赖性和动态演变特性。
为了系统性地回答这些问题,研究人员设计了一套精巧的多阶段行为学实验。他们使用光纤光度法(fibre photometry)这一关键技术,在大鼠执行任务时,实时记录其NAcs内表达钙指示剂jGCaMP7f的神经元群体的钙离子活动变化。这种方法可以反映大群神经元的总体活动水平。实验对象为长埃文斯大鼠,所有程序均符合澳大利亚动物伦理规范。行为实验分为五个连续阶段:1)杂志训练;2)巴甫洛夫条件反射阶段,大鼠学习将不同音调(条件刺激, CS)与不同数量(1粒或3粒,代表小奖赏和大奖赏)的蔗糖颗粒关联;3)操作性训练阶段,大鼠学会用鼻触(nose-poke)动作获取单粒奖赏;4)强迫选择训练阶段,大鼠学习根据提示光选择正确的鼻触孔;5)奖赏大小决策任务阶段,不同鼻触孔对应不同奖赏大小(1粒或3粒)。在整个过程中,研究人员在早期和晚期训练阶段分别记录了NAcs的钙信号,并分析了其与线索呈现、动作执行以及奖赏接收等关键事件的关系。
主要技术方法概述:本研究主要采用了光纤光度法,通过在大鼠的伏隔核壳区(NAcs)表达基因编码的钙指示剂jGCaMP7f,并植入光纤探针,以记录神经元群体的钙活动。行为实验在Med-Associates操作箱中进行,训练大鼠依次完成巴甫洛夫条件反射和操作性条件反射(包括鼻触训练、强迫选择及奖赏大小决策)等多阶段任务。数据分析采用自定义MATLAB脚本处理钙信号,并使用自助法(bootstrapping)和置换检验(permutation tests)进行统计推断,以确定信号相对于基线的变化以及不同条件间的差异。
研究结果
3.1. 阶段1:杂志训练与阶段2:巴甫洛夫条件反射
- •
行为:大鼠成功建立了条件反射。在晚期训练中,对大奖赏线索的条件性反应(接近杂志的行为)更强,表明它们学会了区分线索预测的奖赏大小。
- •
神经元活动:在训练早期,无论线索预测大奖赏还是小奖赏,其呈现都会引起NAcs钙活动的瞬时增加。然而到了训练晚期,情况发生了戏剧性变化:预测小奖赏的线索仍引起活动增加,但预测大奖赏的线索却引发了NAcs活动的抑制。在奖赏交付后,早期训练时大小奖赏都引起活动增加(大奖赏更持久),而晚期训练则都转为活动抑制,且大奖赏引起的抑制更强、更持久。
3.2. 阶段3:操作性训练
- •
行为:大鼠学会了通过鼻触动作获取奖赏,消耗的颗粒数随训练增加。
- •
神经元活动:在鼻触动作发生前,NAcs活动出现明显的“爬升”(ramp-up),这在早期和晚期训练中均有出现。不同的是,在晚期训练中,鼻触动作后的NAcs活动会降至基线以下,而早期训练后则是活动增加。
3.3. 阶段4:强迫选择训练
- •
行为:大鼠能够高准确率地根据提示光选择正确的鼻触孔,且在自由选择试次中没有表现出对某一侧的群体偏好。
- •
神经元活动:无论选择正确、错误或是自由选择,在鼻触动作前都观察到NAcs活动的增加。只有在做出正确反应(即获得奖赏)后,NAcs活动才会出现显著的、持续的抑制。这表明动作后的抑制与奖赏接收密切相关。
3.4. 阶段5:奖赏大小决策任务
- •
行为:大鼠在自由选择中迅速形成了对大奖赏的强烈偏好,但在强迫选择试次中,对小奖赏线索的反应速度更快。
- •
神经元活动:在提示光(线索)出现后,晚期训练中NAcs活动有小幅增加,但与奖赏大小无关。在鼻触动作前,同样在晚期训练中出现活动爬升,也不编码奖赏大小。最关键的发现在动作之后:无论是早期还是晚期训练,鼻触动作后NAcs活动均呈现双相性抑制(先短暂抑制,后持续抑制)。更重要的是,大奖赏比小奖赏引发了更强、更长时间的抑制,且这种差异在训练晚期更为明显。
研究结论与意义
这项研究系统性地揭示了伏隔核壳区(NAcs)编码奖赏大小的动态且依赖于情境的神经机制。主要结论可归纳为以下几点:
- 1.
NAcs编码奖赏大小的主要节点在奖赏接收时刻:无论在巴甫洛夫还是操作性任务中,NAcs钙活动在接受奖赏后都清晰地区分了大奖赏和小奖赏,表现为大奖赏引起更强、更持久的抑制。这支持了NAcs在奖赏消费中的核心作用,其抑制可能通过解除对下丘脑等下游进食环路的抑制来驱动消费行为。
- 2.
线索相关的奖赏大小编码具有可塑性且依赖于学习模式:在巴甫洛夫任务中,NAcs对奖赏预测线索的反应随训练发生根本性转变:从早期不区分大小到晚期,大奖赏线索特异性地诱发抑制,而小奖赏线索仍引起激活。这种神经活动的分化与行为上对大奖赏线索更强的条件反应同步,提示其可能参与调节基于奖赏大小的条件性行为强度。然而,在操作性任务中,尽管行为上存在明确偏好,线索(提示光)或动作前的NAcs活动均未检测到奖赏大小编码信号。
- 3.
训练经验深刻重塑NAcs活动模式:无论是巴甫洛夫还是操作性任务,NAcs的活动模式在早期和晚期训练阶段均存在显著差异。例如,奖赏接收后的反应从早期的激活为主转变为晚期的抑制为主;动作前的活动爬升在操作性任务晚期更规则;奖赏大小引起的抑制差异在晚期也更显著。这表明NAcs的奖赏处理功能并非静态,而是随着学习进程不断优化和调整。
- 4.
NAcs在奖赏处理中的作用具有情境特异性:本研究直接对比了两种基本学习范式,发现NAcs对奖赏大小的编码策略因其所在的“情境”(被动关联学习 vs. 主动行动-结果学习)而异。这凸显了大脑奖赏系统的高度灵活性,其信息处理方式取决于行为需求的本质。
重要意义:这项工作超越了以往多在单一任务或训练阶段的研究,首次在同一个体上纵向比较了NAcs跨不同学习模式编码奖赏大小的动态过程。它证实了NAcs是奖赏信息的一个动态处理器,其编码策略(何时编码、如何编码)紧密依赖于行为情境和个体经验。这一发现为理解奖赏系统如何适应复杂多变的环境、灵活指导决策和行为提供了更精细的神经基础。此外,研究强调的“奖赏消费期抑制”及其与奖赏大小的比例关系,深化了我们对NAcs在动机性行为中“制动”作用的理解。未来的研究可以进一步解析NAcs内不同神经元类型(如D1R与D2R中型多棘神经元)在此过程中的特异性贡献,以及这些动态编码异常如何导致如成瘾、暴食症等奖赏相关精神疾病。