大脑皮层树突中的向量化教学信号为神经元特异性信用分配提供证据

【字体：大中小】 时间：2026年02月28日 来源：Nature 48.5

编辑推荐：

　　本文旨在解决大脑如何处理“信用分配问题”——即如何将行为结果（奖励/错误）精准地分配到网络中特定神经元以指导学习。研究人员利用神经反馈脑机接口（BCI）任务，在小鼠后压带回皮层（RSC）的第5层锥体神经元中，同时记录其胞体和远端顶树突的钙信号活动。研究发现，树突活动携带着胞体活动所不具备的信息，能够编码任务相关的奖励和错误信号，并且这些信号根据神经元在任务中的因果作用（P+ 与 P- 群体）呈现相反的符号（向量化）。通过光遗传学抑制层1的NDNF+抑制性中间神经元干扰树突信号，可导致学习受损。这项研究首次在体内为大脑通过树突的空间区隔化计算实现向量化信用分配提供了实验证据，为理解生物学习的神经机制和开发受生物启发的神经网络算法开辟了新方向。

在人工智能领域，训练深度神经网络的核心算法——反向传播（backpropagation）通过计算损失函数对每个连接权重的梯度（即误差信号），并沿着网络层次反向传递这些梯度来更新权重，从而高效地解决“信用分配问题”。然而，这一算法在时间上分离了前向传播和误差反向传播两个阶段，这被认为与大脑实时、连续的信息处理方式不符。那么，大脑这个精密的生物神经网络，是如何在复杂的层次结构中，将行为结果（例如成功或失败）精准地“归功于”或“归咎于”网络中特定的神经元和突触，从而实现高效学习的呢？这是神经科学中长期悬而未决的核心问题。

近年来，理论神经科学家提出了一个引人入胜的假说：大脑可能通过空间而非时间的分离来解决这个问题。具体来说，皮层锥体神经元的树突结构为此提供了天然的硬件基础。这些神经元接收来自不同来源的输入：来自低级或同层区域的“前馈”输入主要作用于胞体近端区域，而来自高级或反馈区域的“自上而下”输入则主要投射到顶树突（apical dendrites）。理论模型提出，这种空间隔离可能允许神经元在同一时间整合前馈信号和反馈教学信号，从而实现单阶段的、向量化的学习。其中，“向量化”意味着教学信号是针对每个神经元量身定制的，而不是一个广播给所有神经元的标量信号。这一假说虽然极具说服力，但一直缺乏直接的实验证据。

为了填补这一空白，并直接测试大脑中是否存在向量化的教学信号，研究团队设计了一项巧妙的实验。他们利用了神经反馈脑机接口（Brain–Computer Interface， BCI）任务。在这项任务中，实验者可以明确定义一个“奖励函数”——将神经活动直接映射到任务表现上。研究人员训练头固定的小鼠学习控制其后压带回皮层（Retrosplenial Cortex， RSC）中两群空间上交织的第5层锥体神经元的活性。其中一群神经元（P+）的活动会使一个视觉光栅朝向目标方向（90°）旋转，而另一群神经元（P-）的活动则使其反方向（0°）旋转。小鼠需要通过差异性地调控这两群神经元的活性来使光栅转向目标方向以获得水奖励。这个设计的关键在于，实验者完全知晓每类神经元（P+ 和 P-）对任务错误的“因果贡献”：增加P+活性会减少错误（使光栅趋近目标），而增加P-活性则会增加错误。这就为在细胞水平上检测特异性的教学信号提供了清晰的参照框架。

与此同时，研究人员使用双光子显微镜，同时记录这些神经元的胞体及其对应的远端顶树突的GCaMP7f钙信号活性。这使得他们能够比较同一神经元内，树突和胞体活动的相对关系，并探究树突是否编码了与任务表现相关的额外信息。

本研究所采用的关键技术方法包括：利用神经反馈脑机接口（BCI）任务在小鼠后压带回皮层（RSC）第5层锥体神经元中建立明确的奖励函数；使用双光子钙成像技术，通过电可调透镜半同步记录胞体与远端顶树突的GCaMP7f信号；应用支持向量机（SVM）等解码器分析群体神经活动向量与树突-胞体信号残差（SD residual）的关系；以及在NDNF-Cre转基因小鼠中进行靶向光遗传学操控，特异性激活表达ChRmine的层1 NDNF⁺抑制性中间神经元，以扰动顶树突的信号处理。

Mice learn a neurofeedback BCI task through the differential regulation of P+ and P? neurons

研究人员首先证实，小鼠能够学会这项BCI任务，其表现（成功试次比例和每分钟获得的奖励数）随着训练天数显著提升。学习伴随着神经元活动的特异性变化：P+神经元的活性在训练过程中得以维持，而P-神经元的活性则被下调。这种差异性的调控表明学习并非通过全局增益调制实现，而是涉及对特定神经元群体的精确控制。

Dendrites contain information not found in their somas

接下来，研究团队探究了树突是否包含胞体活动所不具备的信息。他们发现，尽管树突和胞体的钙瞬变事件在时间上高度相关，但它们的相对幅度存在显著差异。通过计算每个事件中树突与胞体活动幅度的残差（称为SD残差），他们发现，SD残差的大小和方向（即树突相对胞体是放大还是衰减）能够被周围网络中其他神经元在事件前2秒内的活动所预测。这意味着树突活动的变化并非随机，而是由局部网络动态编码的。进一步分析表明，树突放大的事件中，树突钙瞬变的峰值通常早于胞体峰值，这与离体研究的发现一致，提示了不同的输入来源。

Experimental perturbation of SD residuals

为了验证SD残差作为树突特异性信号的稳健性，研究团队进行了两项操控实验。首先，他们比较了小鼠清醒和麻醉状态下树突-胞体信号的关系。已知麻醉会减少自上而下的输入并抑制顶树突活动。实验结果显示，与清醒状态相比，麻醉状态下SD残差显著减小，树突活动受到相对更强的抑制。其次，他们利用光遗传学特异性激活了靶向顶树突的层1 NDNF⁺抑制性中间神经元。同样，这种操控也显著降低了SD残差。这两项独立实验证实，SD残差能够被已知影响树突输入的处理方式可预测地调控，从而确立了其作为树突相对活性指标的可靠性。

SD residuals decode reward and trial outcome

研究人员进而测试SD残差是否编码了可作为教学信号的任务相关变量。他们构建了所有被记录神经元的SD残差群体向量，并使用线性支持向量机解码器进行分析。结果显示，该群体向量能够以高于随机水平的准确率，解码一个试次是成功（获得奖励）还是失败（超时），无论是在结果交付后的2秒内，还是在结果即将发生前的2秒内。更重要的是，当光遗传学激活层1 NDNF⁺中间神经元时，这种对奖励和试次结果的解码能力被消除。这表明，局部皮层抑制在树突对任务相关变量的加工中起着关键作用。

Dendritic error signals are cell-specific and depend on the causal contribution of the neuron to the task

这是本研究最核心的发现。为了区分“标量”错误信号（所有神经元接收相同信号）和“向量化”错误信号（信号因神经元的因果角色而异）这两种假说，研究人员分析了在任务错误减少和错误增加的时间窗内，P+和P-神经元树突的SD残差。他们发现，在错误减少时期，P+神经元的树突活动相对于其胞体被放大（正SD残差），而P-神经元的树突活动则相对衰减（负SD残差）。在错误增加时期，这种关系发生了反转：P+神经元树突活动相对衰减，而P-神经元树突活动相对放大。这种符号相反的模式，正是向量化教学信号的标志——每个神经元接收到的错误信号与其对任务表现的因果贡献相匹配。这种关系在P+和P-神经元中稳定存在，且不受其胞体活动水平变化的影响。最后，当通过光遗传学激活层1 NDNF⁺中间神经元来干扰树突信号时，这种细胞特异性的错误信号模式被消除，并且小鼠在BCI任务中的学习进程受到严重损害。

Discussion

这项研究为大脑如何解决信用分配问题提供了首个细胞水平的体内实验证据。研究结果表明，大脑皮层通过锥体神经元树突的空间区隔化计算，实现了向量化的教学信号传递。这种机制使得单个神经元能够通过其顶树突接收特异性的、与任务错误相关的教学信号，从而指导突触可塑性和行为学习。本研究发现的错误信号具有梯度计算的特征，但其更类似于错误导数而非误差本身，这提示其可能与反向传播算法存在差异，而与目标传播等替代性算法更为一致。研究结果调和了关于树突功能的早期理论（强调树突分支作为独立计算单元）与近期体内研究发现（树突与胞体事件高度共现）之间的矛盾，提出了一个树突在信用分配中扮演核心角色的新框架：树突并非完全独立，而是在与胞体高度协调的同时，进行着局部、特异性的计算，以加工教学信号。

这项工作不仅推进了我们对大脑学习机制的基础理解，也为开发更高效、更具生物合理性的新一代人工智能算法（如受大脑启发的单阶段学习算法）提供了关键的神经生物学洞见。它展示了一种结合了明确理论假设、精密行为范式、细胞分辨率成像和特异性环路操控的研究范式，为未来在更复杂的认知任务中解析信用分配的神经机制铺平了道路。

热点排行