经济决策的神经环路机制：从价值计算到多任务组合的循环神经网络模型

《Neuron》：A neural circuit framework for economic choice: From building blocks of valuation to compositionality in multitasking

【字体：大中小】 时间：2026年02月05日 来源：Neuron 15.3

编辑推荐：

　　为揭示经济决策的神经基础，研究人员训练了具有生物约束的兴奋-抑制循环神经网络（RNN）执行多种经济选择任务。研究发现，该网络通过前馈通路近似乘法计算整合奖励特征，通过竞争性循环抑制（CRI）机制实现赢家通吃（WTA）的价值比较，并形成了支持任务间知识迁移的组合性神经表征。该模型为理解大脑如何实现灵活、通用的决策提供了可检验的机制性框架。

在日常生活中，我们时刻面临着各种经济选择，比如在超市里挑选商品，或者在投资时权衡风险与收益。这些看似简单的决策背后，隐藏着大脑复杂的计算过程：我们需要评估不同选项的价值，比较它们，并最终做出选择。理解大脑如何完成这些计算，是神经科学和经济学交叉领域的核心问题之一。长期以来，研究人员发现，大脑前额叶皮层（OFC）的神经元会编码选项的“价值”，但单个神经元如何协同工作，形成复杂的决策电路，并灵活应对多种不同类型的决策任务，仍然是一个未解之谜。传统理论模型往往侧重于描述决策的输入和输出，而对其中间的神经环路机制缺乏详细的、可验证的计算解释。

为了回答这些根本问题，一项发表在《Neuron》杂志上的研究，构建了一个受生物学启发的循环神经网络模型，成功模拟了从简单到复杂的一系列经济决策行为。该研究并非旨在简单地复刻已知的神经活动模式，而是试图提出具体的神经环路机制，来解释决策中的几个基本计算过程。研究人员想知道，一个由兴奋性和抑制性神经元组成的网络，能否通过强化学习自发地发展出类似大脑的决策策略？其内部的“布线”方式有何规律？更重要的是，同一个神经网络能否学会处理多种不同的决策任务，并展现出类似“举一反三”的组合性智能？

为了探究这些问题，研究人员设计了一个包含256个神经元的循环神经网络（RNN），其中80%为兴奋性神经元，20%为抑制性神经元，以符合大脑皮层的实际情况。网络遵循Dale定律，即兴奋性神经元只能产生兴奋性输出，抑制性神经元只能产生抑制性输出。研究人员通过最先进的近端策略优化（PPO）强化学习算法训练该网络，使其在虚拟环境中学习完成五种不同的经济选择任务。这些任务模拟了灵长类动物实验中的经典范式，包括在两种确定收益的选项间进行选择的标准任务、在包含概率（风险）的选项间选择的冒险任务、在包含多个商品的组合间选择的捆绑任务、在三种选项间选择的三元任务，以及需要记住第一个选项再与第二个选项比较的序列任务。网络通过试错学习，最终目标是最大化其获得的总奖励。

研究发现，经过训练的神经网络不仅能够熟练完成所有这些任务，其表现与灵长类动物的行为高度相似。更重要的是，对网络内部活动的分析揭示了其决策的“秘密”。首先，网络中的单个神经元表现出对特定决策变量的选择性编码，例如一些神经元专门对某个选项的价值（Offer Value）反应，一些编码最终选择的价值（Chosen Value），还有一些则直接编码选择本身（Choice）。这种功能分工与在猴子OFC中记录到的神经元类型惊人地一致。其次，在群体水平上，所有神经元的整体活动构成了一个低维的“决策空间”，不同的选择在这个空间里形成清晰的簇群，彼此分离，直观地展示了决策的形成过程。

深入分析网络的连接模式，研究人员发现了一个关键的环路机制——竞争性循环抑制（CRI）。简单来说，代表选项A的兴奋性神经元会强烈激活抑制性神经元，而这些抑制性神经元则会特异性地抑制代表竞争选项B的兴奋性神经元。这种“拉踩”机制有效地实现了赢家通吃（WTA）的竞争动态，确保网络最终能做出一个明确而非折中的选择。此外，研究还证实，网络学会的、主观的“偏好”（例如更爱苹果汁而非葡萄汁）被物理地存储在从感觉输入到决策环路的突触连接强度中。而将选项的数量和概率整合成整体价值的近似“乘法”计算，则主要由前馈通路完成。

最令人印象深刻的是，网络展现出了强大的组合性和泛化能力。当网络被训练同时处理多种任务时，它发展出了一种高效的“模块化”架构：一个核心的共享电路负责通用的价值比较计算，而针对特定任务（如序列任务的工作记忆需求）则招募专门的神经元子群。这种结构使得网络能够将在一个任务中学到的“技能”或“计算模块”迁移到新的、更复杂的任务中，从而加速学习，这类似于人类“知识迁移”或“学习如何学习”的能力。甚至，当网络只在有限的选项组合上训练后，它能够将其学到的估值规则推广到从未见过的、全新的选项组合上，这表明网络真正掌握了价值计算的抽象数学结构，而非仅仅记住了训练样例。

关键研究方法

本研究核心是训练具有生物物理约束的兴奋-抑制循环神经网络（RNN）来执行经济决策任务。主要技术方法包括：1）网络架构与训练：构建遵循Dale定律的连续时间RNN，使用近端策略优化（PPO）强化学习算法进行端到端训练，奖励信号基于选择结果。2）行为与神经分析：采用逻辑回归定量分析网络的选择行为，提取关键参数（如相对价值、风险态度）；运用主成分分析（PCA）、参与率（PR）等方法降维并可视化群体神经活动动力学。3）因果机制验证：通过计算性“切除”实验（如沉默特定类型神经元或突触连接）来检验不同环路成分的功能必要性。4）泛化与组合性测试：设计零样本泛化实验（测试网络处理未见刺激的能力）和课程学习协议（测试知识迁移）来评估网络的灵活性与组合性表征。

研究结果

网络成功学习多种经济决策任务

研究人员训练了20个独立的网络，它们全部成功学会了五种经济选择任务，表现出与灵长类动物相似的高选择准确性和心理测量函数。逻辑回归分析表明，网络的行为完全由选项价值驱动，并且能够从奖励反馈中准确推断出隐藏的主观偏好（如相对价值ρ）。网络在任务中表现出的绩效与任务复杂度成反比，例如在同时呈现选项的简单任务中表现最佳，而在需要工作记忆的序列任务中表现稍弱，这与生物学数据一致。

单个神经元编码关键的决策变量

对训练好的网络进行单神经元分析发现，其神经元表现出与灵长类OFC中观察到的类似的功能分类，包括编码选项价值、选中价值和选择行动的神经元。这些神经元表现出高度特化的编码，其选择性在时间上保持稳定。值得注意的是，不仅兴奋性神经元，抑制性神经元也广泛参与编码这些决策变量，并且同时存在正调和负调的神经元，这种异质性是实现有效竞争和计算的关键。

群体动力学揭示价值比较的几何结构

在群体水平上，神经活动被限制在低维流形上。通过主成分分析（PCA）发现，种群状态在决策空间中有序地组织起来：最终选择将活动分离成不同的簇，而每个簇内的位置则由选中价值的大小决定。这种几何结构在所有网络中都是一致且稳健的。当通过计算手段“切除”掉网络中的循环连接后，网络虽然仍能编码价值信息，但完全丧失了做出选择的能力，这证明循环连接对于实现价值比较至关重要。

解构价值计算与比较的环路机制

进一步分析揭示了网络实现计算的具体机制。首先，前馈输入通路通过其神经元群体的混合选择性活动，近似实现了选项数量与概率的乘法运算，从而计算每个选项的总价值。其次，价值比较是通过一种称为竞争性循环抑制（CRI）的特定微环路实现的，即选择特异性的兴奋性神经元驱动抑制性神经元，后者再抑制代表竞争选项的兴奋性神经元。计算性切除实验因果性地证明了这种CRI机制对于实现赢家通吃的决策是必需的。

组合性表征支持多任务处理与知识迁移

当网络被训练同时处理所有任务时，它发展出了组合性的神经表征。分析表明，标准、冒险、捆绑和三元任务共享一个高度重叠的神经活动子空间，而序列任务由于其独特的时间结构需求，则占据了另一个近乎正交的子空间。通过聚类分析，研究人员识别出负责通用计算的“共享”神经元群和负责特定任务（如三元选择、序列记忆）的“专用”神经元群。课程学习实验表明，先在简单任务（如标准任务）上训练，能显著加速后续学习复杂任务（如三元任务）的速度，证明网络形成了可迁移的“图式”。

乘法性价值计算支持对新选项的泛化

为了验证网络是否真正学会了价值计算的抽象规则，研究人员设计了一项关键的泛化测试。他们训练一组网络仅使用数量和质量不同时变化的“十字形”受限选项集。测试时，网络面对的是覆盖整个数量-概率组合空间的、全新的选项。结果发现，网络能非常准确地对这些从未见过的选项进行估值和选择，其核心行为参数与训练时保持一致。这表明网络并非死记硬背，而是学会并推广了价值计算的乘法性核心规则。

研究结论与意义

这项研究通过构建和分析一个受生物学约束的循环神经网络模型，为经济决策的神经机制提供了一个连贯的、机制清晰的框架。该模型表明，复杂的经济选择可以通过相对简单的神经网络原理实现，这些原理包括：在前馈通路中通过群体编码近似非线性计算（如乘法）、在循环通路中通过特定的兴奋-抑制微环路（CRI）实现竞争性决策、以及通过组合性表征来高效地组织和复用计算资源。

该研究的深远意义在于，它将不同层次的现象——从突触可塑性、单神经元调谐、群体动力学到可观察的行为——联系到了一个统一的计算框架下。模型提出的具体机制，如主观偏好存储在输入权重中、价值比较通过CRI motif实现等，均为未来的实验研究提供了清晰且可检验的预测。此外，该模型作为一个强大的计算平台，可用于探索决策偏见的电路起源、多脑区协同决策以及认知障碍下的决策异常等问题。最终，这项工作推动了我们对大脑如何通过分布式神经回路的活动来实现灵活、鲁棒且智能的决策行为的理解。

热点排行

新闻专题