综述：社会学习与探索-利用困境的神经计算机制

【字体：大中小】 时间：2026年03月02日 来源：Frontiers in Neural Circuits 3.0

编辑推荐：

　　本综述（mini review）探讨了社会学习如何与强化学习中的探索-利用困境交互。文章回顾了两种主要社会学习策略（模仿和效仿）的神经基础，并重点讨论了社会情境（如同伴选择、群体规范）如何调节学习策略，揭示人类在“免费搭车”（Free-riding）与寻求可靠性（Reliability-seeking）之间的权衡，为理解适应性社会决策提供了新的计算框架。

在决策的十字路口：社会学习如何与探索-利用困境共舞？

引言

为了获取奖赏而进行适应性决策，是动物生存的基础。强化学习（Reinforcement Learning）理论认为，个体能够通过试错来学习能最大化累积奖赏的最优行为。这种学习被形式化为基于奖赏预测误差（Reward Prediction Error）来更新选项的价值。有趣的是，个体不仅能从直接经验中学习，还能从他人的经验中学习——这一过程被称为社会学习（Social Learning）。例如，阿德利企鹅在捕食前会通过观察同伴的行为来评估风险；人类在选择餐厅时也会参考在线评论。社会学习使我们能够获取最优行为，而不必完全依赖代价高昂的个人试错。本文聚焦于社会强化学习的计算原理，特别是两个未被充分探索的问题：个体选择向谁学习，以及他们如何调整社会学习策略来应对强化学习中的一个核心计算挑战——探索-利用困境。

个体学习中的探索-利用困境

在深入社会学习之前，有必要先理解个体情境下的探索-利用困境。经典的“餐厅问题”可以完美诠释：当你搬到新城市并找到一家心仪的餐厅后，你面临选择：是再次光顾这家已知的最爱（“利用”），还是继续探索可能更好的选项（“探索”）。探索过多，你会错过已知的美味；利用过多，则可能错过更优体验。这个权衡并非易事。计算机科学提出了多种算法来解决它，例如随机探索（Random Exploration）和定向探索（Directed Exploration）。随机探索指在决策中引入随机性，有时会以一定概率选择价值更低的选项。定向探索则更复杂，个体会考虑每个选项价值估计的不确定性，更可能选择不确定的选项。

神经科学研究表明，人类至少使用这两种可分离的策略来解决该困境，并且它们的发展轨迹不同，暗示了不同的潜在机制。计算模型也表明，人们会根据价值估计的不确定性来调整这两种探索的程度，这与汤普森采样（Thompson Sampling）和置信上界算法（Upper Confidence Bound, UCB）一致。神经影像学和脑刺激研究进一步将定向探索与腹外侧前额叶皮层（vlPFC）的神经计算联系起来，而随机探索则与背外侧前额叶皮层（dlPFC）相关。

人类社会学习的神经计算机制

大量研究结合功能性磁共振成像（fMRI）和计算建模，揭示了人类社会学习并非单一过程，而是依赖于前额叶皮层（PFC）不同子区域实现的多种互补策略。

第一种策略是学习他人的奖赏（常被称为“效仿”）。在这一过程中，观察者通过监控他人获得的结果来更新自己对选项的价值估计。这种学习的驱动力是观察性奖赏预测误差（observational reward prediction error）。神经影像学证据一致地将此信号定位到腹内侧前额叶皮层（vmPFC），这是一个处理个人价值的核心脑区。元分析进一步证实，无论奖赏接收者是自身还是他人，vmPFC都编码奖赏预测误差，表明价值更新共享着神经表征。

第二种策略是学习他人的行为（“模仿”）。与效仿不同，这个过程专注于预测同伴行为本身，而非即时结果。这种学习由动作预测误差（action prediction error）驱动，该信号通常与外侧前额叶皮层（lPFC）的活动相关，这个区域涉及推断他人的意图或隐藏状态。这些发现表明，效仿和模仿这两种不同的策略共同塑造了社会学习。

关于纹状体在社会学习中的作用，目前的研究结果并不一致。一些研究报告了观察性奖赏预测误差与背侧、腹侧纹状体神经活动之间存在显著耦合，这支持了纹状体是效仿的核心神经基础。然而，一项元分析并未发现纹状体参与编码观察性预测误差的证据。

社会学习策略的调节

在社会学习环境中，个体可以搭他人探索的“便车”。通过观察他人选择的结果，人们可以获取关于陌生选项的新信息，而无需自己亲自尝试。关键在于，向探索者学习能让个体避免探索的直接成本。经济学理论研究表明，当将个体强化学习框架扩展到多人环境时，这种信息外部性会产生搭便车问题。当探索产生的信息无法被排除时，理性个体会策略性地减少自己的探索，转而依赖他人承担成本。最终，群体的探索水平会低于社会最优水平。这些数学分析表明，社会学习并不必然产生理想的社会结果，有时反而会导致探索停滞。

然而，支持这些预测的实证证据结果不一。几项使用多人强化学习任务的研究观察到了探索的减少。在这些实验中，与个人情境相比，参与者在群体情境中表现出更低水平的随机和定向探索——这种模式与策略性搭便车一致。相反，最近的一项研究则报告了社会从众对探索的影响。在实验中，参与者与表现出不同程度定向探索的智能体一同完成任务。结果显示，接触到高度探索性的他人会导致参与者增加自身的随机和定向探索。这表明，社会信息可以促进而非抑制探索行为。总之，这些发现凸显了社会学习是抑制还是放大探索，取决于任务结构和观察到的行为。

除了聚焦探索的背景，大量文献也研究了人们如何根据他人特征调整其社会学习策略。例如，研究表明，当向高绩效者学习时，模仿的程度会选择性上调，这与观察者根据社会信息的推断可靠性对其进行加权的观点一致。另一项研究结合行为建模与连续性θ爆发刺激（cTBS）探究了何时部署模仿的神经机制。结果表明，当他人行为可预测时，模仿会被优先采用，而这种依赖可预测性的机制受到背内侧前额叶皮层（dmPFC）的因果性调节。社会学习也受群体成员身份影响，例如，模仿在内群体成员中通常比外群体成员更多。值得注意的是，这种偏好的个体差异可以由神经学习信号捕捉。

近期的研究探索了大脑如何在模仿和效仿之间进行仲裁。例如，腹侧前额叶皮层（vPFC）被证明能在试次间动态控制分配给模仿与更高级的“效仿他人目标”的权重，优先采用预测可靠性更高的策略。一项后续研究进一步揭示，在一般人群中，对高级别效仿的依赖程度存在个体差异，且与自闭症特质相关。

调节社会学习策略的另一个关键因素是观察者自身的决策信心。从贝叶斯角度看，最优信息整合需要根据信源的可靠性进行加权。大量实验工作证明，当个体对环境的估计不确定时，会更依赖社会信息——这种策略常被称为“不确定时复制”。具体而言，当对自己选择的信心较低时，赋予社会信号的权重会增加，这起到一种补偿机制的作用。然而，这种依赖不确定性的调节在人群中并不均一，个体在多大程度上遵循这种最优加权存在显著差异，一些人表现出持续的自我中心偏差。

社会学习中的同伴选择

社会学习中一个相对未被充分探索的问题是同伴选择。在典型的实验室实验中，参与者被分配一个固定同伴并向其学习；他们很少有机会选择观察谁。然而在现实世界中，个体主动选择信息来源。例如，基于社交媒体选择餐厅时，必须决定信任谁的意见。这种选择决策能从根本上塑造社会学习的效能。

我们最近的一项研究探讨了人们更愿意向谁学习，从探索-利用困境的角度切入。我们提出了两个竞争性假设。第一个假设认为，个体优先向表现出更高程度随机探索的同伴学习。这个策略的优势在于，同伴的探索会产生新信息，让学习者能够继续利用当前有利的选项。第二个假设则认为，个体优先向随机探索程度较低的同伴学习。当学习者主要依赖模仿时，这个策略具有优势，因为探索性较低的同伴行为更一致，因此可能显得更成功、更可靠。

预先注册的实验结果支持“寻求可靠性”的假设：参与者表现出显著偏好，更愿意向探索性较低的同伴学习，而不是高度探索性的同伴。进一步的计算分析揭示，这种同伴偏好的个体差异与特定的社会学习风格相关。偏好探索性较低同伴的参与者主要依赖模仿，而偏好高度探索性同伴的参与者则更多依赖效仿。这表明，虽然存在普遍偏向稳定、可靠同伴的偏好，但这种偏好受观察者潜在学习策略的调节：模仿者寻求一致性，而效仿者寻求信息。

研究表明，社会学习中的同伴选择受多种因素影响。首先，人们优先向成功的个体学习。例如，在一项人造物设计任务中，参与者模仿了获得更高回报的同伴，这符合“成功偏向”策略。相关研究表明，学习者也会复制“有声望”的个体，这表明社会影响力会被超越客观表现的声誉线索放大。类似地，存在着强烈的社会从众倾向。在从知觉、价值决策到强化学习等多种范式中，个体的选择会系统性地向群体规范靠拢。这些发现共同表明，同伴选择受多种影响因素的塑造：被证实的成功、社会赋予的声望以及多数人规范。

一个前景广阔的未來方向是研究同伴选择中“寻求可靠性”偏见的神经计算机制，包括偏好向那些有竞争力、可预测、成功和/或属于多数的同伴学习。先前在多种社会情境决策任务中的研究已表明，内侧前额叶皮层和颞顶联合区参与追踪他人的专业能力、可信度和多数人的选择。此外，依赖可预测性的社会学习已被证明受背内侧前额叶皮层的因果性调节。这些结果表明，一个包含内侧前额叶皮层和颞顶联合区的网络可能主导着“寻求可靠性”的偏好。

讨论

本综述总结了社会学习神经计算原理的最新进展。我们特别讨论了社会学习策略（包括向谁学习的关键决策）如何受到同伴特征（如探索-利用平衡、决策质量、可预测性、群体成员身份和社会地位）的调节。然而，一个重要待解的问题是：哪些具体的同伴属性驱动了这些策略性调整？在自然情境中，这些特征常常是相互交织的。例如，较低的随机探索水平通常与较高的决策质量、更强的可预测性，以及更高的声望或多数地位相关联。同样，内群体成员身份也常与可预测性共变。因此，很难确定观察到的偏见反映的是对能力、可预测性、社会身份，还是它们组合的敏感性。此外，迄今为止的社会学习文献很少仔细区分随机探索和定向探索。未来的工作应严格检验能力等因素的主导作用，并通过实验设计正交化能力、可预测性和地位等变量，开发能够分别参数化关于同伴可靠性与信息价值的信念的计算模型。这种精确性对于阐明社会学习如何被适应性调整，以及哪些神经计算实现了这些调整至关重要。

热点排行