编辑推荐:
本综述为理解两大学习范式——统计学习(SL)与强化学习(RL)——提供了清晰的比较框架。文章系统阐述了两者在目标(SL旨在构建世界模型,RL旨在优化行为以获得奖励)、学习内容、计算原理(RL依赖奖励预测误差/状态预测误差,SL则包含有/无明确误差信号的机制)及神经基础(RL与中脑多巴胺信号相关,SL涉及皮层/海马/纹状体网络)上的差异与联系,并指出两者可协同工作,SL构建的世界模型能为模型化RL提供支持。本文有助于在认知与计算神经科学领域厘清这两大基本学习形式的边界与关联。
学习使生物能够适应动态世界,通过形成和更新其对环境的内在表征。统计学习(SL)与强化学习(RL)为这一过程提供了互补的视角。本文将比较这两种基本学习形式的历史根源、目标、计算原则和神经实现,以期更好地界定它们的边界与内在联系。
统计学习与强化学习简史与核心特征
SL的根源可追溯到二十世纪中叶。其早期概念是“知觉学习”,指生物体对感官输入中已有信息变得敏感的过程。随后,“内隐学习”的概念兴起,尤其是在语言学的人工语法学习研究中,参与者无需知晓底层规则便能区分语法与不合语法的符号串。从语言学到视觉、听觉、音乐和运动学习等多个领域的研究共同表明,SL是一个旨在构建能够重现环境统计特性的内部模型的过程。
RL的发展则源于两个关键线索。其一是对动物通过经验和试错进行学习的研究,以桑代克的“效果律”为代表。其二是不确定性下决策的数学形式化,以贝尔曼的“动态规划”为标志。二十世纪末,这些思想与神经科学相结合,特别是发现中脑多巴胺神经元通过调节其放电率来编码奖励预测误差(RPE),从而在计算与神经生物学层面建立了直接联系。
统计学习与强化学习的目标分歧
RL本质上是目标导向的,核心是学习“做什么”:即如何将情境映射到行动,以最大化奖励并最小化惩罚。其所有算法的共同核心目标是评估哪些状态和行动能够优化未来奖励。
SL的目标则是学习“世界是如何构成的”,即通过发现输入数据内部的关系来构建内部模型。其核心挑战之一在于理解如何从低级特征(如音素、线段)构建出高级结构(如单词、视觉感知的物体)。
这一目标差异也体现在学习发生的条件上。SL可以在动物仅仅体验其感官环境、无需特定任务或指令的情况下发生。相反,RL本质上是交互式的,它要求动物通过选择行动和评估结果来与环境互动。
统计学习与强化学习的内容差异
由于目标不同,SL和RL从环境中优先学习的信息类型也不同。卡明阻断与学习增强现象清晰地揭示了两者的分离。
在RL的经典发现卡明阻断中,当一个条件刺激A(例如声音)首先与结果X(例如食物奖励)建立关联后,再同时呈现第二个刺激B(例如光线)与A(A+B→X),动物通常无法习得B与X之间的关联。即,预存的A-X关联阻断了B-X关联的学习。这可以用雷斯科拉-瓦格纳模型解释:学习仅在结果违背预测(即存在RPE)时发生。由于A已完全预测X,不会产生RPE,因此B-X关联不被学习。这表明错误驱动的学习机制会抑制对预测奖励而言冗余的关联形成。
相反,在学习增强效应中,在已具有预测性的线索A基础上添加新线索B,反而能增强后续对B及其与其他事件关联的学习。这种效应在涉及刺激-刺激关联的内隐学习(无任何显性奖励)的SL范式中被观察到。鉴于学习世界结构的目标,学习B-X关联能丰富观察者对环境结构的认知,尽管不存在奖励预测误差。
统计学习与强化学习的计算原理与神经实现
尽管RL和SL都涉及基于环境输入更新内部模型,但它们在如何使用误差信号以及其底层计算和神经机制上存在差异,这些差异由其目标决定。
任何RL模型都迭代三个关键步骤:首先,代理基于预期奖励选择行动;其次,对从环境收到的反馈进行编码;最后,计算实际结果与预测结果之间的差异,并用于更新未来的估计。整个过程由误差信号驱动,持续纠正期望与结果之间的差异,实现自适应学习和决策。经典的模型无关RL,如雷斯科拉-瓦格纳模型和时间差分学习,明确依赖RPE的计算来迭代调整预测。而在模型化RL中,误差信号超越了RPE,还包括状态预测误差(SPE)。这要求代理通过预测误差最小化来学习环境模型,包括状态转移和奖励。在生物系统中,纹状体多巴胺神经元被认为通过响应意外的奖励和惩罚来编码RPE,从而影响学习和决策。SPE在脑中的机制实现尚不明确,但越来越多的证据表明模型化SPE在人类纹状体、外侧和内侧前额叶皮层、眶额叶皮层及后顶叶皮层中存在试次间的相关性。
另一方面,SL模型可能使用也可能不使用明确的误差信号。在误差驱动的模型中,类似于SPE的信号(但在无外部强化的情境下)使系统能够纠正差异并优化预测。而其他SL模型,如吸引子网络或分块模型,则在没有明确误差信号计算的情况下运行,通过关联记忆的强化和遗忘来识别数据流中的高概率共现模式。这与RL形成对比,在RL中,RPE或SPE等误差信号对于更新价值函数和驱动目标导向的学习至关重要。在生物系统中,感觉事件之间的统计关联(例如两个相邻的听觉音调)可能通过共同激活的神经元之间的暴露驱动可塑性来编码,感觉皮层会适应以反映预期的刺激统计特性,这通常导致对预期刺激的感知促进和神经激活减弱,即“预期抑制”现象。然而,复杂的依赖关系,如跨模态、非相邻或上下文敏感的规律性,不太可能仅由感觉回路内的局部可塑性产生。海马体比上游感觉皮层具有更大的时间感受野,接收来自多种感觉模态的输入,并对上下文关联敏感。因此,初步证据表明感觉皮层和海马体之间存在分离,只有后者能够表征跨模态的关联预测。此外,最近的研究显示,破坏小鼠海马背侧的活动会损害其在无监督环境中学习听觉统计序列的能力。中脑纹状体活动可能作为连接任务相关脑区(例如处理不同感觉模态刺激的区域)的功能性教学信号。总之,海马体和纹状体可能是实现复杂感官规律性统计学习的关键脑区。此外,后顶叶、背外侧前额叶和眶额叶皮层可能引导层级化的上下文学习,从而实现灵活的行为策略和适应行为的图式。
统计学习与强化学习的交汇与分歧
虽然RL和SL共享迭代优化内部模型等计算原则,但它们在误差信号的依赖和所支持的学习类型上存在差异。RL本质上是目标导向的,使用标量RPE或SPE信号来优化决策和行动。相反,SL涵盖的机制范围更广,从误差驱动调整到不涉及误差计算的关联学习。在RL中,模型无关RL完全依赖RPE,而模型化RL也利用SPE来构建结构化表征,这使其在概念上更接近SL。原则上,通过SL习得的模型可以作为模型化RL的世界模型。与这一观点一致,经典的空间认知地图概念和近期研究均表明,小鼠可以通过自由探索形成空间布局的内部模型,随后利用该模型快速学习水源位置。这说明了在没有显性奖励的情况下获得的结构如何支持后续的目标导向行为。然而,SL和模型化RL习得的模型是否真正融合,取决于学习目标和智能体-环境交互的性质。关键区别在于,模型化RL受到“探索-利用权衡”的塑造,可能导致其学习偏向于任务相关的表征,而忽略了对奖励无直接用处或相关的潜在结构。因此,模型化RL可能只实现一个判别式模型,即一种为映射状态到结果或价值而优化的简约表征。相比之下,SL的目标是构建一个独立于任何任务需求或奖励条件的环境综合模型,所产生的表征可能保留高维度、结构丰富的信息。有一种RL算法与SL的融合更为紧密,即后继表征(SR)。它编码给定当前状态、随时间折扣的预期未来状态占据情况。由于不直接依赖奖励,SR在模型无关RL和模型化RL之间提供了一个中间地带。SL衍生的模型可以约束或初始化此类表征,为策略学习提供一个灵活而高效的基质。
结论与未来研究方向
虽然统计学习(SL)和强化学习(RL)的目标不同——前者聚焦于提取环境结构,后者专注于优化行为以获取奖励——但这两种学习形式是深度互连的。RL可以强烈依赖于通过SL内化的知识,因为通过SL获得的精确世界模型可以通过促进刺激-行动-结果关联的学习来增强模型化RL。这种相互依存性模糊了SL和RL之间的界限,表明它们常常协同运作,而非完全独立的过程。
未来研究应侧重于更好地区分SL和RL的边界,并确定它们在何时独立、协同或竞争性地运作。一个关键的开放性问题关乎SL的神经实现,特别是SPE如何以及是否在跨皮层和皮层下网络的学习中发挥作用。重要的是,多巴胺是否在SL中扮演类似于其在RL中已确立的角色尚不清楚,或者SL是否依赖于不同的神经调制系统。有趣的是,多巴胺信号似乎在缺乏任何显性奖励的关联学习或自发行为中也起到强化作用。在SL范式中研究多巴胺反应,可能揭示这两种学习系统之间共享的误差计算机制。此外,考察模型化RL与SL之间的重叠,可以阐明世界的预测模型如何同时支持奖励驱动和无监督学习。在计算层面,理解SL衍生模型如何支持RL(反之亦然),可以揭示大脑在无目标结构学习和目标驱动决策之间灵活切换的能力。这也能为人工智能领域提供启示,灵活整合SL和RL原则的系统,可以更好地适应复杂、不确定的环境,将奖励优化与结构化模式识别相结合。最终,厘清这些框架之间的关系,将深化我们对大脑如何适应复杂环境的理解。