通过环境特征与行为结果的灵活整合实现情境推断：一种前额叶-海马交互的计算框架

《PLOS Computational Biology》：Contextual inference through flexible integration of environmental features and behavioural outcomes

【字体：大中小】 时间：2026年03月21日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　在复杂多变的环境中，如何根据情境灵活调整决策，是生物体生存的关键。然而，大脑如何同时完成情境推断和学习情境特异性行为，其机制尚不明确。针对这一问题，研究人员在《PLOS Computational Biology》上发表了一项研究，探索了基于环境特征（类海马）和基于行为结果（类前额叶）的两种策略在情境推断任务中的表现。研究发现，在情境信号信噪比（SNR）降低时，单纯的特征推断策略学习困难，而联合两种策略进行学习，则可以克服各自的局限，形成稳定、特异的情境表征，并复现了与前额叶-海马交互相关的行为及细胞水平现象。该研究为理解大脑如何整合多源信息以支持灵活行为提供了重要的计算洞见。

想象一下，你第一次学做一种新面包。看着不成形的面团，你不知道该加多少面粉——是看面团的外观手感（环境特征）来决定，还是等烤出来品尝后，根据面包是太干还是太湿（行为结果）来调整下次的用量？前者（特征推断）能在本次制作中就预测并调整，但前提是你知道“好面团”应该什么样；后者（结果推断）简单直接，但只能事后反应。我们的大脑每天都在处理类似复杂、信息不完整甚至充满干扰的“情境”，并需要快速决定当前适用哪套“行为规则”。这种“情境推断”的能力至关重要，但其背后的神经与计算机制一直是个谜。传统上，海马体被认为负责构建基于环境特征的详细“认知地图”，而前额叶皮层则擅长根据行为结果和规则来区分不同情境。这两大脑区如何协同工作，使得我们既能稳定地区分相似情境，又能根据情境预测性地指导行为？这成为了研究者们迫切希望解答的问题。

为此，一项发表在《PLOS Computational Biology》上的研究构建了一个精巧的计算框架，深入探究了基于环境特征的推断（模仿海马功能）和基于行为结果的推断（模仿前额叶功能）两种策略的优劣及其交互的潜力。研究人员发现，在面对情境信号模糊（信噪比低）的学习挑战时，单纯的“特征推断者”容易混淆相似情境，而单纯的“结果推断者”则无法做到事前预测。然而，若在早期学习阶段，让“结果推断”策略像一位稳定的“导师”一样，辅助“特征推断”策略进行情境判断，二者联手便能完美克服各自缺陷。这种联合推断模型不仅能高效学习，其形成的情境特异性神经活动模式，竟与真实大脑海马中的“分裂细胞”活动相似，从计算层面为前额叶-海马交互支持灵活行为提供了强有力的证据。

为了开展这项研究，作者团队主要运用了以下几个关键技术方法：首先，他们设计了一个经典的线索T迷宫任务作为计算实验范式，该任务能模拟决策点信息不完整的部分可观测马尔可夫决策过程。其次，他们构建并比较了两种核心计算模型：特征推断模型采用贝叶斯后继特征算法，学习情境特异性的特征预测图；结果推断模型则采用贝叶斯卷积奖励映射算法，学习基于结果（奖励）的情境区分。最后，他们创新性地提出了“联合推断”模型，在训练初期整合两种模型的先验概率和后验概率估计，以探究其交互效益。模型训练涉及大量参数网格搜索和统计分析，性能通过智能体在任务切换时的尝试次数、随机试验中的正确率以及所学表征的分离度等指标进行评估。

研究结果

特征和结果推断在T迷宫线索切换任务中优于替代策略

研究人员首先在经典的线索T迷宫任务中测试了特征推断和结果推断模型。在这个任务中，迷宫起点处的一个特定线索提示左侧或右侧臂有奖励，但线索在决策点不可见，因此需要情境推断。在按区块组织（同一情境连续出现）的训练阶段，两种推断模型都表现良好，在情境切换后仅需几次尝试就能调整行为，且优于不进行情境推断的简单强化学习模型。然而，在后续的随机试次（情境随机出现）测试中，只有特征推断模型能够利用线索在试次内进行预测性推断，表现显著高于机会水平；而结果推断模型则无法应对，因为过去的结果对当前随机试次没有预测性。这表明，特征推断模型学到了能够支持在线预测的情境特异性表征。

情境相似性增加会损害特征推断的性能

研究团队通过两种方式系统性地降低情境间的信噪比以增加其相似性：一是在预测线索周围添加越来越多的干扰线索；二是增加线索与选择点之间的距离。结果发现，随着情境重叠度增加，特征推断模型在区块切换和随机试次中的性能都稳步下降至机会水平。相反，结果推断模型在区块切换任务上的表现却异常稳定，几乎不受情境相似性增加的影响。这凸显了在低信噪比条件下，结果推断策略在区分情境上具有鲁棒性，但其代价是无法进行试次内的预测。

在早期学习阶段用结果推断支持特征推断可挽救低信噪比下的性能

基于上述发现，研究者提出了一个关键假设：结果推断的稳定性能否辅助特征推断的初期学习？他们设计了一个“联合推断”模型，在训练的最初阶段（如前200个试次），模型通过平均特征推断和结果推断各自的后验概率，并结合一个联合先验，来产生一个共同的情境估计。此后，模型切换回单纯使用特征推断。令人惊喜的是，即使联合支持仅发生在早期，联合推断模型在所有测试的低信噪比条件下，于区块切换和随机试次中都保持了稳定且优异的表现，成功克服了单纯特征推断的缺陷。

访问结果推断稳定了特征表征的学习

深入分析表明，联合模型的优势源于其对“首次情境切换”的稳定支持。在单纯特征推断模型中，当情境高度相似时，模型容易在首次切换后将新试次的观察错误地更新到旧的情境表征中，导致两个情境的表征发生混淆和污染。这种错误更新会长期损害后续学习到的情境特异性特征图，表现为在随机试次中，对正确线索的表征不足，对错误线索的表征过度，进而降低了推断的置信度。而联合推断模型借助结果推断提供的稳定信号，有效减少了首次切换时的错误更新，促使形成了更清晰、分离度更高的情境表征，这种改善效应是长期性的。

联合智能体优于其他替代实施方案

研究还测试了其他帮助特征推断模型应对重叠情境的方法，例如提供随机探索获得的基础表征图、将奖励本身作为环境特征、或在训练时屏蔽错误路径。然而，这些方法均未能像整合结果推断那样，持续且有效地提升模型在低信噪比下的性能。这表明，实时整合基于结果的情境估计，是克服特征推断早期学习困境的一种独特而高效的机制。

结果在非匹配样本和结构辨别任务中具有普适性

为了验证发现的普适性，研究者将模型应用于神经科学中常见的非匹配样本任务和结构辨别任务。这些任务对记忆保持和序列信息处理的要求更高。结果一致表明，在任务复杂性增加、情境信号更弱的情况下，联合推断模型依然显著优于单纯的特征推断或结果推断模型。特别是在结构辨别任务中，联合推断模型成功形成了复杂的情境表征，其表征的几何特性与任务结构高度匹配。

联合推断复现了与PFC-HPC交互相关的行为与神经特征

最终，该研究建立了计算模型与生物学发现之间的桥梁。他们发现，联合推断模型不仅能在行为上复现动物在相关任务中表现出的学习曲线和切换成本，更重要的是，其内部形成的情境特异性特征图，在不同位置（状态）表现出的活动模式分化，与海马体中记录到的、对情境敏感的“分裂细胞”的活动模式相似。这从计算层面表明，联合推断机制能够自然产生与实验观察一致的细胞水平编码特性。

研究结论与讨论

这项研究通过一个计算建模框架，系统地揭示了特征推断和结果推断两种策略在解决情境推断问题上的互补性及其交互的深远效益。核心结论表明：基于环境特征的推断能支持精细的、预测性的行为，但在学习初期，特别是情境高度相似（低信噪比）时，难以稳定地区分情境；而基于行为结果的推断虽然学习简单、区分稳定，但无法进行事前预测。两者在早期学习阶段的动态整合——即以前额叶式的结果推断为“锚”，稳定海马式特征推断的学习过程——能够克服各自的瓶颈，促使形成鲁棒且特异的情境表征，从而支持长期的灵活行为。

该研究的重要意义在于多方面。首先，它在计算层面为前额叶皮层与海马体之间著名的功能交互提供了具体的、机制性的解释，提出了“结果推断支撑特征表征学习”的假说。其次，研究指出这种交互可能存在一个关键的时间窗口，主要作用于学习初期（如首次遭遇情境变化时），这对理解神经调控和干预的时机具有启示。最后，研究所展示的联合推断框架，不仅加深了我们对高级认知功能神经基础的理解，也为开发更鲁棒、更灵活的人工智能算法提供了新颖的灵感。这项成果发表于《PLOS Computational Biology》，标志着在理解大脑如何通过区域间协作，实现对复杂、不确定环境的自适应方面，迈出了坚实的一步。

热点排行