《Journal of Memory and Language》:Incremental alternative sampling as a lens into the temporal and representational resolution of linguistic prediction
编辑推荐:
本文针对语言理解中预测过程如何同时跨越不同时间尺度和表征层次的核心问题,提出“增量替代采样”新模型。该研究将理解者视为持续生成、评估与更新语言输入可能后续方案的动态系统,定义了“增量信息价值”以量化预测不确定性的变化。利用Transformer语言模型,研究成功预测了包括完形概率、眼动、自定步速阅读及ERP振幅在内的广泛人类神经与行为反应。该模型不仅超越了传统惊异度理论的解释力,为理解人类预测机制提供了更精细的框架,也为剖析人工智能语言处理器的预测机制提供了新的原则性视角。
我们的大脑在理解语言时,并非被动地接收信息,而是在飞速地预测接下来可能会听到或看到的内容。这种预测能力是高效交流的核心,但科学家们对其运作机制仍有许多疑问。传统理论,如惊异度理论,认为处理一个词的难度与其出现的概率成反比,这解释了为何意外的单词需要更长的阅读时间。然而,这一框架存在局限:它通常将预测视为对“下一个词”的单一猜测,未能充分解释预测如何跨越多个词(时间分辨率)以及如何在不同层次——如声音、词形、句法、语义(表征分辨率)——上同时进行。此外,它也难以完全解释诸如N400、P600等不同脑电波成分如何分别响应语义和句法层面的预测错误。当前,理解预测的多时间尺度和多表征层次的相互作用,已成为心理语言学与认知神经科学领域亟待深入探索的前沿问题。
为了回答这些问题,由Mario Giulianelli、Sarenne Wallbridge、Ryan Cotterell和Raquel Fernández组成的研究团队,在《Journal of Memory and Language》上发表了一项研究,提出了一个名为“增量替代采样”的计算模型,旨在作为一个“透镜”,更清晰地透视语言预测的时间与表征分辨率。
研究人员主要运用了基于Transformer架构的人工神经网络语言模型作为核心工具。该模型被用作“人类语言模型”的近似,以生成和评估对部分语言上下文的大量可能后续“假设”。通过控制模型生成后续文本的长度,可以模拟不同的“预测时间窗”;通过提取和分析模型内部不同层的激活向量(这些向量被认为编码了不同抽象级别的语言信息),可以探究不同的“表征域”。核心度量“增量信息价值”被定义为,在观察到当前词元(如一个单词)前后,模型生成的预测假设在特定表征空间中的平均距离,以此量化该词元带来的预测不确定性变化。
研究结果:
- •
模型构建与理论阐释:研究首先形式化地提出了IAS模型,指出传统的惊异度模型是其一个特例。IAS将语言理解者建模为一个不断生成并评估部分输入的可能后续方案的动态系统,这些假设可以跨越不同的时间范围和表征层次。
- •
量化预测不确定性:研究定义了“增量信息价值”这一核心度量。它通过计算在观察到词元之前生成的预测假设,与观察到该词元之后更新的预测假设,在选定表征空间中的平均(期望)距离,来量化该词元引发的预测不确定性变化。距离越大,意味着该词元带来的“信息”或“意外性”越高,预测需要进行的调整也越大。
- •
模型验证与预测能力:使用Transformer语言模型对“增量信息价值”进行估计后发现,该指标能够显著预测广泛的人类单词级神经与行为反应。这些反应包括:完形填空概率、可预测性评分、眼动追踪测量指标(如注视时间)、自定步速阅读时间以及事件相关电位振幅(如N400)。这表明,基于IAS框架的计算度量能够有效地捕捉人类在线语言理解中与预测相关的认知负荷。
- •
揭示预测策略的异质性:研究进一步发现,不同的心理语言学测量指标(如N400振幅 vs. 自定步速阅读时间)最好由不同组合的“时间分辨率”和“表征分辨率”所捕获。例如,某些指标可能更受短期、词汇层面预测的影响,而另一些则对长期、句法或语义层面的预测更敏感。这揭示了人类预测处理策略的多样性。
- •
超越惊异度的性能:一个整合了多种分辨率的IAS模型在预测大多数人类测量指标时,其表现优于传统的、仅基于下一个词概率的惊异度模型。这种优势在预测完形概率、N400振幅以及在自然多句子刺激中的自定步速阅读时间时尤为突出。
- •
透视AI模型的预测机制:研究还利用IAS框架分析了Transformer语言模型本身的预测机制。结果表明,这类模型看似只进行“下一个词预测”,但其内部表征隐式地编码了对更长时间范围以及跨不同表征层次的不确定性。这为理解人工智能语言处理器的内在工作原理提供了新的洞见。
结论与讨论:
本研究提出的增量替代采样模型,不仅扩展并细化了经典的语言预测处理理论(如惊异度理论),更重要的是,它提供了一个可操作的计算框架,来明确地建模和探究预测处理中两个关键但常被忽视的维度:时间分辨率与表征分辨率。研究证实,人类的预测行为是“多分辨率”的,不同的认知与神经测量反映了不同维度的预测过程。IAS模型通过利用现代语言模型作为假设生成器和表征代理,成功地将这些抽象维度转化为可计算的度量,并展现出强大的实证预测能力。这项工作的重要意义在于:首先,它为心理语言学和认知神经科学提供了一个更精细的理论与建模工具,有助于更深入地理解人类语言理解的动态机制;其次,它架起了连接人类认知研究与人工智能模型的桥梁,表明我们可以利用AI模型来生成并验证关于人类认知的计算假设;最后,它反过来也为分析和理解AI模型(如大语言模型)的内部预测机制提供了新的原则性视角,揭示了其看似简单的训练目标背后所隐含的、丰富的多尺度预测表征。因此,IAS模型作为一个“透镜”,不仅让我们更清晰地看到了人类语言预测的复杂图景,也让我们得以窥见驱动当今最先进人工智能系统的、潜在的“类认知”计算原理。