人类与大型语言模型中的结构性启动效应（Structural Priming in Humans and Large Language Models）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月14日 来源：Journal of Memory and Language 3

编辑推荐：

　　人类语言处理与Transformer架构语言模型在结构priming效应上的比较研究。通过EEG和条件意外性分析发现，人类在第二个后动词名词短语呈现显著结构priming效应，而语言模型在第一个和第二个名词短语均表现出priming效应，但模型预测无法有效外推至人类数据。关键启示为评估语言模型需采用多模型体系并关注逐项响应差异。

阿雷巴拉·辛克莱尔（Arabella Sinclair）|阿纳斯塔西娅·克里莫维奇-格雷（Anastasia Klimovich-Gray）|雅普·朱梅莱特（Jaap Jumelet）|尼卡·亚达米安（Nika Adamian）|阿格涅什卡·科诺普卡（Agnieszka Konopka）

英国苏格兰阿伯丁大学国王学院，AB24

摘要

人类参与者在语言理解和表达中都表现出结构性启动（structural priming）现象。基于大量语言材料训练的语言模型（Language Models, LMs）也表现出类似的结构性启动行为，表现为处理经过结构性启动的句子时表现出较低的惊讶程度。为了深入理解语言模型中的结构敏感性预测机制，我们比较了13种基于Transformer架构的语言模型所产生的启动效应与人类在自然阅读句子过程中大脑皮层电生理（EEG）反应所捕捉到的启动效应。我们重点研究了英语与格结构（dative structures，即PO和DO结构）的启动现象。为了验证这种结构性启动在人类EEG反应和语言模型中的稳定性，我们在启动句中加入了形容词修饰语，使得结构相似的启动句和目标句在词序上完全重叠或部分重叠。分析内容包括：(a) 在不同启动条件下，阅读第一个和第二个介词后名词短语（NP）时观察到的电压幅度差异；(b) 语言模型对同一名词短语的惊讶程度测量结果。研究结果表明，在人类数据中，只有第二个介词后的名词短语出现了启动效应，这表明人类参与者是逐步生成结构特定的预测的。语言模型的惊讶程度测量结果也显示，在第一个和第二个介词后的名词短语中都存在启动效应，这与早期生成结构敏感预测的结果一致。无论启动句和目标句之间的词序如何，人类和语言模型的反应都显示出稳定的启动效应。然而，尽管人类和语言模型在启动行为上存在这些总体相似性，但语言模型生成的启动指数并不能很好地预测所有测试语言模型的启动效应。任何启动效应的相似性仅限于少数模型和实验刺激（即启动句和目标句之间词序完全重叠的情况），在这些情况下，人类和语言模型表现出相似的启动方向性。我们的发现强调了在评估语言模型作为人类语言处理模型的合理性时，需要使用多种语言模型。这进一步强调了需要超越人类和语言模型在语言行为表面的相似性，从逐个项目层面比较两者生成的响应。

引言

在阅读过程中，读者会根据语义和句法约束对即将出现的内容进行预测（例如，Fitz & Chang, 2019）。认知模型认为，生成与上下文相关的预测是支持快速高效语言理解的关键机制之一，也是语言学习的重要工具。至关重要的是，生成与上下文相关的预测并基于输入的语言信息快速更新这些预测的能力，可以说是人类和大型计算语言模型（Language Models, LMs）语言理解中的关键共同计算原理（Goldstein et al., 2022）。然而，尽管有研究表明人类大脑和语言模型在语言处理过程中生成的概念性预测之间存在相似性，但这两者在句法知识和处理方面的潜在相似性仍不明确（Lakretz et al., 2022, Lakretz et al., 2021, Oh et al., 2024）。

造成这一理论差距的原因之一是，直到最近，人们还认为语言模型是通过学习并利用大规模语料库中单词之间的搭配概率来预测词汇内容的，它们并不会学习编码足够强大和抽象的句法依赖关系，从而无法生成基于句法的预测。然而，最近的语言模型架构进展挑战了这一观点，这些进展表明语言模型中存在比之前假设的更复杂和抽象的句法知识（Linzen et al., 2016, Tenney et al., 2019）。具体来说，当语言模型在大量数据上训练以简单预测句子中的下一个单词时，即使没有内置的句法约束，它们也表现出与句法能力一致的行为（Abdou et al., 2022, Ettinger, 2020, Kuribayashi, Ueda et al., 2024, Linzen and Baroni, 2021, Warstadt et al., 2020）。这些语言模型的进步为探讨语言模型中的句法过程本质及其与人类结构处理的相似性提供了可能性。

在本文中，我们使用结构性启动范式来解决这些问题。在人类的语言理解和表达中，结构性启动表现为对重复结构的句子处理速度更快，以及对最近生成的结构使用更频繁。结构性启动范式被认为是测试和回答有关人类语言处理中句法表征本质问题的最有成效的工具之一（Branigan and Pickering, 2017, Pickering and Ferreira, 2008, Wheeldon and Konopka, 2023），主要是因为这种范式可以控制并隔离不同变量对结构处理的影响（即概念/语义、词汇和韵律对结构的影响）。该领域的大部分研究都集中在语言处理是依赖于抽象的结构表征，还是同时受到结构和词汇-语义因素的影响。同样，利用结构性启动范式也获得了语言模型具有句法能力的证据，这与人类数据类似，可以区分由结构约束驱动的模型预测和由词汇-语义约束驱动的预测（Sinclair et al., 2022）。

在这里，我们报告了首次直接比较（a）自然阅读EEG实验中抽象句法预测的神经认知指标与（b）语言模型对相同材料生成的句法预测的计算指标的研究。自定节奏的全句阅读范式使我们能够在自然阅读条件下探索句法启动效应的稳定性。我们研究了人类参与者和语言模型在生成新的结构性启动句和未启动句的句法预测方面的相似性，为人类参与者和语言模型中句法驱动行为和上下文驱动句法预测的相似性提供了新的见解。

章节片段

人类阅读理解中的结构性启动

接触具有特定句法结构的表达有助于处理新的具有相同结构的表达，无论是在表达还是理解过程中（Branigan and Pickering, 2017, Pickering and Ferreira, 2008, Tooley, 2023）。该领域早期的证据大多来自表达范式。例如，在最近接触了某个启动句后，说话者更有可能产生带有介词宾语（PO）与格结构的 target 句，如“The man gave the book to the girl”。

本研究

本研究的目的是评估人类和语言模型在句法启动方面的相似性和差异。为此，我们在结构性启动范式中比较了人类和语言模型对短句的反应。我们关注英语中的与格结构变化，因此研究了介词宾语（PO）和双宾语（DO）与格句子的启动效应（Arai et al., 2007, Tooley and Bock, 2014）。在人类参与者中，我们在自然阅读过程中收集了他们的注视和EEG反应。

参与者

27名英语母语者参与了EEG阅读实验。他们都是阿伯丁大学的本科生或研究生，年龄在18至40岁之间（19名女性，6名男性，2名非二元性别者）。

材料

选择了64个既支持DO结构也支持PO结构的与格动词用于实验。每个动词写了四个包含DO和PO结构的句子（例如，DO：The thief wrote the coded message; PO：The thief wrote the coded message for the accomplice）。

语言模型方法

我们选择了Transformer架构（Vaswani et al., 2017）语言模型，评估了一系列当代的自回归预训练模型。自回归语言模型——也称为因果或从左到右语言模型——被训练来预测序列中的下一个单词，并根据模型预测与训练数据中实际单词的差异来进行预测。

分析计划

为了解决我们的关键问题，我们进行了三组分析。

结果

结果分为四个部分报告。首先，我们报告了眼动（“眼动中的结构性启动效应”部分）、EEG（“EEG中的结构性启动效应”部分）和语言模型（“语言模型中的结构性启动效应”部分）中的个别启动效应。根据我们的分析计划（“分析计划”部分），我们研究了启动作为处理努力（Dep）的预测因素，包括首次注视持续时间、EEG电压和语言模型的条件惊讶程度。

讨论

本研究的目的是比较人类阅读理解中的结构性启动效应与语言模型对相同材料产生的反应，从而为语言模型和人类中的句法驱动预测提供理论解释。我们探讨了（a）在人类大脑皮层反应和注视反应以及Transformer架构自回归语言模型中是否可以独立检测到稳定的抽象句法启动效应；（b）人类中的启动效应的幅度和位置是否相似。

总结与结论

据我们所知，我们首次在结构性启动实验中控制性地比较了人类和语言模型的句法预测。总体而言，我们的发现显示了人类和语言模型在结构预测行为上的几个高层次相似性和明显的低层次相似性，这是理解人类语言处理和语言模型作为计算语言模型背后的机制的重要一步。关于高层次的相似性，

CRediT作者贡献声明

阿雷巴拉·辛克莱尔（Arabella Sinclair）：撰写——审稿与编辑、初稿撰写、可视化、验证、监督、软件开发、资源管理、项目协调、方法论设计、研究实施、资金获取、数据分析、概念化。阿纳斯塔西娅·克里莫维奇-格雷（Anastasia Klimovich-Gray）：撰写——审稿与编辑、初稿撰写、可视化、验证、监督、软件开发、资源管理、项目协调、方法论设计、研究实施、资金获取、数据分析。

关于写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，没有使用生成式AI和AI辅助写作技术。作者对出版物的内容负全责。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

AS、AEK和AKG感谢阿伯丁大学在2023年提供的Pump Prime Funding计划的支持，该计划资助了这项研究。我们还要感谢Aron Molnar，他在2023年作为AS的研究技术员，为数据组织和软件工作做出了贡献。

联系信箱：

粤ICP备09063491号

摘要

引言