分析预训练语言模型如何利用归因方法来获取事实性知识

《Knowledge-Based Systems》：Analyzing how pre-trained language models capture factual knowledge using attribution methods

【字体：大中小】 时间：2026年02月25日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　预训练语言模型（PLMs）通过位置邻近词和高共现词而非知识依赖词捕获事实知识，依赖知识依赖词的模式更有效。分析表明，PLMs过度依赖无效模式导致知识捕获不充分，为优化预训练策略提供依据。

李少波|孙成杰|刘冰泉|李晓光|尚立峰|董振华|纪振洲|姜欣|刘群

哈尔滨工业大学（威海）计算机科学与技术系，中国山东省威海市文华西路2号，264209

摘要

最近的研究表明，预训练的语言模型（PLMs）能够正确完成诸如“但丁出生于____”这样的填空式事实查询，这表明PLMs通过大规模的预训练数据捕获了事实知识。这一现象引起了研究人员的兴趣，他们希望分析这些捕获的事实知识，例如其准确性、一致性和偏见。本文从另一个角度进行研究：PLMs在预训练过程中是如何保留事实知识的。具体来说，本文提出的分析量化了PLMs用于从预训练样本中捕获事实知识的词级模式。本文使用了两种特征归因方法——基于扰动的方法和基于梯度的方法——来互补地揭示这种依赖性。然后，分析这种依赖性与事实知识捕获性能（即在填空式查询中的准确性和一致性）之间的关系。分析结果表明：（1）PLMs更多地依赖于位置接近且高频率共现的词汇来捕获事实知识，而不是依赖于知识本身的词汇；（2）依赖于知识本身的词汇的依赖性比依赖于位置接近且高频率共现的词汇更有效。基于上述观察，我们可以得出结论：对不适当模式的依赖性使得PLMs在捕获事实知识方面效果不佳。本文的分析揭示了事实知识捕获过程的奥秘，提供了实证观察和讨论，为改进知识密集型任务的预训练策略奠定了基础。

引言

预训练的语言模型（PLMs）展现了令人惊讶的能力，例如生成合理的文本并通过少量提示完成任务[1]、[2]、[3]。随着研究人员继续探索和研究预训练技术，一些研究[4]、[5]表明，PLMs在预训练后也学到了一些事实知识。例如，PLMs能够正确回答填空式查询“但丁出生于[mask]？”，答案是“佛罗伦萨”。这表明PLMs在预训练过程中捕获了一些事实知识，并在之后能够回忆起来。随后，更多详细的研究致力于分析这些捕获的事实知识的具体属性[6]、[7]，或者寻找更好的提示来从PLMs中提取更多知识[5]、[8]，主要集中在已经捕获的事实知识上。

本文的分析并不关注捕获的事实知识的归因，而是试图理解PLMs是如何捕获这些事实知识的，即研究PLMs依赖的模式及其有效性。PLMs在预训练阶段捕获了事实知识。然后，我们通过探究预训练模型来研究这些模式及其有效性。

具体来说，对于使用掩码语言建模任务[9]、[10]预训练的模型，我们可以明确地指定预训练阶段和探究阶段如下：

定义1 预训练阶段：

PLMs通过恢复预训练样本中缺失的事实词汇来捕获事实知识。

定义2 探究阶段：

通过用填空题来查询PLMs，检查它们是否成功捕获了事实知识。

图1展示了这两个阶段。在预训练阶段，语言模型需要根据剩余的上下文预测缺失的词汇。当缺失的词汇代表事实信息时，模型可以通过学习预测这些事实词汇来学习和存储这些知识。正如之前的研究[4]、[7]所定义的，这些事实词汇对应于知识库（KB）中的实体。

在图1提供的例子中，PLM通过被训练来预测事实词汇“佛罗伦萨”，从而捕获了“但丁的出生地”。基于这一范式，我们可以通过揭示PLMs用于捕获缺失事实词汇的模式来研究捕获过程。因此，我们提出了关于预训练阶段的第一个问题：

研究问题1

PLMs在预训练过程中依赖哪些词级模式来捕获事实知识？

具体来说，我们选择了三种词级模式，作为PLMs可能依赖的模式来捕获缺失的事实词汇：

依赖知识词汇 KD

这些词汇可以根据知识库（KB）确定性地推断出缺失的事实词汇。

位置接近词汇 PC

这些词汇在位置上接近缺失的事实词汇。

高频率共现词汇 HC

这些词汇与缺失的事实词汇在语料库中的共现频率较高。

图2展示了例子中的不同词级模式。“1506年5月20日”对应于“哥伦布的死亡日期”这一事实知识，而其他与“1506年5月20日”有不同关联的词汇则是不同的词级模式。

为了分析上述模式对事实知识捕获的影响程度，我们引入了特征归因方法[11]、[12]来量化PLMs对每种模式的依赖性。我们收集了470万个预训练样本来计算每种模式的归因值。结果表明：

观察1

PLMs在捕获事实知识时更依赖于位置接近且高频率共现的词汇，而不是依赖于知识本身的词汇。

观察1揭示了预训练阶段用于捕获事实知识的模式。接下来，探究阶段评估了捕获性能，即PLMs正确捕获的事实知识的数量。如果某种模式有效，那么对这种模式的依赖性应该与捕获性能呈正相关。这就引出了第二个研究问题：

研究问题2

PLMs依赖的模式对于捕获事实知识是否有效？

计算每种模式的依赖性与PLMs捕获性能之间的相关性可以帮助我们确定词级模式的有效性。具体来说，我们使用相关性系数[13]来衡量模式的有效性。更正的相关性表示模式更有效/无效。相关结果表明：

观察2

依赖知识本身的词汇比依赖位置接近且高频率共现的词汇更有效。

结合观察1和观察2，我们可以得出结论：PLMs在捕获事实知识时更依赖于无效的PC和HC词汇，而不是有效的KD词汇。我们的实证结论为PLMs中的事实错误或幻觉[14]提供了明确的解释。

总之，本文的贡献如下：

•

分析结果提供了明确的证据，解释了为什么PLMs无法稳健地捕获事实知识，并为如何提高事实知识捕获能力提供了启示。

•

本文详细讨论了不同的PLMs、归因方法和模式（见第5节），为解释PLMs提供了更多见解。

•

本文提出了一个双层次分析框架，明确地将预训练中学习的模式与事实知识捕获性能联系起来。该框架可以推广到其他下游任务的错误分析中。

概述

本节详细介绍了用于回答问题1和问题2的分析框架。图3提供了一个运行示例来阐明两阶段分析。图3的左侧部分指的是预训练阶段，其中预训练样本包含了关于“哥伦布”死亡日期的事实知识。利用特征归因方法，我们量化了每个词汇在捕获“1506年5月20日”这一日期方面的贡献。我们将剩余的词汇分为三组：KD、PC和HC，每组代表一种

主要结果

我们选择了四个使用MLM任务预训练的代表性PLMs系列：BERT [9]、RoBERTa [36]、SpanBERT [44] 和 ALBERT [37]。

我们选择这些PLMs是因为它们涵盖了不同的预训练数据规模、模型架构和训练策略，使得本文的分析结果更加可靠。具体来说，BERT作为基础模型，通过随机掩码单个标记来生成预训练样本。

讨论

本节提供了从提出的分析框架和结果中得出的额外见解。它深入探讨了不同PLMs捕获的事实知识的差异，对PLMs中事实知识的归因方法进行了实证比较，并进行了进一步讨论以提供更深入的见解。

结论

本文提出了一个新颖的两阶段分析框架，专门用于识别和评估PLMs在捕获事实知识时使用的模式。首先，我们使用两种典型的归因方法来衡量PLMs在捕获事实知识时对三种词级模式（依赖知识词汇、位置接近词汇和高频率共现词汇）的依赖性。结果表明，PLMs更依赖于位置接近且高频率共现的词汇，而忽略了依赖于知识本身的线索。

CRediT作者贡献声明

李少波：概念化、数据整理、调查、方法论、可视化、撰写原始稿件、撰写审稿与编辑。孙成杰：调查、方法论、监督、撰写审稿与编辑。刘冰泉：调查、方法论、撰写审稿与编辑。李晓光：调查、方法论、撰写原始稿件、撰写审稿与编辑。尚立峰：调查、方法论、撰写审稿与编辑。董振华：概念化、调查，

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

作者同意声明

本手稿是原创的，之前未发表过，目前也没有在其他地方考虑发表。我们确认所有列出的作者都已阅读并批准了本手稿，并且没有其他符合作者资格但未列出的人。我们进一步确认手稿中列出的作者顺序已经得到批准。我们理解通讯作者是编辑流程的唯一联系人。

CRediT作者贡献声明

李少波：调查、可视化、撰写-审稿与编辑、数据整理、撰写-原始稿件、方法论、概念化。孙成杰：方法论、调查、撰写-审稿与编辑、监督。刘冰泉：调查、撰写-审稿与编辑、方法论。李晓光：撰写-审稿与编辑、撰写-原始稿件、方法论、调查。尚立峰：方法论、撰写-

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（项目编号62406087）、山东省自然科学基金（项目编号ZR2024QF139）、中国科学院信息与通信技术研究院国家重点实验室（项目编号CLQ202406）以及中国科学院计算机体系结构国家重点实验室（项目编号CARCHA202104）的支持。

摘要

引言

相关研究

相关工作

概述

主要结果

讨论

结论

CRediT作者贡献声明

利益冲突声明

作者同意声明

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题