《Neurocomputing》:WAVE++: Capturing within-task variance for continual relation extraction with adaptive prompting
编辑推荐:
针对持续关系抽取中的灾难性遗忘和任务变异问题,提出WAVE++方法。通过任务特定提示池增强适应性,整合标签描述提升分类精度,引入投票机制替代传统分类器,并利用生成模型巩固共享参数知识。实验表明该方法在TACRED和FewRel数据集上显著优于现有提示和回放方法。
Bao-Ngoc Dao|Minh Le|Quang Nguyen|Luyen Ngo Dinh|Nam Le Hai|Linh Ngo Van
越南河内科技大学,Dai Co Viet路1号,河内
摘要
基于记忆的方法在持续关系提取(CRE)中表现出色。然而,存储来自先前任务的示例会增加内存使用量并引发隐私问题。最近,基于提示的方法作为一种有前景的替代方案出现,因为它们不依赖于存储过去的样本。尽管取得了这些进展,当前的基于提示的技术在CRE中仍面临几个核心挑战,特别是在准确识别任务身份和减轻灾难性遗忘方面。现有的提示选择策略通常存在不准确性,缺乏防止共享参数遗忘的鲁棒机制,并且难以处理跨任务和任务内的变化。在本文中,我们提出了
WAVE++,这是一种受到前缀调优和专家混合技术启发的新方法。具体来说,我们引入了特定于任务的提示池,以提高在不同任务中的灵活性和适应性,同时避免跨越边界的风险;这种设计更有效地捕捉了任务内和任务间的变化。为了进一步改进关系分类,我们结合了标签描述,提供了更丰富、更全局的上下文,使模型能够更好地区分不同的关系。我们还提出了一种无需训练的机制来提高推理过程中的任务预测能力。此外,我们整合了一个生成模型来巩固共享参数中的先验知识,从而消除了显式数据存储的需要。广泛的实验表明,WAVE++的性能优于现有的基于提示和复述的方法,为持续关系提取提供了更稳健的解决方案。我们的代码可在
https://github.com/PiDinosauR2804/WAVE-CRE-PLUS-PLUS处公开获取。
引言
持续关系提取(CRE)涉及训练模型以逐步提取一系列任务中实体对之间的关系[16]、[28]、[37]、[47]。作为持续学习的一个专门领域,CRE的主要目标是减轻灾难性遗忘[26]、[27],即随着任务数量的增加,模型性能会下降。为了解决这个问题,大多数CRE方法使用内存缓冲区来存储样本,以便重新访问先前的任务并保留学到的知识[6]、[47]。采用这种策略的方法通常被称为基于复述的方法。
尽管基于复述的方法在减轻灾难性遗忘方面取得了显著的成功,但它们仍然存在一些显著的局限性,需要更稳健的解决方案。首先,尽管使用了内存缓冲区,但在训练转移到后续任务后,学习到的关系的表示往往会很快退化[2]。其次,这些方法违反了持续学习的一个核心原则,因为它们需要持续访问先前的数据。这种依赖性引发了关于数据隐私和大规模内存缓冲区巨大存储需求的重大担忧。因此,迫切需要能够最小化内存使用的替代方法,从而在解决关键隐私和可扩展性挑战的同时保持持续学习的原理[14]。
持续学习的最新进展受到了自然语言处理中基于提示的技术的启发,从而产生了一类新的方法。这些方法利用可学习的参数(称为提示)来指导预训练模型执行下游任务,而无需访问过去的数据[38]、[41]、[42]。与传统的记忆回放方法不同,这些方法不依赖于存储来自先前任务的样本;相反,它们插入了一小组辅助参数来指导训练过程。这些提示可以适应特定任务,从而实现无需数据回放的持续关系提取。
尽管有这些优势,当前的基于提示的框架仍然存在一些局限性。首先,它们并没有完全消除灾难性遗忘,因为许多方法依赖于共享组件,如提示池[42]、通用提示(G-Prompt)[41]或共享的MLP分类器,从而限制了它们对不同任务分布的适应性。其次,这些方法使用的任务预测机制[38]、[41]容易发生错误分类,因为在训练期间使用的提示与推理期间使用的提示不匹配会降低性能。最后,基于提示的方法往往无法同时处理跨任务和任务内的变化。例如,Wang等人[42]引入了一个单一的共享提示池,这可能导致使用相同或非常相似的提示来表示不同的关系。在持续关系提取中,这种限制尤为明显,因为不同关系类的实例可能呈现几乎相同的上下文,如下例所示:
•“[X]是[Z学院]的学生”。
•“[X]在[Z学院]指导一名学生”。
当这些实例使用相同的提示时,它们的最终隐藏表示可能会崩溃——变得过于相似,以至于关系分类器无法有效区分它们。
与这些方法一致,Le等人[18]研究了广泛采用的基于提示的技术——前缀调优[22]与专家混合(MoE)模型[11]、[13]之间的联系。他们的发现表明,自注意力可以解释为包含多个MoE模型,而实施前缀调优相当于向这些预训练的MoE架构中添加新的前缀专家,从而实现底层表示的微调。
基于这一见解,我们提出了WAVE++(用于CRE的具有变异性的Wave),这是一种旨在解决上述局限性的基于提示的方法。WAVE++不为所有任务使用单一的提示池,而是为每个任务分配一个专用的提示池,从而提高对任务分布变化的适应性,并捕捉任务特定的特征。此外,WAVE++结合了关系的标签描述来学习全局的、特定于关系的上下文,确保保留每个关系的关键特征。
为了减轻共享参数中的灾难性遗忘,WAVE++整合了生成模型来生成用于回放的指令性潜在数据表示。这种策略无需存储大量原始数据,从而提供了一种比传统基于回放的方法更高效和全面的替代方案。此外,尽管最近的方法通常依赖于分类器头来执行任务预测[16]、[38],但WAVE++通过简单的投票机制选择相关的提示池来消除这种依赖。实验结果表明,WAVE++的性能达到了最先进水平,优于现有的基于提示和基于复述的基线方法。
我们的主要贡献可以总结如下:
•我们指出了当前基于提示的持续学习方法中的关键局限性,包括提示选择不有效、在共享参数中减轻灾难性遗忘的效果不佳,以及处理跨任务和任务内变化的战略不够理想。
•我们强调了专家混合模型和基于提示的持续学习技术之间的潜在联系。具体来说,我们表明任何基于提示的持续学习框架都可以被视为MoE架构的一个特化实例。
•我们提出了WAVE++,它通过引入特定于任务的提示池、利用关系标签描述、采用基于投票的任务预测机制以及结合生成模型对潜在表示进行微调来解决上述问题。
•我们进行了广泛的实验,证明WAVE++的性能优于现有的基于提示和基于复述的方法,验证了其有效性和多功能性。
部分摘录
背景和相关工作
在本节中,我们简要回顾了第2.1节中关于持续关系提取的相关背景。然后,我们分别在第2.2节和2.3节中探讨了基于提示的方法的最新进展和专家混合模型。
从专家混合到基于提示的持续学习
在本节中,我们讨论了专家混合技术和基于提示的技术之间的关系,展示了如何将现有的基于提示的持续学习方法解释为这一框架的一部分。具体来说,最近的研究[18]表明,MSA层中每个注意力头的输出向量可以被视为一个MoE模型的输出。这种观点意味着MSA层可以被视为一种特殊架构,其中每个注意力头包含多个MoE模型
提出的方法
在本节中,我们详细介绍了我们提出的WAVE++方法。首先,在第4.1节中,我们研究了专家混合与前缀调优之间的关系,以开发能够捕捉个别任务内在变化的特定于任务的提示池。接下来,在第4.2节中,我们引入了结合对比损失的标签描述,以通过封装任务关系的重要特征来增强每个提示池的鲁棒性。这两个组件共同
数据集
为了确保评估的一致性和公平性,我们遵循了[16]、[49]建立的协议,并在两个广泛使用的CRE数据集上评估了WAVE++的性能:
•TACRED[46]包含41种关系类型的106,264个实例。根据[3]的实验设置,我们将这个数据集划分为10个不同的子集。每种关系的训练样本数量限制为320个,而每种关系的测试样本数量限制为40个。
•FewRel[7]包含56,000个
结论
在本文中,我们通过专家混合模型的视角介绍了基于提示的持续学习的新视角。我们证明了当前的基于提示的持续学习方法可以被视为MoE架构的一个特例。基于这一见解,我们提出了WAVE++,它与稀疏MoE设计有关键的概念相似之处。我们的框架解决了基于提示的持续学习中的几个挑战,包括
CRediT作者贡献声明
Bao-Ngoc Dao:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、概念化。Minh Le:撰写——原始草稿、可视化、验证、软件、方法论、调查、概念化 Quang Nguyen:撰写——审稿与编辑、可视化、软件、方法论、形式分析、概念化 Luyen Ngo Dinh:撰写——审稿与编辑、验证、软件、方法论、调查、概念化 Nam Le Hai:
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
Bao-Ngoc Dao是河内科技大学的本科生,也是BKAI中心数据科学实验室的研究助理。她的研究兴趣包括预训练模型的持续学习和参数高效的微调方法。