选择性逐层清洗：一种在针对自然语言理解的LoRA调优模型中保护知识免受后门攻击的防御机制

《Knowledge-Based Systems》：Selective Layer-Wise Cleansing: A Knowledge-Preserving Defense Against Backdoor Attacks in LoRA-Tuned Models for Natural Language Understanding

【字体：大中小】 时间：2026年03月23日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　针对低秩适配（LoRA）模型插件易受后门攻击且现有防御导致性能下降的问题，本文提出选择性分层净化（SLC）框架。通过构建清洁基准模型、分析激活模式分歧并实施分层知识蒸馏，在有效消除后门的同时保持任务性能。实验表明SLC在多个基准数据集上优于纯净化理（PURE）、食谱（RECIPE）等基线，解决了防御与性能的收敛困境。

张晓辉|沈涛|曾凯|白芬华

中国昆明市昆明理工大学信息工程与自动化学院，650500

摘要

低秩适配（LoRA）是一种流行的方法，用于通过轻量级、可训练的插件高效微调预训练的语言模型（PLMs）。这种范式容易受到后门攻击的影响，攻击者会在模型中嵌入触发器，迫使经过LoRA微调的模型产生攻击者选择的输出。然而，现有的防御措施主要针对PLM的主干部分，而忽略了LoRA插件。当这些针对干线的防御措施应用于LoRA微调的模型时，它们会消除模型中的任务特定知识，从而降低模型性能，导致防御与性能之间的矛盾。为了解决这个问题，我们提出了选择性逐层清洗（SLC）框架，该框架可以在保持任务性能的同时去除LoRA插件中的后门。SLC基于我们的后门激活差异原理，该原理指出良性输入和恶意输入会导致层级的激活模式存在统计学上的差异。我们的框架首先在公开可用的、与任务无关的数据上训练一个良性辅助模型，作为清洁行为的基线。然后通过比较目标模型的激活模式来识别异常层。最后，SLC利用逐层蒸馏过程，根据差异排名将经过验证的任务特定知识转移到清洁的辅助模型中。实验表明，SLC解决了防御与性能之间的矛盾。与PURE、RECIPE和BDEKD等代表性基线相比，SLC在各种后门攻击下都能保持高准确率，并在自然语言理解（NLU）基准测试中表现出色。我们提出的SLC代码发布在 https://github.com/AIR6200/SLC。

引言

预训练的语言模型（PLMs）由于其先进的语言理解能力而展现出巨大的潜力[1]、[2]、[3]。除了对话之外，PLMs的一个关键优势是它们能够为广泛的下游任务进行定制。为了高效地实现这种适应，研究人员提出了参数高效微调（PEFT）方法[4]、[5]。其中，低秩适配（LoRA）[6]已成为一种关键的范式。LoRA冻结PLM的主干部分，并将小型、可训练的低秩矩阵注入PLM的密集层中。这种设计允许模型快速适应新任务，同时训练开销很小。LoRA的效率和模块化特性促成了一个广泛的生态系统，用户可以在公共平台上轻松下载和部署这些适配器[7]、[8]、[9]。

实际上，用户通过Hugging Face等平台访问模型，但这种供应链容易受到后门攻击[10]、[11]、[12]。攻击者可以污染模型，使其在良性输入下正常运行，但在遇到特定触发器时产生恶意输出，如图1所示。最近的研究表明了这个生态系统的脆弱性。例如，Wan等人[13]证明，即使在指令微调阶段，语言模型也可能被有效污染。公共平台上缺乏强大的安全监控，使得攻击者可以轻松传播这些被污染的模型[14]。毫无戒心的用户可能会下载并安装这些恶意模型，从而面临严重的安全风险。更重要的是，这些风险并非理论上的。例如，佛罗里达州一名青少年的死亡事件导致了一场针对AI聊天机器人的诉讼，声称产品设计缺陷和未能履行对未成年人的安全责任导致了这一悲剧[1]。这场诉讼凸显了AI对脆弱群体构成的高风险，强调了确保模型安全性的迫切需求。

目前有多种针对后门攻击的防御措施，包括ONION[15]、RAP[16]、MDP[17]以及针对PEFT的PEFTGuard[18]等检测方法。这些方法可以在推理过程中消除触发器，但它们只解决了表面问题，而没有从根本上解决问题。此外，它们通常会引入显著的推理延迟，阻碍了实时应用。后门净化提供了一种更强的防御手段。一种方法是使用可信的参考锚点，如标记的数据集或经过验证的良性模型。PromptFix[19]和CleanGen[20]等方法利用这些锚点来指导清洗过程。类似地，弱到强的知识蒸馏[21]与PEFT范式一致，但需要访问清洁的参考模型或更强的教师模型。尽管这些方法在理论上有效，但在常见的供应链场景中（即部署后的数据不可知情况下），它们经常失败。

在实际应用中，大多数下游用户从公共平台下载可用的LoRA适配器以加速任务部署。然而，这些资源有限的用户面临严格的限制。他们通常无法访问大规模的、标记的、与任务相关的数据和清洁的参考模型，而这些是标准防御措施所必需的。相反，他们可用的资源通常仅限于与任务无关的辅助文本语料库和一小部分未标记的、与任务相关的数据。这些未标记数据的存在是自然的，因为它们代表了用户打算使用LoRA适配器处理的推理工作负载。为了解决防御预算的限制，PURE[22]、RECIPE[23]和LMSanitator[14]等替代方法提供了实用的解决方案。这些防御措施的核心思想是在可访问的辅助语料库上微调PLM，以抑制后门效应。因此，这种微调范式成为了实际部署后、数据不可知场景下的主要防御手段。

然而，LoRA微调范式引入了新的后门风险维度。现有研究主要集中在注入主干权重中的后门，而对LoRA插件的防御则鲜有探索。在这些模型中，后门被集成到了LoRA插件中。恶意行为者可以轻松创建并在公共模型平台上分发这些被污染的LoRA插件。更重要的是，将现有的基于辅助数据的防御措施应用于LoRA微调的语言模型具有挑战性。这迫使模型在防御的辅助任务和原始的下游任务之间解决梯度冲突。这种冲突导致了防御与性能之间的矛盾：防御机制覆盖了存储在LoRA插件中的宝贵任务特定知识，从而降低了模型在其预期下游任务上的性能。

为了解决防御与性能之间的矛盾，我们提出了选择性逐层清洗（SLC）框架。我们的方法基于内在维度概念[24]。微调的有效性依赖于在低内在维度内更新参数。因此，我们假设后门行为也局限于特定的低秩特征子空间。SLC利用后门激活差异原理来实现这一点，该原理指出这些受限的恶意模式会导致与良性行为不同的激活异常。该框架分为三个连续阶段：首先，在一个小的、与任务无关的数据集上构建一个清洁的辅助模型作为行为基线；其次，通过比较目标模型和辅助模型的激活模式来对所有层进行异常行为排序；最后，进行逐层校正蒸馏，利用这个排序将良性知识从目标模型转移到清洁的辅助模型中。实验表明，SLC解决了防御与性能之间的矛盾，并且在不同的数据集、模型规模和攻击范式下都表现优于关键基线，如BDEKD、PURE和RECIPE。我们的贡献可以总结如下：

•
我们明确了防御与性能之间的矛盾，并指出现有防御措施因引发梯度冲突而失败，导致LoRA插件中的任务特定知识被删除。
•
我们提出了基于后门激活差异原理的SLC框架：可以通过纠正异常层激活来消除后门，同时保留任务知识。
•
我们引入了一种诊断和修复机制来实现SLC。它首先使用激活引导的差异分析来识别受损层，然后使用逐层校正蒸馏仅转移经过验证的良性知识，从而在不导致灾难性遗忘的情况下消除后门。

本文的其余部分安排如下：第2节回顾相关工作；第3节阐述了问题设置，包括LoRA范式和后门威胁模型；第4节提出了动机，并分析了防御与性能之间的矛盾；第5节和第6节详细介绍了SLC框架；最后，第7节展示了实验结果，第8节总结了本文。

已经开发了几种防御机制来减轻后门威胁，这些机制专注于后门检测或后门净化。现有文献的回顾列在表1中。

问题设置

从头开始训练PLMs在计算上非常昂贵[34]、[35]、[36]。为了解决这个问题，PEFT通过冻结主干参数（W₀）并引入一小部分新的、可训练的参数（ΔW，其中|ΔW|???|W₀|）来针对下游任务进行微调。因此，优化目标被调整为仅针对这些新参数，可以在方程（1）中形式化。这里，f(x; W₀, ΔW)表示模型的前向传播，它包含了可训练参数ΔW以及冻结的部分

动机

尽管人们努力开发出清洁的、经过微调的模型，但目前的方法仍然存在显著的限制。为此，我们分析了这些限制的原因，以得出我们解决方案的关键见解。

方法论概述

受到上述见解的启发，我们提出了SLC，它包括三个步骤：辅助模型训练、激活感知的层选择和逐层知识蒸馏。SLC的总体框架如图4所示。

步骤1：辅助模型训练。首先，我们通过对有限且与任务无关的数据集进行LoRA微调来建立辅助模型。这个对任务不敏感的模型有两个关键作用：它为最终修复的模型提供了保证清洁的基础。

步骤1：辅助模型训练

理论研究表明，被污染的和良性的输入会引发不同的神经激活模式。具体来说，与正常输入相比，后门触发器会在注意力权重分布中表现为统计偏差。这一核心观察结果激发了我们设计良性辅助模型的动机，该模型旨在作为检测这些由触发器引起的异常的清洁参考。

正式来说，给定一个由W₀参数化的PLM，这与目标模型的主干相同

实验设置

数据集。我们在三个基准文本分类数据集上评估了我们的方法。SST2 [49]是一个电影评论的二元情感分类数据集。AG News (AGW) [50]是一个包含四个新闻类别的多类主题分类数据集。Enron (ENR) [51]是一个用于电子邮件垃圾邮件检测的二元分类数据集。

基线。我们使用了BERT-base-uncased (110M)和BERT-large-uncased (340M)作为受害模型。我们将SLC与以下情况进行了比较：1) 无防御（未防御的被污染模型）；2)

结论与未来工作

对公开共享的、经过LoRA微调的语言模型进行后门攻击构成了重大的安全威胁。为模型主干设计的现有防御措施在应用于LoRA插件时失效，并降低了模型性能。在这项研究中，我们将这种失败定义为防御与性能之间的矛盾：即后门移除与性能保持之间的冲突。为了解决这个问题，我们引入了SLC，这是一个三阶段的诊断和修复框架。

未引用的引用

缺失的引用：表2、表3、表5、算法1

CRediT作者贡献声明

张晓辉：撰写——原始草稿、软件、方法论。沈涛：监督、项目管理、概念化。曾凯：监督、形式分析。白芬华：方法论、调查。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

摘要

引言

相关工作