MasterKey：一种在联邦学习中的多目标后门攻击

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：MasterKey: A Multi-Target Backdoor Attack in Federated Learning

【字体：大中小】 时间：2026年03月24日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　针对联邦学习（FL）中单目标后门攻击（SBA）的局限，本研究提出多目标后门攻击框架。通过NaiveAttack扩展传统SBA，发现其存在优化效率低和触发器干扰问题。进一步设计MasterKey，利用目标导向的本地攻击模型生成特定触发器，有效提升攻击成功率（接近100%）并规避五种主流防御机制。实验表明，MasterKey在CIFAR-10、GTSRB和CIFAR-100上均表现出高持久性和隐蔽性，验证了多目标后门攻击的现实威胁。

黄毅|贾浩赫|朱洪斌|叶光南|柴洪峰

复旦大学计算机科学学院，上海，200438，中国

摘要

现有的联邦学习（FL）研究主要集中在单目标后门攻击（SBAs）上，即通过操纵给定样本的输出来将其指向一个固定的目标类别。然而，SBAs的应用范围有限，因为现实世界中的场景可能涉及多目标后门攻击，其中样本会被重定向到不同的目标类别。因此，本文探讨了FL中的多目标后门攻击，使攻击者能够灵活选择目标类别。我们提出了两种类型的后门攻击：NaiveAttack和MasterKey。NaiveAttack通过将对应于所有目标类别的触发器嵌入到本地数据集中来轻松扩展SBAs，而MasterKey则在本地训练一个基于目标的攻击模型，以生成与攻击者选择的目标相匹配的特定样本触发器。广泛的实验表明，MasterKey在复杂环境中实现了高攻击成功率（接近100%），同时保持了任务的良性性能。更重要的是，所提出的攻击成功规避了原本为单目标后门设计的五种主流防御机制。我们的工作强调了联邦学习中多目标后门攻击日益严重的威胁，并强调了迫切需要新的防御范式。

引言

联邦学习（FL）作为一种分布式机器学习范式已经脱颖而出[1]，[2]，它允许多个客户端在不暴露私有数据的情况下协作训练全局模型。在每个通信轮次中，服务器会选择一部分客户端来训练模型。这些客户端使用他们的私有数据集训练本地模型，然后将其上传到服务器。服务器根据预定义的策略汇总这些本地模型以更新全局模型。FL实现了保护隐私的协作学习，并消除了数据孤岛，特别适用于无法共享敏感数据的应用场景。它在安全和隐私至关重要的领域得到了广泛应用，如医疗保健、金融和移动计算[3]，[4]，[5]，[6]。

另一方面，FL也为各种恶意攻击打开了大门，包括成员推断[7]、隐私泄露[8]和投毒攻击[9]。后门攻击[10]，[11]，[12]，[13]，[14]是针对性的投毒攻击，攻击者在训练数据中植入隐藏的触发器，导致受损模型输出恶意选择的标签。关键的是，这些模型在干净的数据上仍能保持正常性能。在FL中，攻击者通过破坏选定的客户端来秘密注入后门，从而破坏模型完整性同时避免被检测到。

FL中的后门攻击已经发展出多种形式，特别是在触发器特性方面。这些包括固定触发器[10]，[15]，[16]、分布式触发器[17]、动态触发器[13]，[14]和不可见触发器[18]，[19]。尽管触发器特性多样，但基本的攻击模式仍然相似。通常，当前的攻击分为两大类：全对一攻击，所有被触发的输入都指向同一个类别；以及全对全攻击，来自类别的输入被修改为指向

i + 1 的类别。这两种攻击都会将给定样本的输出修改为固定的目标类别，我们将其称为

单目标后门攻击（SBA）。然而，SBAs由于依赖于预定义的单一目标标签而受到根本限制。这种刚性限制了实际应用，特别是在需要目标不可知灵活性或能够同时破坏多个目标的场景中。这些关键限制激发了我们对多目标后门攻击的研究。

在实际的FL部署中，攻击者的具体目标很少是静态的。由于系统更新、政策变化或访问控制调整，所需的操纵标签往往会随时间变化。传统的SBAs将恶意行为绑定到单一的、固定的标签上，在这些动态环境中控制能力非常有限。例如，在基于面部识别的访问控制系统中，如果特定目标身份被列入黑名单或其访问权限被撤销，攻击就会失效。同样，在自动驾驶或医疗诊断等安全关键领域，攻击者可能需要根据当前情境将模型引导到不同的错误类别。在单目标框架内，适应新目标需要在整个训练过程中重新投毒模型——鉴于客户端选择的不可预测性和FL的高开销，这通常是不切实际的。

相比之下，多目标后门攻击将威胁从简单的标签操纵转变为更灵活的多类别控制。通过提前嵌入可控的恶意映射，攻击者可以在不进行额外投毒的情况下动态切换目标。这种能力扩大了攻击范围，并且即使某些目标被检测到或中和，恶意行为仍然有效。此外，由于引入的误分类分布在多个类别中而不是单一类别中，攻击不太可能触发统计异常检测。因此，多目标后门攻击对FL系统构成了更复杂和现实的威胁，值得系统研究。

在本文中，我们首先探讨了一种直接的多目标后门攻击方法，该方法扩展了最先进的（SOTA）单目标后门攻击（SBAs）。我们将这种基线方法称为NaiveAttack。NaiveAttack通过将对应于所有目标类别的触发器嵌入到本地数据集中来扩展SBAs。然而，NaiveAttack面临两个主要挑战：多目标触发器的优化效率有限，以及针对不同类别的触发器之间的干扰。这些问题会随着全局模型的更新而影响后门的性能。

为了解决这个问题，我们提出了MasterKey，这是一种新颖的多目标后门攻击，使攻击者能够在FL中灵活选择和攻击多个类别。具体来说，MasterKey在本地训练一个基于目标的攻击模型，为每个样本生成与攻击者选择的目标相匹配的不同触发器。通过构建一个多目标后门数据集，攻击者通过带有触发器的中毒更新将后门注入全局模型。

我们在三个代表性数据集上进行了广泛的实验，包括CIFAR-10、GTSRB和CIFAR-100。实验结果表明，MasterKey实现了有效且可扩展的多目标后门攻击。此外，我们分析了MasterKey对各种防御机制的鲁棒性，揭示了它们的局限性。最后，我们评估了这两种攻击的持久性和视觉影响。结果表明，MasterKey注入的后门更加持久，并且不会引起显著的视觉干扰。

总结来说，我们的主要贡献可以从以下几个方面概述：

•

据我们所知，这项工作首次系统地研究了FL中的多目标后门攻击。我们提出了一个新的威胁模型，允许对手控制多个类别的模型预测，与单目标场景相比，潜在风险显著增加。

•

我们提出了MasterKey

，一种新颖的多目标后门攻击框架。其核心创新在于一个基于目标的触发器生成器，它可以动态生成特定于样本的触发器，从根本上缓解了现有单目标攻击（例如NaiveAttack）直接扩展时固有的干扰和优化难题。

•

我们在多个数据集上进行了全面的实证研究。结果证实了MasterKey在有效性、可扩展性和持久性方面的优越性能，同时通过展示其对最先进防御的抵抗力和低视觉可感知性证明了其隐蔽性。

本文的其余部分组织如下：第2节回顾了FL中的现有后门攻击和防御措施。第3节介绍了我们的威胁模型，并详细解释了MasterKey后门攻击。第4节展示了实验结果。第5节进行了分析和消融研究。最后，第6节总结了本文。

节选

FL中的后门攻击

根据[14]，联邦后门攻击可以分为两种类型：固定触发器攻击和优化触发器攻击。在固定触发器攻击中，攻击者预定义了一个触发器模式，并操纵包含触发器的中毒样本的标签以指向特定类别。为了在聚合过程中放大中毒更新的影响，攻击者经常应用增强这些更新的技术。例如，Bagdasaryan等人[10]引入了第一种后门攻击

初步和威胁模型

FL设置。我们考虑一个运行在图像分类任务上的标准FL系统。该系统由N个客户端组成，表示为

C_{0},C_{1}, \dots\dots,,C_{N ? 1} ，以及一个协调训练过程的中央服务器。每个客户端

C_i持有私有数据集

D_{i} = {(x, y)

，其中

x \in X 是输入样本，

y \in Y 是其真实标签。设

K = | Y | 表示类别总数。全局分类模型表示为

f_ω，其中ω代表模型参数。损失函数表示为

L (\cdot)

实验设置

数据集和模型架构。我们在三个广泛使用的数据集上评估了MasterKey的攻击性能：CIFAR-10 [34]、GTSRB [35]和CIFAR-100 [34]。CIFAR-10包含60,000张32×32像素的彩色图像，分为10个类别，主要用于图像分类任务。GTSRB包含43个类别的交通标志图像，常用于现实世界交通系统的识别。CIFAR-100与CIFAR-10类似，也包含60,000张32×32像素的彩色图像，但分为100个类别，因此更具

分析和消融研究

多目标后门攻击的成功在很大程度上取决于减轻不同触发器之间的干扰。表1中的实证结果表明，当目标类别数量很多时（例如CIFAR-100中的100个类别），传统单目标攻击的性能会严重下降，即使在基本防御机制存在的情况下，其有效性也常常降至接近零。这种下降可以归因于一个关键的设计限制：触发器

结论和未来工作

在本文中，我们系统地研究了联邦学习中的多目标后门攻击的威胁。我们证明了主要挑战不仅在于目标的数量，还在于有效管理不同触发器之间的固有干扰。通过提出的MasterKey框架，该框架使用基于目标的攻击模型为不同目标生成区分性触发器，我们为中毒样本建立了明确的决策边界

CRediT作者贡献声明

黄毅：撰写——审稿与编辑，撰写——原始草稿，可视化，软件，项目管理，方法论，调查，形式分析，数据策划，概念化。贾浩赫：撰写——审稿与编辑，可视化，软件，项目管理，方法论，调查。朱洪斌：撰写——审稿与编辑，验证，监督，软件，资源，项目管理，方法论，资金获取，概念化。叶光南：撰写——

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

节选