NeuroPatch：一种基于神经元级修复技术的轻量级扩散模型修复方法，用于缓解后门攻击

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Neurocomputing 6.5

编辑推荐：

　　提出NeuroPatch框架，通过定位并修补受后门影响的少数神经元，无需修改模型参数即可有效缓解扩散模型中的后门攻击，显著降低修复成本并保持生成性能。

吴成泽|任晓宁|刘朝阳|薛银星

中国科学技术大学计算机科学与技术系，金寨路96号，合肥，230026，安徽，中国

摘要

作为生成模型，扩散模型在各种应用中取得了显著成果。尽管表现优异，但最近的研究表明，扩散模型容易受到后门攻击的影响。虽然有一些方法试图减轻后门攻击的影响，但这些方法需要调整整个模型，成本高昂且可能导致生成性能下降。为了解决这个问题，我们提出了NeuroPatch框架，该框架仅修补与后门攻击相关的错误神经元的一个最小子集而无需修改神经网络本身，从而显著降低了干预成本并保持了模型性能。具体来说，NeuroPatch首先通过近似干净样本的分布来检测被后门感染的输入，然后根据这些异常样本引起的激活偏差对神经元进行排序。最后，它通过附加轻量级的校正控制器来修补那些最容易出错的神经元，以调整其输出，而无需更改模型参数。我们在两个数据集和三种主流后门攻击上对168个扩散模型进行了NeuroPatch的评估。广泛的结果证明了我们方法的有效性和效率：NeuroPatch的平均修复速度比最先进的方法快了24倍

，同时略微提高了后门攻击的缓解性能。消融研究进一步证实，根据错误诱导得分对神经元进行排序是推动我们框架有效性的关键因素。我们的代码可在以下链接获取：https://github.com/Mospic/NeuroPatch。

引言

扩散模型（DMs）[9]、[17]、[18]、[22]、[42]、[44]的最近兴起重塑了深度生成建模，挑战了生成对抗网络（GANs）[9]、[49]在图像生成中的主导地位。DMs遵循两阶段过程：前向扩散添加高斯噪声，反向去噪则去除噪声以重建原始数据。它们出色的生成性能使得它们能够应用于高风险领域，如自动驾驶模拟[3]、[56]和医学成像[20]、[21]。尽管有这些优势，DMs也存在重大的安全风险，这使得安全性成为一个紧迫的问题。

最近的研究指出，DMs，特别是去噪扩散概率模型（DDPMs），这是最广泛使用和最具代表性的变体，极易受到后门

‘特洛伊’

攻击[1]、[4]、[8]。后门攻击通过污染训练数据和修改目标函数[4]、[7]、[8]来破坏模型，使模型在遇到特定触发条件时生成恶意输出[12]。例如，嵌入在CIFAR-10训练模型中的微妙后门触发器可能导致生成有害图像或歧视性内容，从而在下游应用中放大偏见和安全风险[6]、[31]、[50]。因此，减轻扩散模型（DMs）中的后门攻击已成为一个紧迫且重要的研究课题。

关于减轻DMs中后门攻击的研究仍然有限，最近提出了两种主要方法。Elijah [1] 提出了第一种通过重新训练整个模型来移除后门的方法，旨在在保持生成性能的同时消除后门。他们的方法假设后门攻击产生的输出高度相似，从而可以通过输出相似性来检测被破坏的模型。Diff-Cleanse [15] 采取了不同的方法，使用基于梯度的分析来识别和修剪导致后门生成的通道，然后对整个网络进行微调。然而，对于DDPMs的全模型优化需要PFLOPS级别的计算能力，且成本随模型规模的增加而呈指数级增长，对于大型扩散模型来说不切实际。此外，这种方法忽略了被后门攻击的模型本身的正常生成性能，从而阻碍了在不损害良性采样的情况下有效移除后门。因此，这两种方法都面临一个关键限制：优化所有参数会导致高昂的计算开销并降低正常的生成性能。

为了克服这一限制，我们提出了NeuroPatch，这是一种轻量级的神经元级修补方法，可以在不修改原始模型参数的情况下减轻后门攻击。具体来说，我们建模神经元激活分布并计算一个异常激活得分来衡量与预期分布的偏差。超过阈值的样本被标记为潜在的后门输入。通过比较后门样本和良性样本之间的神经元激活，我们识别出对后门生成贡献最大的前n个受损神经元。然后，我们设计了两种方法来减轻DMs中的后门攻击：负向修补（NeP），它对识别的神经元应用符号反转修补；自适应修补（AdP），使用优化后的系数动态校正神经元行为。这种有针对性的、非侵入性的方法保持了良好的生成性能，并大大降低了修复成本。

我们首先分析了后门触发器激活期间错误神经元的分布。我们的发现表明，在典型的攻击设置下，只有少数神经元与后门行为有很强的相关性。这一观察结果构成了我们提出的神经元级修补策略的基础，为NeuroPatch提供了坚实的动机。我们在多个采样器和攻击场景下，将NeuroPatch与两种最先进（SOTA）的后门修复方法进行了对比评估。在两个数据集[23]、[28]和三种主要后门攻击[4]、[7]、[8]上的综合实验表明，NeuroPatch的平均效率提升了24倍

，同时保持了相当的有效性。此外，消融研究证实了我们的神经元选择策略的有效性，验证了其对性能的贡献。

我们的贡献如下：

•

我们提出了NeuroPatch，这是一种轻量级的神经元级修补框架，可以在不修改任何模型参数的情况下减轻扩散模型中的后门攻击，显著降低了修复成本。

•

我们引入了首个专为扩散模型设计的异常神经元定位方法，证明了后门行为可以归因于一个最小的神经元子集。

•

我们对NeuroPatch进行了广泛的评估，针对三种最先进的攻击和两种缓解基线，显示出显著的效率提升和相当的有效性。

章节片段

背景和相关工作

扩散模型（DMs）[17]、[36]、[40]、[44]、[45]已成为各种应用中强大的生成工具。在这项工作中，我们专注于去噪扩散概率模型（DDPMs）[17]，因为它们在理论上的清晰性、作为各种基于扩散的架构的广泛采用，以及它们已被证明特别容易受到后门攻击[4]、[7]、[8]。这使得DDPM成为一个定义明确且具有代表性的研究环境，用于系统地

概述

我们提出了NeuroPatch，这是一个用于扩散模型中输入级后门检测和缓解的框架。我们的方法通过分析神经元行为来识别后门样本，通过排名良性样本和后门样本之间的激活差异来定位错误神经元，并仅修补一小部分受损神经元来缓解后门行为。我们的框架概述如图2所示，包括三个主要步骤：后门检测、神经元定位和

实验

为了探索NeuroPatch在检测、定位和修复方面的性能，我们提出了以下研究问题（RQ）。首先，我们研究了扩散模型中错误神经元的分布（RQ1），旨在验证生成后门样本的神经元集中在相对较小的子集中的假设。接下来，我们评估了NeuroPatch与SOTA DM后门修复方法的有效性和效率（RQ2）。然后，我们讨论了

讨论

与判别模型中的后门修复相比。NeuroPatch在概念上与现有的用于判别模型修复的神经元级定位-缓解方法[5]、[27]、[35]、[39]、[48]、[53]、[57]有相似之处。然而，由于判别模型和扩散模型架构之间的根本差异，传统方法不能直接应用于扩散模型中的后门缓解。判别模型为给定输入提供精确的标签输出

结论

在本文中，我们提出了NeuroPatch，作为一种用于扩散模型的神经元级后门检测和移除算法。NeuroPatch根据神经元激活计算异常激活得分来识别扩散模型中的后门样本。在修复过程中，NeuroPatch识别对后门贡献最大的异常神经元，并通过对这些神经元应用常数或自适应因子修补来抑制后门生成效果。我们评估了

CRediT作者贡献声明

吴成泽：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，监督，软件，资源，项目管理，方法论，调查，形式分析，数据管理，概念化。任晓宁：撰写 – 审稿与编辑，可视化，验证，监督，方法论，调查，形式分析，数据管理，概念化。刘朝阳：撰写 – 审稿与编辑，可视化，验证，资金获取。薛银星：

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了中国国家自然科学基金（项目编号61972373）的支持。

吴成泽于2023年从中国科学技术大学获得学士学位。他现在是中国科学技术大学计算机科学与技术学院的研究生。他的研究兴趣包括深度学习、机器学习安全和生成模型。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

背景和相关工作

概述

实验

讨论

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行