《Computer Standards & Interfaces》:Fortified Concept Forgetting for text-to-image generative models by machine unlearning on CLIP
编辑推荐:
概念遗忘与对抗攻击防御的增强方法,通过机器卸载和投影遗忘机制在CLIP编码空间协同消除显式与隐式概念关联,提升生成模型对恶意文本的鲁棒性,实验表明安全性和生成质量显著优于现有方案。
Jiahao Fan | Xu Ma | Changyu Dong | Honghao Chu | Bingqing Yang
曲阜师范大学网络科学与工程学院,济宁,273165,中国
摘要
随着文本到图像的生成模型被广泛采用,生成不当内容的风险也随之增加。传统的过滤方法成本高昂且容易被绕过,这凸显了迫切需要高效的安全机制。当前的概念擦除模型在抑制不当内容或受版权保护内容的生成方面取得了显著进展。然而,这些方法对于对抗性文本输入仍然较为脆弱,并且在概念遗忘方面的泛化和稳定性有限。我们提出了一种新的方法——强化概念遗忘(Fortified Concept Forgetting,简称FCF),该方法能够协同遗忘显性和隐性概念,同时对对抗性输入表现出卓越的鲁棒性。具体来说,对于显性概念的遗忘,我们应用了机器反学习的原理,使模型在保留非目标概念的同时忘记目标概念。对于隐性概念的遗忘,我们引入了两种特征遗忘技术——经验特征遗忘和投影特征遗忘——并分析了编码空间中的潜在概念表示,确保目标信息无法被微妙地重新生成。广泛的实验表明,FCF不仅在生成性能上保持强劲,而且在对抗性文本提示下的生成安全性和鲁棒性上也超过了现有方法。我们的代码和数据可在以下链接获取:
https://github.com/f-c-forgetting/FCF
引言
< />
尽管取得了有希望的进展,但大多数现有的概念擦除技术在面对对抗性提示时仍存在明显的漏洞。它们没有考虑到针对设计用来绕过过滤机制的对抗性文本时的擦除效果。这些精心设计的输入可以诱导扩散模型生成意外的、不当的输出,从而暴露了现有安全措施的弱点[26]。例如,在[27]、[28]、[29]中的框架利用红队测试和文本到图像扩散模型中的安全机制来生成利用漏洞的对抗性提示,例如生成暴力或露骨的内容。他们的分析表明,当前的概念擦除模型中的安全机制不足,因为问题提示经常能够绕过安全机制,导致不当内容的生成率更高。Receler[30]和RECE[31]开始考虑使用对抗性提示来增强模型的鲁棒性,通过在这些提示的指导下微调注意力层来实现目标概念的遗忘。然而,引入对抗性提示显著增加了训练成本,而且由于对抗性提示的高变异性和多样性,有时方法无法达到预期的效果。换句话说,模型的鲁棒性与训练过程中使用的对抗性提示数量呈正相关,表明这些方法存在一定的局限性和弱点。
为了应对这一挑战,我们提出了一种称为强化概念遗忘(FCF)的方法。虽然RECE[31]和Receler[30]已经认识到对抗性文本带来的挑战并相应地优化了交叉注意力层,但我们的方法更进一步,通过彻底分析对抗性提示,定位文本中的漏洞,并在文本层面应用遗忘机制,从而实现了更优异的性能。我们通过微调编码模型的参数来实现这一点,而不是重新训练模型,从而加快了训练速度。我们的目标是通过CLIP[7]在编码空间内实现概念遗忘,同时采用经验特征和投影特征方法来促进隐性概念的遗忘。与之前专注于在扩散模型中微调U-Net的方法不同,我们的方法直接在CLIP嵌入空间中抑制不当概念。鉴于CLIP在文本到图像生成、跨模态检索[7]和多任务特征提取[33]、[34]、[35]中的广泛应用,我们的方法展示了更强的泛化能力和更广泛的适用性。尽管Safe-CLIP也关注CLIP嵌入空间,但它忽略了对抗性提示的影响。因此,其构建的“安全嵌入空间”在受到攻击时可能会失效。总之,我们的方法将CLIP嵌入空间与专门针对对抗性文本漏洞的防御机制相结合,不仅确保了模型的广泛适应性,还显著增强了其鲁棒性。除了遗忘目标概念外,保留非目标概念也值得注意。受到机器反学习[36]、[37]、[38]的启发,我们开发了一种在遗忘目标概念的同时保留非目标概念的方法,确保模型在CLIP的文本编码空间内保持其生成性能。最终,与以往的工作相比,我们的方法有效地消除了生成图像中的目标概念信息,且生成性能几乎没有下降,如图1所示。
总之,本文旨在深入研究概念遗忘,并为图像生成模型提供一个更安全、更可靠、更灵活的框架。本研究的主要贡献总结如下:
我们提出了强化概念遗忘(Fortified Concept Forgetting),它减轻了目标概念在CLIP编码空间中的影响。具体来说,我们结合了机器反学习机制,使模型在保留非目标概念表达的同时忘记目标概念,从而保持模型的性能。
我们设计了一种向量投影策略来消除概念之间的关联。具体来说,对抗性文本始终包含可以绕过防御机制的线索。我们的方法通过有效遗忘对抗性文本中存在的显性和隐性概念线索来增强模型的鲁棒性。
我们在I2P数据集和红队工具(包括P4D、Ring-A-Bell和UnlearnDiffAtk)上进行了广泛的实验。我们的方法显著改善了敏感概念泄露的缓解情况,并增强了模型输出的鲁棒性。
概念擦除模型
为了解决生成不当内容[15]和侵犯版权图像[16]、[17]、[18]的问题,最近提出了几种擦除特定概念的方法。在微调U-Net时,SLD[20]为潜在扩散模型提供了安全指导,以解决不当退化问题。它采用了无需分类器的文本条件指导,有效地移除或抑制生成图像中的不当概念。ESD[21]则使用了一个冻结模型
显性和隐性概念的定义
在文本提示中,我们将人类眼睛容易感知的概念定义为显性概念。在模型训练过程中,由于自注意力的存在,文本提示中的概念之间会自然形成隐含关系。在训练中频繁出现的概念往往会发展出强烈的隐含关联,我们将其称为隐性token。因此,我们将包含与显性概念相关的隐性token的概念定义为隐性概念
实验
在本节中,我们首先进行定量实验,将我们的方法与现有的最佳基线进行比较。随后,我们进行消融研究,并展示多概念遗忘的实验。通过定性实验和可视化,我们证明了我们方法的可行性和有效性。
结论
本文提出了一种强化概念遗忘(FCF)方法,旨在解决先前概念删除模型在对抗性文本场景中的局限性。FCF通过引入针对显性和隐性概念的双重遗忘机制,提供了一种新的方法。这种方法能够在复杂多样的文本场景中更有效地移除目标概念。广泛的实验表明,FCF在概念遗忘方面优于现有方法
CRediT作者贡献声明
Jiahao Fan:撰写——审阅与编辑、原始草稿撰写、可视化、验证、资源管理、方法论、调查、数据整理、概念化。Xu Ma:撰写——审阅与编辑、监督、资源获取、正式分析。Changyu Dong:撰写——审阅与编辑、调查、正式分析、概念化。Honghao Chu:可视化、验证、正式分析、数据整理。Bingqing Yang:撰写——审阅与编辑、可视化、验证
利益冲突声明
作者声明以下可能的财务利益/个人关系可能被视为潜在的利益冲突:Xu Ma报告称获得了山东省自然科学基金的支持。如果还有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了山东省自然科学基金 [Grant No. ZR2024MF021]的支持。