针对文本到图像扩散模型的对抗性判别攻击

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

针对文本到图像扩散模型的对抗性判别攻击

《Neural Networks》：Adversarial Discriminant Attack on Text-to-Image Diffusion Models

【字体：大中小】 时间：2026年02月13日 来源：Neural Networks 6.3

编辑推荐：

　　针对概念删除扩散模型中NSFW内容生成漏洞，提出对抗判别攻击方法，通过可学习扰动优化潜在空间映射，模拟内容审核系统决策机制，实验表明其安全绕过成功率超90%，有效揭示现有安全技术的局限性。

吴汉晓|熊胜武|易东|吴凌翔|朱建清|朱贵波|王金桥

武汉工业大学计算机科学与人工智能学院，中国湖北省武汉市430070

摘要

尽管概念消除扩散模型取得了进展，但在文本到图像任务中生成不适宜工作（NSFW）内容的风险仍然是一个关键挑战。为了暴露这些模型中的漏洞，一些现有工作从生成角度设计了攻击方法，试图限制生成图像与特定不当图像之间的相似性。然而，生成视觉上相似的图像并不一定意味着NSFW内容已被成功重构，因此现有攻击方法的有效性仍然有限。为了解决这一限制，我们提出了对抗性判别攻击（ADAtk），这是一种旨在暴露概念消除扩散模型中漏洞的新方法。与专注于生成的现有攻击不同，ADAtk采用了一种更直观的判别视角，旨在生成被分类为不当的图像。通过优化生成NSFW内容的可能性，ADAtk在模型的潜在空间中制造对抗性扰动，从而引导NSFW概念（例如裸体）的重建与目标判别类对齐。实验结果表明，ADAtk在绕过当前内部安全机制方面的成功率超过90%，暴露了现有概念消除技术中的关键局限性。这些发现为提高文本到图像生成系统的安全性和可靠性提供了重要见解，为更安全的生成式AI模型铺平了道路。警告：本文包含可能被视为冒犯性的模型输出。

引言

近年来，深度神经网络的进步推动了生成模型的显著发展（Goodfellow等人，2014年；Ho等人，2020年；Luo等人，2025年；Podell等人，2024年），这些模型已在广泛的视觉-语言任务中得到探索，例如图像生成（Chen等人，2025年；Xiao, Yin, Freeman, Durand, Han, 2025a；Xiao, Wang, Zhou, Yuan, Xing, Yan, Li, Wang, Huang, Liu, 2025b；图像编辑（Huang等人，2025年）；图像标题生成（Kawar等人，2023年；Daneshfar等人，2024年；Wang等人，2024年）。特别是文本到图像（T2I）扩散模型（Ho等人，2020年；Podell等人，2024年；Rombach等人，2022年）在从文本描述生成多样且高质量的视觉内容方面表现出色。然而，它们产生不适宜工作（NSFW）内容（如裸体或暴力场景）的潜力引发了严重的伦理和安全问题（Qu等人，2023年；Truong等人，2025年；Yang, Gao, Wang, Ho, Xu, Xu, 2024a；Yang, Gao, Yang, Zhong, Xu, 2024b；Zhang等人，2025年）。为了解决这些挑战，已经提出了各种缓解策略。一种常见的方法是对模型参数进行微调以抑制特定不希望出现的概念的生成（Gandikota等人，2023年；Lu等人，2024年；Wu等人，2025年；Zhang等人，2024a）。另一种方法是在推理过程中限制文本嵌入空间，有效过滤掉有问题的提示（Li等人，2024年；Schramowski等人，2023年）。虽然这些技术显示出希望，但它们存在关键限制。例如，微调通常会导致过拟合，降低模型的泛化能力，而嵌入空间限制难以处理输入提示中的微妙扰动。这些限制突显了需要更健壮和全面的保护措施来确保T2I扩散模型的安全部署。

通过诱导概念消除扩散模型生成NSFW图像来揭示其漏洞已成为评估其可靠性的关键研究领域。最近的研究（Chin等人，2024年；Zhang等人，2024c）探索了对抗性生成攻击（AGAtk）方法，如图1(a)所示。这些方法旨在生成与特定NSFW内容非常相似的图像，优先考虑生成输出的质量。强调生成图像与输入文本之间的对齐以确保高保真度。然而，这种对质量的关注往往忽略了NSFW内容的更深层次语义维度，导致模型中的关键漏洞未能得到充分揭示。以图1(a)为例，被攻击的图像在视觉上与目标图像相似，并与输入提示对齐，但攻击失败了。这一限制突显了需要超越表面级质量指标的替代方法来全面评估这些模型的鲁棒性。

基于此，我们转向基于AI的内容审查系统，这些系统在学术研究和实际应用中得到了广泛应用（Akyon和Temizel，2023年；Qu等人，2023年；Schramowski等人，2022年；Yuan等人，2025年）。这些系统旨在将图像分类为适合或不适合工作，主要目的是有效过滤掉敏感或不适当的内容，以确保各种平台的安全性和合规性。与主要关注生成高质量输出的AGAtk方法不同，内容审查系统从判别角度运作，根据语义和上下文线索区分不同类型的内容。受此范式的启发，我们认为采用与判别视角一致的攻击策略可能会产生更有效的结果。通过模仿基于AI的内容审查系统的决策过程，这种方法不仅会更有效地利用生成模型中的漏洞，而且符合内容审查系统的核心目标，提供对模型鲁棒性的更全面评估。

在本文中，我们提出了一种对抗性判别攻击（ADAtk）方法来揭示概念消除扩散模型中的漏洞，如图1(b)所示。ADAtk的核心思想是通过优化生成NSFW图像的可能性在潜在空间中重构NSFW概念。为此，我们引入了两种可学习的扰动：攻击扰动和安全扰动，分别对应于不安全和安全类别。这些扰动作为自适应权重，在梯度计算过程中动态地将生成空间映射到判别空间。我们将这种映射机制定义为自适应映射权重（AMW），使模型能够有效地结合生成和判别目标。通过遵循基于AI的内容审查系统的原则，ADAtk提供了一种更有针对性和系统性的方法来暴露概念消除扩散模型中的关键漏洞。

本文的主要贡献如下。

•

我们引入了一种新的判别视角来评估概念消除扩散模型的可靠性。这种视角与基于AI的内容审查系统的核心目标一致，弥合了NSFW内容审查中生成和判别任务之间的差距。

•

我们提出了对抗性判别攻击（ADAtk）方法，该方法通过利用可学习的扰动来适应地将生成空间映射到判别空间，从而在潜在空间中重构NSFW概念。这种方法有效地暴露了概念消除扩散模型中的关键漏洞。

•

我们在不适当图像提示（I2P）数据集（Schramowski等人，2023年）上进行了广泛的实验，证明所提出的ADAtk方法在揭示隐藏风险方面优于现有方法。

本文的其余部分组织如下。第2节回顾了与我们论文相关的最新工作。第3节详细描述了我们的方法。第4节展示了实验结果和分析，以证明我们方法的优越性。第5节讨论了限制和未来的工作。第6节总结了本文。第7节提供了致谢。附录A提供了补充材料。

方法

我们将我们的方法置于一个白盒威胁模型中，该模型假设可以完全访问概念消除扩散模型的架构和梯度

数据集

不适当图像提示（I2P）数据集（Schramowski等人，2023年）包含4,703个用于文本到图像生成的真实世界文本提示，这些提示可能导致生成模型产生NSFW内容。这些提示标记有一个或多个以下危害概念：仇恨、骚扰、暴力、自残、性内容、令人震惊的图像、非法活动。因此，上述概念分别包含230、823、755、800、930和726个提示。为了便于比较

讨论

我们的研究旨在揭示现有文本到图像扩散模型的漏洞，以促进更安全的AI发展，而不是鼓励滥用。在本节中，我们讨论了我们判别视角的理论意义，解决了与对抗性攻击相关的伦理问题，并分析了所提出框架的局限性。

安全性评估中的判别视角。现有应用程序通常使用判别模型来确定是否

结论

在本文中，我们提出了一种新的对抗性判别攻击（ADAtk）方法，用于识别概念消除扩散模型中固有的漏洞。与主要从生成角度进行攻击的现有方法不同，我们的ADAtk方法从判别角度在潜在空间中重构不当概念。具体来说，我们引入了可学习的攻击扰动和安全扰动，并设计了ADAtk损失函数来优化扰动，以便

CRediT作者贡献声明

吴汉晓：写作——审阅与编辑，撰写——原始草稿，验证，方法论，调查。熊胜武：写作——审阅与编辑，监督，方法论。易东：写作——审阅与编辑，验证，方法论。吴凌翔：写作——审阅与编辑，方法论。朱建清：写作——审阅与编辑，验证。朱贵波：写作——审阅与编辑，监督，方法论。王金桥：写作——审阅与编辑，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了中国国家重点研发计划（项目编号2022ZD0160601）的支持，以及中国国家自然科学基金（项目编号62276260）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

数据集

讨论

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题