近年来,深度神经网络的进步推动了生成模型的显著发展(Goodfellow等人,2014年;Ho等人,2020年;Luo等人,2025年;Podell等人,2024年),这些模型已在广泛的视觉-语言任务中得到探索,例如图像生成(Chen等人,2025年;Xiao, Yin, Freeman, Durand, Han, 2025a;Xiao, Wang, Zhou, Yuan, Xing, Yan, Li, Wang, Huang, Liu, 2025b;图像编辑(Huang等人,2025年);图像标题生成(Kawar等人,2023年;Daneshfar等人,2024年;Wang等人,2024年)。特别是文本到图像(T2I)扩散模型(Ho等人,2020年;Podell等人,2024年;Rombach等人,2022年)在从文本描述生成多样且高质量的视觉内容方面表现出色。然而,它们产生不适宜工作(NSFW)内容(如裸体或暴力场景)的潜力引发了严重的伦理和安全问题(Qu等人,2023年;Truong等人,2025年;Yang, Gao, Wang, Ho, Xu, Xu, 2024a;Yang, Gao, Yang, Zhong, Xu, 2024b;Zhang等人,2025年)。为了解决这些挑战,已经提出了各种缓解策略。一种常见的方法是对模型参数进行微调以抑制特定不希望出现的概念的生成(Gandikota等人,2023年;Lu等人,2024年;Wu等人,2025年;Zhang等人,2024a)。另一种方法是在推理过程中限制文本嵌入空间,有效过滤掉有问题的提示(Li等人,2024年;Schramowski等人,2023年)。虽然这些技术显示出希望,但它们存在关键限制。例如,微调通常会导致过拟合,降低模型的泛化能力,而嵌入空间限制难以处理输入提示中的微妙扰动。这些限制突显了需要更健壮和全面的保护措施来确保T2I扩散模型的安全部署。
通过诱导概念消除扩散模型生成NSFW图像来揭示其漏洞已成为评估其可靠性的关键研究领域。最近的研究(Chin等人,2024年;Zhang等人,2024c)探索了对抗性生成攻击(AGAtk)方法,如图1(a)所示。这些方法旨在生成与特定NSFW内容非常相似的图像,优先考虑生成输出的质量。强调生成图像与输入文本之间的对齐以确保高保真度。然而,这种对质量的关注往往忽略了NSFW内容的更深层次语义维度,导致模型中的关键漏洞未能得到充分揭示。以图1(a)为例,被攻击的图像在视觉上与目标图像相似,并与输入提示对齐,但攻击失败了。这一限制突显了需要超越表面级质量指标的替代方法来全面评估这些模型的鲁棒性。
基于此,我们转向基于AI的内容审查系统,这些系统在学术研究和实际应用中得到了广泛应用(Akyon和Temizel,2023年;Qu等人,2023年;Schramowski等人,2022年;Yuan等人,2025年)。这些系统旨在将图像分类为适合或不适合工作,主要目的是有效过滤掉敏感或不适当的内容,以确保各种平台的安全性和合规性。与主要关注生成高质量输出的AGAtk方法不同,内容审查系统从判别角度运作,根据语义和上下文线索区分不同类型的内容。受此范式的启发,我们认为采用与判别视角一致的攻击策略可能会产生更有效的结果。通过模仿基于AI的内容审查系统的决策过程,这种方法不仅会更有效地利用生成模型中的漏洞,而且符合内容审查系统的核心目标,提供对模型鲁棒性的更全面评估。
在本文中,我们提出了一种对抗性判别攻击(ADAtk)方法来揭示概念消除扩散模型中的漏洞,如图1(b)所示。ADAtk的核心思想是通过优化生成NSFW图像的可能性在潜在空间中重构NSFW概念。为此,我们引入了两种可学习的扰动:攻击扰动和安全扰动,分别对应于不安全和安全类别。这些扰动作为自适应权重,在梯度计算过程中动态地将生成空间映射到判别空间。我们将这种映射机制定义为自适应映射权重(AMW),使模型能够有效地结合生成和判别目标。通过遵循基于AI的内容审查系统的原则,ADAtk提供了一种更有针对性和系统性的方法来暴露概念消除扩散模型中的关键漏洞。
本文的主要贡献如下。
•我们引入了一种新的判别视角来评估概念消除扩散模型的可靠性。这种视角与基于AI的内容审查系统的核心目标一致,弥合了NSFW内容审查中生成和判别任务之间的差距。
•我们提出了对抗性判别攻击(ADAtk)方法,该方法通过利用可学习的扰动来适应地将生成空间映射到判别空间,从而在潜在空间中重构NSFW概念。这种方法有效地暴露了概念消除扩散模型中的关键漏洞。
•我们在不适当图像提示(I2P)数据集(Schramowski等人,2023年)上进行了广泛的实验,证明所提出的ADAtk方法在揭示隐藏风险方面优于现有方法。
本文的其余部分组织如下。第2节回顾了与我们论文相关的最新工作。第3节详细描述了我们的方法。第4节展示了实验结果和分析,以证明我们方法的优越性。第5节讨论了限制和未来的工作。第6节总结了本文。第7节提供了致谢。附录A提供了补充材料。