文本到图像生成模型作为人工智能领域的一项突破性进展,使得能够从文本描述中精确生成视觉内容。领先的框架包括Stable Diffusion(Rombach等人,2022年)、DALL·E(Ramesh, Dhariwal, Nichol, Chu, & Chen, Ramesh, Pavlov, Goh, Gray, Voss, Radford, Chen, Sutskever,2021年)和Midjourney,在解释复杂语义输入和生成逼真图像方面展示了出色的能力(Hong等人,2023年;Ruiz等人,2023年;Wang等人,2024a年;Zeng等人,2024年)。这些系统在各种领域得到了广泛应用,从艺术创作和文本引导的图像处理(Liu等人,2024年)到对安全性要求高的任务(Guo等人,2024年;Lin等人,2023年;Pittala等人,2024年)。
尽管取得了显著进展,当前的模型仍然继承了深度学习系统普遍存在的鲁棒性漏洞,这对可靠的现实世界部署构成了重大挑战。最近的研究探讨了文本到图像模型的对抗性鲁棒性,提出的方法包括:ATM(Du等人,2024年)通过使用Gumbel-Softmax梯度搜索对Stable Diffusion进行攻击;QF-Attack(Zhuang等人,2023年)通过针对CLIP文本编码器的对抗性后缀来诱导生成失败,该方法通过梯度和遗传算法进行了优化;Real-world attacks(Gao等人,2023年)模仿人类输入错误;以及DPO-Diff(Wang等人,2024b年)通过基于梯度的优化来改进对抗性样本。
在这些关于文本到图像模型稳定性的研究中,一个显著的局限性是制作的对抗性样本中存在明显的对抗性伪影,如图1所示。为了解决这个问题,我们识别出一种称为“修饰语覆盖名词”的失败模式,其中描述性修饰语操纵生成过程以消除目标对象或降低其显著性(例如,在图1中添加“twin”会移除主要主题“otter”)。利用人类认知偏见——观察者在感知描述符级别的变化时更倾向于具体名词和明确的对抗性标记——我们的攻击实现了更高的隐蔽性。通过策略性地优化语义一致但逻辑上矛盾的描述符,我们建立了一种新的攻击范式,有效降低了输出的质量,而不会引发人类的怀疑。
基于这一现象,我们开发了DesInsert,以系统地发现展示“修饰语覆盖名词”效应的对抗性样本。DesInsert是一个高效的对抗性描述符搜索框架,有两个变体:DesInsert-White和DesInsert-Black,分别适用于白盒和黑盒场景。DesInsert-White通过softmax离散化解决了基于梯度方法的嵌入空间不一致性问题,确保在优化过程中硬令牌分配直接映射到有效的离散令牌,从而消除了由于连续-离散不匹配导致的部署失败。对于黑盒场景,DesInsert-Black通过语义基因编码-解码克服了字符级遗传算法产生的无意义输出:在遗传搜索之前,候选描述符被编码到一个受限的搜索空间中,优化之后再解码回连贯的修饰语,避免了像对抗性后缀这样的伪影。
我们的全面实验表明,DesInsert-White的攻击效果接近确定性行为(忽略初始化噪声),并且与迭代基线方法(如ATM)相比,搜索时间缩短了10倍以上。此外,DesInsert-Black不仅避免了像对抗性后缀这样的伪影,还确保了高攻击成功率。总的来说,DesInsert建立了第一个用于隐蔽性描述符驱动攻击的框架。我们的主要贡献总结如下:
- •
隐蔽性描述符攻击。
我们发现了文本到图像模型中的一个新漏洞——在语义解析过程中描述符对核心名词的系统性优先级错误,并利用这一点制作了能够逃避人类检测的自然语言对抗性样本。