DesInsert：一种策略性的描述性术语插入方法，用于干扰文本到图像的生成过程

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：DesInsert: Strategic Descriptive Term Insertion Fools Text-to-Image Generation

【字体：大中小】 时间：2026年03月16日 来源：Neural Networks 6.3

编辑推荐：

　　文本到图像生成模型存在语义描述攻击漏洞，本研究提出DesInsert框架及白盒/黑盒变体，通过插入优化描述性术语实现隐蔽攻击。实验表明其成功率达21.98%，生成速度提升10倍以上，有效规避现有检测机制。

Fanyu Bu|Kai Ye|Jianan Ma|Tianyi Chen|Zhen Wang

杭州电子科技大学卓越荣誉学院，中国杭州，310018

摘要

像Stable Diffusion这样的文本到图像生成模型由于在创意设计和内容创作中的广泛应用而最近受到了越来越多的关注。然而，由于深度神经网络中的持续弱点，这些模型仍然存在脆弱性。虽然之前的研究已经探讨了对这些模型的对抗性攻击，但它们往往会对原始输入引入明显的改变，从而降低了攻击的隐蔽性。在本文中，我们提出了Descriptive Term Insert（DesInsert）以及两种变体DesInsert-White和DesInsert-Black，分别针对白盒和黑盒环境设计。其核心思想是在输入文本中引入一个优化过的描述性术语，从而保留语义并实现难以察觉的攻击。具体来说，DesInsert-White利用离散化的softmax方法来增强白盒搜索过程，使得更有效地发现用于隐蔽性攻击的描述性术语。同时，DesInsert-Black在词空间中采用了一种新颖的遗传编码策略来生成语义连贯的对抗性样本。广泛的实验表明，DesInsert可以在流行的文本到图像模型上一致地扭曲生成的图像，且变化几乎不可察觉：它生成的对抗性样本的困惑度（PPL）值不到现有基线方法的一半。此外，在白盒环境中，它的成功率提高了21.98%，生成速度提高了10倍以上；在黑盒环境中，它不仅具有更高的成功率，而且查询成本更低。我们的工作揭示了当前文本到图像系统中的关键漏洞，并强调了开发更健壮的生成模型的必要性。代码可在以下链接获取：https://github.com/FanyuBu/DesInsert

引言

文本到图像生成模型作为人工智能领域的一项突破性进展，使得能够从文本描述中精确生成视觉内容。领先的框架包括Stable Diffusion（Rombach等人，2022年）、DALL·E（Ramesh, Dhariwal, Nichol, Chu, & Chen, Ramesh, Pavlov, Goh, Gray, Voss, Radford, Chen, Sutskever，2021年）和Midjourney，在解释复杂语义输入和生成逼真图像方面展示了出色的能力（Hong等人，2023年；Ruiz等人，2023年；Wang等人，2024a年；Zeng等人，2024年）。这些系统在各种领域得到了广泛应用，从艺术创作和文本引导的图像处理（Liu等人，2024年）到对安全性要求高的任务（Guo等人，2024年；Lin等人，2023年；Pittala等人，2024年）。

尽管取得了显著进展，当前的模型仍然继承了深度学习系统普遍存在的鲁棒性漏洞，这对可靠的现实世界部署构成了重大挑战。最近的研究探讨了文本到图像模型的对抗性鲁棒性，提出的方法包括：ATM（Du等人，2024年）通过使用Gumbel-Softmax梯度搜索对Stable Diffusion进行攻击；QF-Attack（Zhuang等人，2023年）通过针对CLIP文本编码器的对抗性后缀来诱导生成失败，该方法通过梯度和遗传算法进行了优化；Real-world attacks（Gao等人，2023年）模仿人类输入错误；以及DPO-Diff（Wang等人，2024b年）通过基于梯度的优化来改进对抗性样本。

在这些关于文本到图像模型稳定性的研究中，一个显著的局限性是制作的对抗性样本中存在明显的对抗性伪影，如图1所示。为了解决这个问题，我们识别出一种称为“修饰语覆盖名词”的失败模式，其中描述性修饰语操纵生成过程以消除目标对象或降低其显著性（例如，在图1中添加“twin”会移除主要主题“otter”）。利用人类认知偏见——观察者在感知描述符级别的变化时更倾向于具体名词和明确的对抗性标记——我们的攻击实现了更高的隐蔽性。通过策略性地优化语义一致但逻辑上矛盾的描述符，我们建立了一种新的攻击范式，有效降低了输出的质量，而不会引发人类的怀疑。

基于这一现象，我们开发了DesInsert，以系统地发现展示“修饰语覆盖名词”效应的对抗性样本。DesInsert是一个高效的对抗性描述符搜索框架，有两个变体：DesInsert-White和DesInsert-Black，分别适用于白盒和黑盒场景。DesInsert-White通过softmax离散化解决了基于梯度方法的嵌入空间不一致性问题，确保在优化过程中硬令牌分配直接映射到有效的离散令牌，从而消除了由于连续-离散不匹配导致的部署失败。对于黑盒场景，DesInsert-Black通过语义基因编码-解码克服了字符级遗传算法产生的无意义输出：在遗传搜索之前，候选描述符被编码到一个受限的搜索空间中，优化之后再解码回连贯的修饰语，避免了像对抗性后缀这样的伪影。

我们的全面实验表明，DesInsert-White的攻击效果接近确定性行为（忽略初始化噪声），并且与迭代基线方法（如ATM）相比，搜索时间缩短了10倍以上。此外，DesInsert-Black不仅避免了像对抗性后缀这样的伪影，还确保了高攻击成功率。总的来说，DesInsert建立了第一个用于隐蔽性描述符驱动攻击的框架。我们的主要贡献总结如下：

•
隐蔽性描述符攻击。
我们发现了文本到图像模型中的一个新漏洞——在语义解析过程中描述符对核心名词的系统性优先级错误，并利用这一点制作了能够逃避人类检测的自然语言对抗性样本。

•

精确目标攻击框架。

我们设计了DesInsert，一个双模式优化框架，包括DesInsert-White（白盒）和DesInsert-Black（黑盒），专门用于利用文本到图像模型中的描述性词元漏洞。

•

广泛的实验。

我们在多个文本到图像模型上的实验证明了所识别漏洞的普遍性，DesInsert的攻击成功率高于基线方法，并且隐蔽性更好。值得注意的是，与现有方法相比，DesInsert-White的搜索效率提高了10倍以上。

DesInsert

针对文本到图像模型的对抗性攻击正式定义如下：给定一个受害模型和一个用户提供的文本描述t，描述类别l，目标是在图像生成过程中引入故障

M_{G}

M_{G} (t)

，同时对t的修改最小。为了自动化这种攻击策略，我们使用了一个分类模型，表示为

M_{C}

。目标可以简洁地总结为：

\max_{t_{adv}} Sim (t_{adv} < /> t) s.t. \arg \max M_{C} (t_{adv})) \neq l

这里，

S i m (t_{adv} < /> t)

衡量了人类感知到的

实验设置

受害模型和基线。我们选择了Stable Diffusion模型作为受害模型，因为它易于获取，使用了版本1-4、1-5和2-1，用于我们的白盒和黑盒实验。为了使攻击更难以察觉，我们选择了形容词作为要插入的描述性术语。对于白盒实验，我们将其与干净数据、随机数据和ATM（Du等人，2024年）（基于Gumbel Softmax的搜索框架）进行了比较。在黑盒实验中，我们选择了干净数据、随机数据和DesInsert-Black Gradient。

可能的检测机制

随着大规模语言模型在自然语言处理（NLP）领域的快速发展，对抗性攻击变得越来越令人关注，特别是在文本生成和分类任务中。为了应对这一挑战，已经提出了一些代表性的防御措施：Neural Fingerprinting（NFP）（Dathathri等人，2018年）将指纹模式编码到模型的预测中，以检测灰盒和黑盒环境下的对抗性输入；TextShield（Shen等人，2023年）采用

结论

在本文中，我们介绍了DesInsert，一种对人类观察者来说难以察觉的对抗性框架，用于文本到图像生成模型。DesInsert不仅显著降低了对抗性攻击的检测率，还保持了高计算效率和成功率，展示了出色的跨模型可迁移性。实验结果表明，策略性地插入单个描述性词元可以在当代文本到图像系统中诱导出可预测的故障。

CRediT作者贡献声明

Fanyu Bu：撰写——审稿与编辑，撰写——初稿，可视化，验证，软件，方法论，调查，形式分析，概念化。Kai Ye：撰写——审稿与编辑，撰写——初稿，可视化。Jianan Ma：撰写——审稿与编辑，撰写——初稿，可视化，监督，方法论，调查，概念化。Tianyi Chen：撰写——审稿与编辑，监督，概念化。Zhen Wang：监督，资源，项目

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（U21B2001）的共同支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究