精炼、控制与提炼：一种用于生成逼真图像的文本到图像框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Pattern Analysis and Machine Intelligence》：Refine, Control and Distill: A Text-to-Image Framework for Faithful Image Generation

【字体：大中小】 时间：2026年02月10日 来源：IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐：

　　文本到图像扩散模型面临灾难性忽视和属性绑定问题，本文提出RCD框架通过文本嵌入优化、区域级注意力控制损失及中间特征蒸馏解决，实验验证其生成图像的准确性和质量优于现有方法。

摘要：

尽管文本到图像的扩散模型取得了出色的成果，但它们在生成提示中包含的关键主题及其相应属性时仍存在困难，这些挑战被称为“灾难性忽略”（catastrophic neglect）和“属性绑定”（attribute binding）。以往的研究通常通过调整注意力机制来解决这些问题，但我们发现这些方法仍然可能生成不准确的图像。在本文中，我们仔细分析了文本到图像的生成过程，并指出了三个阻碍图像准确生成的瓶颈：（1）文本嵌入中被忽略的主题所获得的响应不均衡；（2）不同主题之间的注意力竞争和相互干扰；（3）U-Net产生的中间特征质量不佳。基于上述观察，我们提出了一个名为“Refine, Control, and Distill”（RCD）的框架，该框架基于稳定的扩散模型来分别缓解上述瓶颈带来的负面影响。具体来说，我们通过文本嵌入优化模块、三种区域级别的注意力控制损失机制，以及在去噪过程中对中间语义特征进行自我蒸馏来实现这些目标。我们的方法在生成准确且高质量的图像方面表现出良好的能力，并且在针对最新先进基础扩散模型的广泛定量和定性评估中优于现有的最佳方法。

引言

诸如Imagen [6]、DALL·E [7]、[8] 和 Stable Diffusion (SD) [1] 等新兴的文本到图像模型通过在大规模的文本-图像对上进行训练，展现了出色的图像生成能力。然而，最近的研究 [2]、[3]、[9]、[10]、[11]、[12] 发现这些模型存在某些局限性。一个典型的问题是，生成的图像往往无法准确传达给定提示的含义，存在“灾难性忽略”和“属性绑定”等挑战 [13]。“灾难性忽略”指的是文本到图像模型通常会忽略某些关键主题的生成；“属性绑定”则是指某个主题的关键属性可能会丢失或泄露到其他主题中。

联系信箱：

粤ICP备09063491号

摘要：

引言

热点排行