
-
生物通官微
陪你抓住生命科技
跳动的脉搏
精炼、控制与提炼:一种用于生成逼真图像的文本到图像框架
《IEEE Transactions on Pattern Analysis and Machine Intelligence》:Refine, Control and Distill: A Text-to-Image Framework for Faithful Image Generation
【字体: 大 中 小 】 时间:2026年02月10日 来源:IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6
编辑推荐:
文本到图像扩散模型面临灾难性忽视和属性绑定问题,本文提出RCD框架通过文本嵌入优化、区域级注意力控制损失及中间特征蒸馏解决,实验验证其生成图像的准确性和质量优于现有方法。
诸如Imagen [6]、DALL·E [7]、[8] 和 Stable Diffusion (SD) [1] 等新兴的文本到图像模型通过在大规模的文本-图像对上进行训练,展现了出色的图像生成能力。然而,最近的研究 [2]、[3]、[9]、[10]、[11]、[12] 发现这些模型存在某些局限性。一个典型的问题是,生成的图像往往无法准确传达给定提示的含义,存在“灾难性忽略”和“属性绑定”等挑战 [13]。“灾难性忽略”指的是文本到图像模型通常会忽略某些关键主题的生成;“属性绑定”则是指某个主题的关键属性可能会丢失或泄露到其他主题中。