编辑推荐:
本文提出训练-free的FreeMD方法,通过分离外观和结构指导分支,结合主成分分析和离散小波变换,实现文本提示与结构控制的精准对齐,提升生成图像的结构一致性和可控性。
邵明文|刘昌|吕翔|孟凌庄|万叶聪|龚正一
中国石油大学(华东)计算机科学与技术学院,青岛,266580,中国
摘要
扩散模型推动了具有结构控制的可控文本到图像生成技术的发展。然而,仍然存在两个限制:(1)现有的方法将文本提示和结构控制耦合在一起,导致像素级别的结构控制主导了生成过程,从而与文本提示不匹配;(2)由于这些方法通常只关注空间域特征,而忽略了包括纹理细节在内的关键频率域表示,因此结构一致性较差。为了解决上述问题,我们提出了FreeMD,这是一种无需训练的多域文本到图像生成方法,能够实现与文本提示更好的语义对齐,并同时实现出色的结构一致性。具体来说,我们设计了两个独立的引导分支来解耦文本提示和结构控制:外观引导分支和结构引导分支。前者利用主成分监督来转换文本中的外观信息到生成的图像中,这种巧妙的设计有助于在生成过程中实现与文本提示的语义对齐。后者结合空间域和频率域的特征,通过全面的监督来提高结构一致性。得益于这种解耦架构和多域引导策略,FreeMD能够准确地对齐文本提示,并实现与控制信号的结构一致性。此外,FreeMD可以无缝集成到各种预训练的生成模型中,以完成常见的下游任务。大量实验表明,FreeMD在可控性和生成质量方面优于现有方法。
引言
近年来,扩散模型(Ho等人,2020年;Song等人,2020a年)的出现,在图像生成任务中取得了显著进展。随后,大规模扩散模型(Nichol等人,2021年;Podell等人,2023年)在大量配对的文本-图像数据上进行了训练,并在文本到图像(T2I)生成(Gong等人,2024年;Ramesh等人,2022年;Rombach等人,2022年;Ruiz等人,2023年;Saharia等人,2022年)和图像编辑(Cao等人,2023年;Hertz等人,2022年;Kim等人,2022年;Lu等人,2023年;Zhang等人,2023b年)领域取得了令人满意的性能。然而,文本提示仅提供粗粒度的信息,如风格和颜色,这些信息不足以准确描述可控T2I生成的细粒度空间布局,从而导致可控性较差。
为了解决上述问题,已经提出了几种方法(Huang等人,2023年;Mou等人,2024年;Zhang等人,2023a年)。其中一个代表性的工作是ControlNet(Zhang等人,2023a年),它在预训练的T2I扩散模型中添加了轻量级适配器,以接收用户提供的各种输入结构控制(如边缘图、深度图和OpenPose图)。然而,ControlNet需要为不同的结构控制训练不同的适配器,这既耗时又费力。基于此,一些出色的微调工作(Bhat等人,2024年;Hu等人,2023年;Mou等人,2024年;Qin等人,2023年;Sun等人,2025年;Zhao等人,2023年)设计了一种支持多种空间控制的统一架构。然而,上述方法仍然存在两个限制:(1)过分强调结构控制而忽视文本提示,因为像素级别的结构控制主导了生成过程,导致与文本提示不匹配;(2)它们难以捕捉更多的纹理细节和边缘特征,从而导致结构一致性较差。
为了解决这些问题,一方面,我们分析了查询(Q)、键(K)、值(V)和自注意力图(S)对结构和外观的影响。如图1(a)所示,我们每250个迭代时间步从U-Net解码器的自注意力层提取Q, K, V和S,并使用主成分分析(PCA)获得前三主成分,然后将它们可视化为伪彩色图像。在伪彩色图像中,相同颜色的区域表示相似的语义信息,较亮的区域对应于原始特征图中值较高的区域。我们发现V表达了更丰富的视觉信息(相同颜色的区域大致分布在城堡的表面),而S表示更强的结构信息(自注意力图中城堡的边缘部分最亮)。基于这一发现,我们选择V的主成分作为外观表示用于外观监督,选择S的主成分作为结构表示用于结构表示,以指导生成过程。另一方面,我们研究了频率域特征与结构控制之间的关系,因为高频特征擅长表达更多的纹理细节和边缘结构。我们使用离散小波变换(DWT)进一步提取并添加伪彩色图像的高频特征。可视化结果如图1(b)所示。我们发现高频特征与控制信号在结构上大致对齐,这有助于实现更全面的结构监督。这一关键发现促使我们利用必要的频率特征作为额外的结构指导,以获得更好的结构一致性。
在本文中,我们提出了FreeMD,这是一种无需训练的多域文本到图像方法,能够准确表达文本提示中的外观,并实现与控制信号的结构一致性。具体来说,我们在生成过程中解耦了文本中的外观表示和结构表示,以与控制信号对齐。同时,我们设计了两个独立的引导分支来指导生成过程:外观引导分支和结构引导分支。前者利用主成分监督来转换文本中的外观信息到生成的图像中,这种巧妙的设计有助于在生成过程中实现与文本提示的语义对齐。后者结合空间域和频率域的特征,通过全面的监督来提高结构一致性。得益于这种解耦架构和多域引导策略,FreeMD能够准确传达文本提示中的外观信息,并同时实现出色的结构一致性。此外,FreeMD不仅可以实现单控制T2I生成,还可以实现多控制组合图像生成,如图2(a)所示。值得注意的是,我们的方法可以无缝集成到各种预训练的生成模型中,以完成常见的下游任务(例如,图像去模糊、图像修复和图像着色)。大量实验表明,FreeMD在可控性和生成质量方面优于现有的无训练方法。
我们的主要贡献总结如下:
•我们提出了FreeMD,这是一种无需训练的多域文本到图像生成方法,能够准确对齐文本提示,并实现与控制信号出色的结构一致性。
•为了避免忽略文本提示,我们设计了一个独立的外观引导分支,通过主成分监督巧妙地引导生成过程,以表达文本提示中的外观。
•在结构引导分支中设计了一种结合空间域和频率域的多域引导策略,以实现全面的结构监督,从而提高结构一致性。
•广泛的定性和定量实验表明,我们提出的FreeMD不仅实现了单结构控制的图像生成,还允许多条件组合图像生成。
章节片段
单控制文本到图像生成
文本提示通常是粗粒度的,难以清晰直观地表达细粒度的结构要求,这不足以传达用户的偏好。为了解决这个问题,已经提出了几种模型,将额外的结构控制(例如,布局、分割、草图、深度图)引入生成模型中,以实现结构控制的T2I生成(Chen等人,2024年;Jia等人,2024年;Phung等人,2024年;Zhou等人,2024年)。
初步介绍
稳定扩散。标准扩散模型包括两个过程:(1)前向过程逐渐向样本添加高斯噪声,(2)后向过程通过逐步预测噪声并在个时间步中对图像x0进行去噪来恢复图像。Stable Diffusion(Rombach等人,2022年)是一种特定类型的潜在扩散模型(LDM)(Rombach等人,2022年),它使用预训练的编码器将xt从像素空间映射到低维潜在空间,以获得潜在表示
实验
我们在本节进行了广泛的定性和定量实验,以展示我们与基线的竞争性能。此外,还对模型的关键组件进行了消融研究。另外,FreeMD可以与预训练的T2I扩散模型无缝集成,以实现可控的T2I生成,因此我们对不同版本的稳定扩散(例如SD-1.4、SD-1.5、SD-2.1)进行了定性和定量测试。最后,我们展示了零样本生成的结果
局限性
尽管FreeMD在大多数结构控制下表现良好,但我们在图12中观察到在冲突条件下的失败情况。当输入两个相交的Canny图作为结构控制时,模型难以区分对象和杂乱的边缘线,导致生成结果失败。具体来说,当多个结构控制相互冲突时,提取的自注意力结构表示及其对应的高频成分会
结论
在本文中,我们提出了FreeMD,这是一种无需训练的多域文本到图像生成方法,能够准确表达文本提示中的外观,并同时实现与结构控制的对齐。具体来说,我们设计了两个独立的引导分支来解耦文本提示和结构控制:外观引导分支和结构引导分支。前者通过精心设计的主成分监督,将文本中的外观信息巧妙地转换到生成的图像中
CRediT作者贡献声明
邵明文:撰写 – 审稿与编辑,撰写 – 原稿,监督,概念化。刘昌:数据整理,方法论,撰写 – 原稿,软件。吕翔:数据整理,方法论,撰写 – 原稿,软件。孟凌庄:方法论,调查。万叶聪:方法论,可视化。龚正一:数据整理,方法论,撰写 – 原稿,软件。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
作者非常感谢匿名审稿人的宝贵评论和建议,这些评论和建议有助于本文的改进。本工作得到了中国国家重点研发计划(项目编号2021YFA1000102)、国家自然科学基金(项目编号62376285和61673396)以及山东省自然科学基金(项目编号ZR2022MF260)的支持。