自扩散模型[1]、[2]、[3]、[4]问世以来,由于它们能够实现高分辨率、逼真且多样的图像生成,并且训练稳定性好,这些模型成为许多研究领域中最活跃的研究对象[5]。这些模型已在超分辨率[6]、去模糊[7]、图像修复[8]、着色、视频生成[9]、图像分割[10]和文本到图像合成[11]等众多应用中得到应用。最近在文本到图像扩散模型[11]、[12]、[13](如DALL-E[14]、Imagen[15]、Muse[16]、Stable Diffusion[6]和SDXL[17])方面的突破证明了它们从文本提示生成高质量、多样化图像的能力。更重要的是,这些模型编码了丰富而有价值的先验知识。例如,它们在“猫”等抽象概念与其在生成图像中的多种视觉表现之间建立了复杂的关联,包括不同的姿势、环境背景和视觉特征。然而,当用户尝试生成具有个性化风格的具体对象(如历史文物)的图像时(例如儿童画作),会遇到无法克服的挑战。例如,模型无法生成特定名称的“[o]”这种猫的图像,因此需要通过专门的图像生成技术来嵌入这些个性化概念。
在个性化图像生成方面已经取得了实质性进展,但目前的研究主要集中在三个不同的方向。零文本反转[18]使用DDIM反转[2]噪声作为图像生成的起点,同时优化零文本嵌入以补偿无分类器引导引入的重建误差。这种方法代表了模型文本空间中概念嵌入的一种变体。然而,零文本反转的实际实现存在显著限制,主要是由于在图像生成过程中无分类器引导组分的权重相对较低,以及该过程的固有复杂性。
DreamBooth[19]微调所有模型参数,将新概念嵌入模型的输出域,成为最有效的个性化文本到图像生成方法。然而,Stable Diffusion模型中大量的参数使得全面参数调整在计算上非常昂贵。此外,尽管引入了先验保留损失,这些模型仍然容易发生灾难性遗忘[20],从而严重限制了其广泛应用。
在当前研究中,部分参数微调已成为个性化文本到图像生成的主要方法,包括四个不同的研究分支[21]。前缀调优[22]广泛应用于大型语言模型(LLMs),主要关注调整跨注意力机制中的和矩阵。然而,与其他方法相比,其性能通常较差。Adapter方法[23]通过将可训练模块集成到模型的前向过程中显示出有希望的结果,但显著延长了推理时间,从而导致图像生成速度变慢,限制了其实际应用。文本嵌入方法[24]、[25]通过优化参考图像中新概念的标识符将新概念嵌入模型的文本空间,利用模型的先验知识生成新图像。尽管如此,这些方法难以准确捕捉新概念的精确形状,并且存在目标概念与参考图像中的辅助元素(如背景和其他对象)之间的纠缠问题。LoRA[26]由于其可训练参数大幅减少、保持了原始推理速度以及性能与全参数微调相当,成为主要方法。
当前方法在个性化文本到图像生成领域面临几个重大挑战。首先是在微调过程中出现灾难性遗忘(或语言漂移),这会损害基础模型的图像生成能力。此外,在微调过程中会发生对象纠缠,导致学习的目标概念与参考图像中的其他因素纠缠在一起,使得生成的目标概念图像无法保留关键的可识别特征。在研究[27]中,他们表明LoRA特别擅长保持基础模型的多样性并尽可能避免灾难性遗忘。然而,LoRA的一个显著限制是每次只能学习一个概念。在生成涉及多个新概念的图像时,必须结合多个LoRA。然而,这种组合通常会导致LoRA之间的相互干扰和冲突,使得多个LoRA的集成变得困难[28]。
为了解决上述挑战,提出了一种新的个性化文本到图像扩散模型方法。主要目标是利用LoRA方法,使扩散模型能够解耦并学习多个不同的概念类别,同时保持基础模型的多样化图像生成能力,从而减轻语言漂移的风险。训练完成后,该方法可以以解耦的方式嵌入多个新概念,生成各种风格的新对象图像。这些生成的图像可以无缝集成到不同场景中,同时保留目标对象的关键可识别特征。这种方法对计算机视觉技术、创意内容产业和AI驱动的艺术创作领域的发展具有重要意义。
具体来说,引入了一种具有正则化效果的新型LoRA,增强了模型对先验知识的保留能力,并有效缓解了语言漂移问题。文本提示被输入到模型的特定跨注意力层中,通过渐进和分层生成策略实现序列图像生成。对层次结构在图像生成过程中的作用进行了定性分析,并对其生成不同概念的贡献进行了定量评估。
对于每个概念,都会分配一个唯一的标识符。这些图像及其包含标识符的文本提示被输入到配备了所提出的LoRA模块的模型中。通过门控机制,不同的概念被嵌入到不同的LoRA层中。训练后,基于基础扩散模型的固有生成能力,利用学习到的标识符生成个性化的对象和/或风格。
广泛的实验表明,我们的方法在保持基础模型生成能力的同时,有效提高了记忆保留率。此外,还揭示并定量评估了不同模型层在生成阶段控制不同图像属性的作用。通过将不同概念嵌入到不同的分层层中,该方法有效解耦了多个概念,使LoRA能够同时学习和表示多个概念。定性和定量比较表明,这种方法在个性化文本到图像生成方面优于现有方法。
据作者所知,我们的方法是第一个通过引入激活函数来解决LoRA中语言漂移问题的方法,也是第一个通过分层操作使单个LoRA同时学习多个概念的方法。
本文的主要贡献可以总结如下:
•提出了一种新的LoRA架构,在个性化文本到图像生成的训练过程中加入正则化效果。该架构有效解决了数据过拟合问题,并缓解了扩散模型中的语言漂移问题。
•基于文本提示,对不同扩散模型层之间的图像生成特性进行了全面比较。提供了定量评估,探讨了各种分层层在图像生成过程中的作用。这一分析为该领域的研究开辟了新的方向。
•引入了一种基于门控机制的分层操作,将多个概念解耦并嵌入到单个LoRA中。这一创新使得可以从参考图像中分离出对象的学习,同时排除无关因素。