HierLoRA：一种分层多概念学习方法，结合了改进版的LoRA技术，用于个性化图像扩散模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：HierLoRA: A hierarchical multi-concept learning approach with enhanced LoRA for personalized image diffusion models

【字体：大中小】 时间：2026年02月06日 来源：Neurocomputing 6.5

编辑推荐：

　　针对LoRA个性化扩散模型中存在的语言漂移、概念纠缠及单次学习限制问题，提出分层学习策略与增强型LoRA模块。通过引入GeLU激活函数缓解语言漂移，设计门控机制实现多概念解耦学习，在保持基模型生成能力的同时，减少可训练参数至45M以下，显著提升目标物体特征保留率（4%-6%）和图像风格相似度（10%），并支持多概念协同生成。

牛永杰|周鹏博|周睿|周明权

中国陕西省西安市学府大道1号，西北大学信息科学与技术学院，710127

摘要

个性化图像生成是扩散模型的关键应用，对计算机视觉、艺术创作和内容生成技术的发展具有重要意义。然而，使用低秩适应（LoRA）进行微调的现有扩散模型在学习新概念时面临多重挑战：语言漂移会降低新概念在新的上下文中的生成质量；参考图像中对象特征与其他元素的纠缠会导致学习目标与其唯一标识符之间的不对齐；传统的LoRA方法一次只能学习一个概念。为了解决这些问题，本研究提出了一种新的分层学习策略和改进的LoRA模块。具体而言，我们将GeLU激活函数集成到LoRA架构中作为非线性变换，以有效缓解语言漂移。此外，设计了一种门控分层学习机制，以实现概念间的解耦，使单个LoRA模块能够同时学习多个概念。在多个随机种子上的实验结果表明，我们的方法在记忆保留指标上提高了4%–6%，并在对象保真度和风格相似性上分别优于现有方法约12.5%和10%。除了生成质量更优外，我们的方法还具有较高的计算效率，所需的可训练参数数量显著较少（约4500万）。在保留目标对象的关键特征的同时，该方法能够生成新风格的多样化场景图像。在需要同时学习多个概念的场景中，本研究不仅为个性化扩散模型训练中的多概念学习问题提供了新的解决方案，还为高质量定制的AI图像生成和多样化的视觉内容创作奠定了技术基础。源代码可在https://github.com/ydniuyongjie/HierLoRA/tree/main处获取。

引言

自扩散模型[1]、[2]、[3]、[4]问世以来，由于它们能够实现高分辨率、逼真且多样的图像生成，并且训练稳定性好，这些模型成为许多研究领域中最活跃的研究对象[5]。这些模型已在超分辨率[6]、去模糊[7]、图像修复[8]、着色、视频生成[9]、图像分割[10]和文本到图像合成[11]等众多应用中得到应用。最近在文本到图像扩散模型[11]、[12]、[13]（如DALL-E[14]、Imagen[15]、Muse[16]、Stable Diffusion[6]和SDXL[17]）方面的突破证明了它们从文本提示生成高质量、多样化图像的能力。更重要的是，这些模型编码了丰富而有价值的先验知识。例如，它们在“猫”等抽象概念与其在生成图像中的多种视觉表现之间建立了复杂的关联，包括不同的姿势、环境背景和视觉特征。然而，当用户尝试生成具有个性化风格的具体对象（如历史文物）的图像时（例如儿童画作），会遇到无法克服的挑战。例如，模型无法生成特定名称的“[o]”这种猫的图像，因此需要通过专门的图像生成技术来嵌入这些个性化概念。

在个性化图像生成方面已经取得了实质性进展，但目前的研究主要集中在三个不同的方向。零文本反转[18]使用DDIM反转[2]噪声作为图像生成的起点，同时优化零文本嵌入以补偿无分类器引导引入的重建误差。这种方法代表了模型文本空间中概念嵌入的一种变体。然而，零文本反转的实际实现存在显著限制，主要是由于在图像生成过程中无分类器引导组分的权重相对较低，以及该过程的固有复杂性。

DreamBooth[19]微调所有模型参数，将新概念嵌入模型的输出域，成为最有效的个性化文本到图像生成方法。然而，Stable Diffusion模型中大量的参数使得全面参数调整在计算上非常昂贵。此外，尽管引入了先验保留损失，这些模型仍然容易发生灾难性遗忘[20]，从而严重限制了其广泛应用。

在当前研究中，部分参数微调已成为个性化文本到图像生成的主要方法，包括四个不同的研究分支[21]。前缀调优[22]广泛应用于大型语言模型（LLMs），主要关注调整跨注意力机制中的

和

矩阵。然而，与其他方法相比，其性能通常较差。Adapter方法[23]通过将可训练模块集成到模型的前向过程中显示出有希望的结果，但显著延长了推理时间，从而导致图像生成速度变慢，限制了其实际应用。文本嵌入方法[24]、[25]通过优化参考图像中新概念的标识符将新概念嵌入模型的文本空间，利用模型的先验知识生成新图像。尽管如此，这些方法难以准确捕捉新概念的精确形状，并且存在目标概念与参考图像中的辅助元素（如背景和其他对象）之间的纠缠问题。LoRA[26]由于其可训练参数大幅减少、保持了原始推理速度以及性能与全参数微调相当，成为主要方法。

当前方法在个性化文本到图像生成领域面临几个重大挑战。首先是在微调过程中出现灾难性遗忘（或语言漂移），这会损害基础模型的图像生成能力。此外，在微调过程中会发生对象纠缠，导致学习的目标概念与参考图像中的其他因素纠缠在一起，使得生成的目标概念图像无法保留关键的可识别特征。在研究[27]中，他们表明LoRA特别擅长保持基础模型的多样性并尽可能避免灾难性遗忘。然而，LoRA的一个显著限制是每次只能学习一个概念。在生成涉及多个新概念的图像时，必须结合多个LoRA。然而，这种组合通常会导致LoRA之间的相互干扰和冲突，使得多个LoRA的集成变得困难[28]。

为了解决上述挑战，提出了一种新的个性化文本到图像扩散模型方法。主要目标是利用LoRA方法，使扩散模型能够解耦并学习多个不同的概念类别，同时保持基础模型的多样化图像生成能力，从而减轻语言漂移的风险。训练完成后，该方法可以以解耦的方式嵌入多个新概念，生成各种风格的新对象图像。这些生成的图像可以无缝集成到不同场景中，同时保留目标对象的关键可识别特征。这种方法对计算机视觉技术、创意内容产业和AI驱动的艺术创作领域的发展具有重要意义。

具体来说，引入了一种具有正则化效果的新型LoRA，增强了模型对先验知识的保留能力，并有效缓解了语言漂移问题。文本提示被输入到模型的特定跨注意力层中，通过渐进和分层生成策略实现序列图像生成。对层次结构在图像生成过程中的作用进行了定性分析，并对其生成不同概念的贡献进行了定量评估。

对于每个概念，都会分配一个唯一的标识符。这些图像及其包含标识符的文本提示被输入到配备了所提出的LoRA模块的模型中。通过门控机制，不同的概念被嵌入到不同的LoRA层中。训练后，基于基础扩散模型的固有生成能力，利用学习到的标识符生成个性化的对象和/或风格。

广泛的实验表明，我们的方法在保持基础模型生成能力的同时，有效提高了记忆保留率。此外，还揭示并定量评估了不同模型层在生成阶段控制不同图像属性的作用。通过将不同概念嵌入到不同的分层层中，该方法有效解耦了多个概念，使LoRA能够同时学习和表示多个概念。定性和定量比较表明，这种方法在个性化文本到图像生成方面优于现有方法。

据作者所知，我们的方法是第一个通过引入激活函数来解决LoRA中语言漂移问题的方法，也是第一个通过分层操作使单个LoRA同时学习多个概念的方法。

本文的主要贡献可以总结如下：

•

提出了一种新的LoRA架构，在个性化文本到图像生成的训练过程中加入正则化效果。该架构有效解决了数据过拟合问题，并缓解了扩散模型中的语言漂移问题。

•

基于文本提示，对不同扩散模型层之间的图像生成特性进行了全面比较。提供了定量评估，探讨了各种分层层在图像生成过程中的作用。这一分析为该领域的研究开辟了新的方向。

•

引入了一种基于门控机制的分层操作，将多个概念解耦并嵌入到单个LoRA中。这一创新使得可以从参考图像中分离出对象的学习，同时排除无关因素。

文本到图像扩散模型的个性化已经得到了广泛研究，许多有效的方法既为我们的工作奠定了基础，也提供了灵感。本节将探讨两个主要的相关研究领域。

方法

所提出的方法利用单张图像获取特定概念。每个概念都被分配一个唯一的标识符，并采用改进的LoRA架构进行文本到图像扩散模型的微调。该方法将不同的概念嵌入到模型的不同分层中。在生成过程中，通过构建结合这些概念标识符的提示来合成新概念。

实验

本节对实验程序和结果进行了全面分析。所提出的方法有两个显著优势：首先，它有效缓解了数据过拟合问题，同时保持了高学习率；其次，它利用网络的分层特性实现了多概念学习。值得注意的是，单个LoRA能够解耦并同时学习两个不同的概念。

结论

本文提出了一种利用LoRA对SDXL模型进行细调的创新方法。通过对比训练过程中的学习率和记忆保留率，提出了一种新的LoRA架构。通过对不同SDXL层在生成各种概念中的作用进行深入分析，引入了一种顺序的多阶段LoRA方法，实现了多个概念的同时学习。

CRediT作者贡献声明

牛永杰：软件、方法论、概念化。周鹏博：写作——审稿与编辑、验证、调查。周睿：写作——初稿、形式分析、数据管理。周明权：监督、资源协调

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了中国国家重点研发计划（2020YFC1523301）和陕西省技术创新引领项目（2024QY-SZX-11）的支持。

牛永杰是中国西北大学信息科学学院的博士候选人，专攻生成式人工智能，特别是图像生成和编辑。他还是延安大学数学与计算机科学学院的副教授和硕士导师。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

文本到图像扩散模型的个性化已经得到了广泛研究，许多有效的方法既为我们的工作奠定了基础，也提供了灵感。本节将探讨两个主要的相关研究领域。

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题