双编码器语义与分层身份细化在个性化图像生成中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　个性化图像生成中提出 Dual-Diffusion 框架，通过双编码器分离全局身份与局部几何特征，分层身份交叉注意力机制对齐文本与视觉特征，并设计分层主体保真目标优化结构、语义和身份一致性，有效缓解属性绑定与跨模态身份漂移问题，平衡计算效率与生成质量。

侯英丽|朱志良|张伟|于海

东北大学软件学院，沈阳，110819，中国

摘要

尽管基于扩散的个性化图像生成技术发展迅速，但仍存在两个主要挑战影响生成质量：首先是将属性与主体绑定以及身份泄露问题，即无关的背景语义干扰了主体图像。其次是跨模态身份漂移，即主体图像在外观上会随着文本视角的变化而改变。为了解决这些问题，我们提出了Dual-Diffusion框架，该框架通过三个相互关联的组件来解决这些问题。具体来说，我们提出了：(i) 双编码器特征提取机制，使用冻结的CLIP编码器捕获全局的、与视角无关的身份信息，而轻量级的补丁编码器提取与姿势相关的局部几何信息。这种双路径策略有效地将主体特征与背景分离，从而最小化了属性绑定和身份泄露；(ii) 新颖的层次化身份交叉注意力（HICA）机制，它包含两个阶段：首先对齐局部文本-补丁语义，然后将全局身份标记重新路由到相应的空间区域，以防止不同视角下的身份漂移；(iii) 新颖的层次化主体保真度目标（H-SFO），该目标结合了多尺度结构对齐、基于协方差的语义去相关性和角度边缘身份对比度，以保持结构一致性、语义清晰度和身份完整性。Dual-Diffusion在计算效率和高保真度个性化之间取得了最佳平衡，能够在保持优秀图像质量的同时快速适应新需求。实验表明，Dual-Diffusion在主体和提示的保真度之间达到了最佳平衡。代码可在此处获取：https://github.com/hylneu/Dual-Diffusion。

引言

最近基于扩散的文本到图像生成技术（如DALL·E [2]、Imagen [3]和Stable Diffusion [4]）的进步，彻底改变了与文本描述一致的视觉连贯图像的合成方式[5]、[6]、[7]、[8]、[9]。尽管这些模型具有出色的生成能力，但个性化图像生成——即合成不仅与文本提示匹配，还能基于参考图像保持主体身份一致的图像——仍然面临独特的挑战[10]、[11]、[12]。具体来说，实现主体保真度需要准确解析主体关键属性，同时抑制无关背景信息，而当模型需要在不同文本背景下泛化身份属性时，这个问题变得更加复杂[13]。

两个持续存在的问题影响了个性化生成的 quality：首先是属性绑定和身份泄露。这种现象的发生是因为基于优化的方法（例如DreamBooth [13]、Textual Inversion [14]）本质上缺乏将主体身份与背景或姿势等上下文属性分离的机制。这种过拟合导致主体的独特特征与无关场景元素纠缠在一起，当上下文改变时，身份信息会被扭曲。例如，在狗的类别中（图1，第一行），这些方法在改变背景时无法一致地保留主体的身份。其次是跨模态身份漂移。这种情况发生在仅依赖全局身份编码器的方法中（例如DisenBooth [12]和DreamMatcher [15]）。由于缺乏主体细节与文本语义之间的精细空间对齐，文本视角的变化会无意中改变主体的内在身份。这个问题在怪物玩具类别中尤为明显（图1，第二行），在不同上下文中身份信息无法得到保留。

为了解决属性绑定、身份泄露和跨模态身份漂移的问题，现有的个性化图像生成框架主要在训练策略上有所不同[16]。基于优化的方法（如DreamBooth [13]和Custom Diffusion [17]）需要大量的微调来确保高保真度。然而，尽管训练时间较长，这些方法仍然存在主体身份与背景或姿势等上下文属性纠缠的问题，导致在上下文变化时身份信息被扭曲。另一方面，无需微调的方法（如IP-Adapter [18]和Disenvisioner [16]）通过仅编码全局身份特征来保持效率，但由于缺乏精细的空间对齐，无法保持主体保真度。这些方法也难以解决跨模态身份漂移问题，因为文本提示的变化会导致主体内在身份的变化。在这项工作中，我们提出了一个新颖的框架，明确解决了这些挑战，在主体保真度和计算效率之间取得了最佳平衡。通过使用轻量级的微调，我们的方法不仅能够捕捉到主体特有的细微差别，还能有效解决属性绑定和跨模态身份漂移问题，同时保持高视觉质量和计算效率。

基于这些观察结果以及解决个性化图像生成中关键挑战的需求，我们提炼出了两个核心要求：一是解耦表示，即将主体特定特征与上下文背景分离以减少属性绑定；二是明确的跨模态对齐，确保身份线索与文本语义之间的连贯映射，以抑制身份漂移。

为了满足这些要求，我们提出了Dual-Diffusion，这是一个统一且高效的框架，用于主体驱动的图像生成，它在保持视觉保真度的同时采用轻量级微调。首先，Dual-Diffusion采用了双编码器特征提取机制，其中冻结的CLIP编码器捕获与视角无关的全局身份信息，而轻量级的补丁编码器提取与姿势相关的局部几何信息。这种双路径设计有效地将主体身份与背景分离，显著减少了属性绑定和身份泄露。其次，为了确保在不同文本提示下的语义完整性，我们整合了层次化身份交叉注意力（HICA）模块，该模块执行文本和视觉特征之间的精细对齐，然后将全局身份标记重新路由到相关空间区域。这一过程有效缓解了跨模态身份漂移。最后，我们引入了层次化主体保真度目标（H-SFO），这是一个三级损失函数，从多个角度强化了身份和结构的一致性。它结合了多尺度结构对齐来保持几何一致性，基于协方差的语义去相关性来分离前景和背景特征，以及角度边缘身份对比度来明确主体边界。通过这些组件的协同作用，Dual-Diffusion在保持计算效率的同时，稳健地解决了个性化生成中的核心挑战。

总结来说，我们的贡献包括：

•

我们提出了Dual-Diffusion，这是一个全面的扩散框架，通过编码器分离、注意力路由和层次化监督，共同解决了属性绑定和跨模态身份漂移问题。

•

我们引入了一种新颖的双编码器特征提取方法，有效分离了全局身份和局部语义特征，显著提高了跨模态语义的连贯性。

•

我们开发了一种新颖的层次化身份交叉注意力（HICA），采用两阶段交叉注意力机制动态调节全局身份特征和局部语义，显著提高了结构精度和身份保留能力。

•

我们提出了一个新颖的层次化主体保真度目标（H-SFO），通过明确的层次化约束系统地解决了结构漂移、语义泄露和身份混淆问题。

部分内容片段

文本到图像（T2I）生成

T2I生成领域专注于从文本描述中合成多样化的、高质量的图像。生成对抗网络（GANs）[19]、[20]、[21]、[22]、[23]最初主导了这一领域，但存在训练不稳定和多样性有限的问题[24]。自回归模型[25]、[26]、[27]随后提高了生成质量，但需要大量的迭代过程。这一趋势与CLIP对齐的表示学习密切相关，其中CLIP驱动的语义

方法

我们提出的Dual-Diffusion的整体流程如图2所示。我们在提示中添加了一个可学习的主体标记，并使用双编码器对参考图像进行编码：一个冻结的CLIP分支提供全局身份嵌入，而轻量级的补丁编码器生成密集的局部标记。这些构成了条件流和身份库。在扩散过程中，层次化身份交叉注意力（HICA）首先融合文本-补丁提示，然后在空间上重新引导全局身份

数据集

我们使用了由DreamBooth [13]引入的公共DreamBench数据集，这是Google在主体驱动生成领域的一项开创性工作。该数据集包含30个不同的主体，所有主体均来自Unsplash¹。每个主体有25个不同的文本提示，涵盖了各种重新语境化技术、属性修改和访问细节。因此，总共有750个独特的文本提示。

局限性与未来工作

尽管提出的Dual-Diffusion框架在个性化图像生成方面取得了显著改进，但它是在预训练的Stable Diffusion模型基础上通过主体特定微调构建的。因此，它继承了底层架构的一些固有局限性，如图16所示。第一个局限性在于处理涉及多个实体的复杂构图时的难度，尤其是当空间排列定义不明确时

结论

在这项工作中，我们提出了Dual-Diffusion，这是一个用于个性化图像生成的新框架，它解决了保持主体身份和对齐全局与局部特征的关键挑战。通过使用双编码器进行特征提取和层次化身份交叉注意力（HICA）机制，我们确保了在不同文本提示下的身份稳健保留。我们提出了层次化主体保真度目标（H-SFO），进一步强化了结构一致性和语义

未引用的参考文献

缺少图10的引用

CRediT作者贡献声明

侯英丽：撰写——原始草稿、软件设计、方法论、概念化。朱志良：撰写——审阅与编辑、形式分析。张伟：监督、资源协调、调查。于海：验证、监督、数据管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作得到了111项目（B16009）、辽宁省自然科学基金（资助编号：2022-MS-123）、国家自然科学基金（资助编号：61402092、61374178、61603182）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言