PoseFA：用于生成逼真人体图像的姿态对齐扩散技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：PoseFA: Pose-Aligned Diffusion for Realistic Human Image Generation

【字体：大中小】 时间：2026年03月04日 来源：Digital Signal Processing 3

编辑推荐：

　　提出基于扩散模型的姿势引导人物图像合成框架，包含解耦学习模块、多尺度渐进融合网络和语义感知增强模块，解决复杂场景下高频率纹理丢失、结构错位和语义不一致问题，实验表明SSIM、FID等指标显著提升。

王萌|王冰|陈慧玲

昆明理工大学信息工程与自动化学院，中国云南省昆明市650500

摘要

基于姿态的人像合成旨在使源图像的外观与目标姿态特征对齐。现有方法往往无法捕捉复杂场景中的细微语义细节，导致在非线性变形下出现纹理失真和对齐错误。我们提出了一种基于扩散的框架，包含三个组成部分：（1）解耦学习模块，用于分离高频纹理、语义结构和颜色，以避免特征干扰；（2）多尺度渐进式融合网络，通过可变形卷积实现从粗到细的融合，以在大幅度姿态变化下保持结构一致性；（3）基于语义感知的增强模块，引入类似Mamba的线性注意力位置编码来模拟遗忘门效应，从而改善语义建模并减少失真。实验结果显示，在SSIM、FID、PSNR和LPIPS等指标上均有显著提升，视觉效果也证实了该方法在保留细节和应对大幅度姿态变化方面的优越性。

引言

基于姿态的人像合成（PGPIS）旨在生成能够保留源图像外观特征的目标姿态图像[1]。目前，PGPIS广泛应用于虚拟现实（VR）、虚拟试穿、数字人体和动画制作等领域。该任务的目标是在保持源图像中人物I_s的身份和外观细节（如纹理）的同时，准确生成与目标姿态图像I_tp中人物姿态一致的目标外观图像，如图1所示。现有的PGPIS解决方案主要分为基于GAN的方法[2]和基于扩散模型的方法[3]、[4]，以及少数基于其他深度学习技术的方法[5]。尽管这些方法已经得到了广泛研究，但在细粒度语义理解和跨姿态特征交互的对齐方面仍存在挑战，尤其是在模拟外观纹理与目标姿态之间的动态表达和姿态对齐关系时[6]、[7]、[8]、[9]。因此，本研究重点关注如何准确传递目标姿态和相应的人体细节语义表达，同时保持高保真度的前景外观。

在以往研究的基础上，专注于渐进式去噪生成过程的扩散模型[3]、[4]最近受到了广泛关注。由于这些模型能够生成高质量、高分辨率的图像，它们已成为图像合成任务中GAN的有力替代方案。因此，越来越多的基于扩散的方法被用于基于姿态的人像合成。例如，DNAF[10]使用T2I-Adapter作为像素到特征的映射适配器，并采用预训练的Swin Transformer对源图像进行编码。然而，这种方法需要额外的训练模块，并且在复杂场景中难以保持细节的保真度。HumanSD[9]通过扩散模型的VAE对源图像和目标姿态图像进行编码，并通过热图引导的损失进行微调以增强姿态控制。然而，它的局限性包括在复杂场景中的泛化能力较差、结构失真、细节丢失以及纹理保真度不足。PIDM[6]复制了预训练的基于Transformer的UNet的下采样层作为纹理扩散模块来编码源图像。编码的特征作为键值对，而目标姿态图由VAE编码作为查询；此外，它还使用解耦分类器引导来提高生成精度。然而，它对输入条件仍然敏感，在姿态差异较大或存在遮挡时细节推断不足，导致人像融合不自然。OnePoseTrans[11]在推理阶段微调文本到图像（T2I）模型，并结合预训练的基于Transformer的视觉一致性模块来提高外观连贯性，同时复制主干UNet来编码目标姿态。尽管条件控制得到增强，但其复杂的架构（包含分割和多模态建模）仍需要后处理才能实现最佳细节恢复。CFLD[7]提出了一个从粗到细的扩散框架，通过预训练的Transformer提取多尺度特征。它引入PRD来提取深度特征语义引导，并通过偏置项注入细粒度外观特征。尽管该模型依赖于预训练的Stable Diffusion（SD）模型并需要大量微调，但其输出分辨率仍然有限，纹理细节的保留仍需进一步改进。

总之，尽管当前的基于扩散的PGPIS方法在图像质量、姿态控制和外观一致性方面取得了显著进展，但它们在复杂场景中仍面临一些共同挑战。这里，我们将“复杂场景”定义为具有复杂外观细节（例如高频纹理）、大范围几何变形（例如显著姿态差异）和严重遮挡的场景：

(1)

基于预训练外观编码器的扩散模型难以保留细粒度纹理，导致伪影、局部模糊和真实感下降，特别是在缺乏解耦高频建模的复杂跨姿态重建场景中。

(2)

在基于Transformer或ControlNet的方法[12]、[13]中使用的姿态-外观嵌入缺乏明确的几何对应关系约束，限制了它们对非线性变形的建模能力，通常在大幅度姿态变化下导致对齐错误。

(3)

基于传统注意力的语义建模在复杂场景中效率低下，导致解剖结构失真（例如面部和四肢），并且容易过拟合局部训练分布，从而限制了对未见过的姿态-外观组合的泛化能力。

为了解决上述挑战，本文致力于提高目标姿态和相应人体细节语义表达的准确传递，从而实现高保真度的跨姿态人像合成。最近的研究表明，类似Mamba的线性注意力（MLLA）通过集成Mamba的[14]位置编码机制，增强了模型捕捉复杂视觉场景的能力，有效缓解了语义失真问题。受此启发，我们将MLLA应用于基于姿态的人像合成任务。具体来说，本文介绍并设计了一个解耦学习模块、一个多尺度渐进式融合网络和一个基于MLLA的语义感知增强模块。这些模块旨在分离外观特征的建模，逐步对齐外观和姿态结构，并共同建模局部和全局语义关系，以提高高频纹理的保真度和语义一致性。本文的主要贡献如下：

1.

我们提出了一个解耦学习模块（DLM），该模块沿频率、空间和通道维度分解源外观特征。这种多维解耦有效地捕获了高频纹理、语义空间结构和全局风格表示，减少了特征干扰并增强了表示的鲁棒性。

2.

我们提出了一个多尺度渐进式融合网络（MPFN），通过从粗到细的融合逐步对齐外观和姿态。为了处理大幅度姿态变化，我们整合了可变形卷积，以抑制结构失真并增强高频纹理的传递。

3.

我们设计了一个基于MLLA的语义感知增强模块（SAEM），该模块利用MLLA的全局建模和位置编码的局部偏置来捕获长距离依赖性和细粒度细节，从而提高语义理解、结构一致性和合成图像的整体连贯性。

部分摘录

用于PGPIS的生成对抗网络

在早期阶段，PGPIS的解决方案通常采用独立的编码器-解码器架构，如变分自编码器（VAEs）[15]。这些简单的编码器-解码器框架在姿态和身份传递方面面临几个挑战，包括无法准确保留细粒度细节（如服装纹理和面部特征）。后来的方法主要采用生成对抗网络（GANs）[2]作为核心生成架构。

提出的PoseFA整体框架

为了解决[9]、[10]、[16]、[17]中总结的挑战，本文提出了DLM来解耦源图像I_s，以学习高频纹理，避免不同信息类型之间的干扰。MPFN逐步将外观与目标姿态I_tp对齐，减轻由姿态引起的结构失真，并在大幅度姿态变化下增强纹理传递。MLLA进一步捕获了局部和全局语义依赖性，增强了语义感知

实验程序

在本研究中，所有实验均遵循[30]、[31]中关于DeepFashion[32]店内服装检索基准的设置，并在256×176和512×352的分辨率下进行评估。该数据集包含52,712张高分辨率时尚图像。数据分割与PATN[33]一致，其中101,966对用于训练，8,570对用于测试，两个子集之间没有重叠。相比之下，Market-1501[34]由于其较低的图像质量

结论

在本研究中，我们提出了一种基于扩散的框架，用于跨姿态人像合成，解决了高频纹理保真度、结构对齐和语义一致性等关键挑战。为了克服现有方法的局限性（这些方法在大幅度姿态变化和遮挡下经常出现纹理退化和语义不一致问题），我们设计了三个模块，共同增强特征解耦、姿态-外观对齐和语义理解。

CRediT作者贡献声明

王萌：概念化、方法论、软件、形式分析、调查、数据整理、可视化、撰写——初稿、审稿与编辑。王冰：概念化、方法论、软件、形式分析、调查、数据整理、可视化、撰写——初稿、审稿与编辑。陈慧玲：监督、资金获取、项目管理、撰写——审稿与编辑。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

王萌报告称获得了昆明理工大学的财务支持。如果还有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言