SARA：基于语义引导的对齐和区域自适应归一化的可控妆容转移技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月11日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　化妆姿态不匹配的语义引导对齐与区域自适应归一化框架SARA通过不均衡最优传输构建密集语义对应，结合区域自适应风格归一化补偿特征损失，并采用渐进式融合模块实现细粒度妆容迁移，在公开数据集上验证优于现有方法。

钟晓静|黄新怡|吴中华|林国胜|吴青瑶

中国广东工程技术师范学院计算机科学学院

摘要

妆容迁移是一种将参考图像中的妆容风格转移到目标图像上的过程，同时保持目标图像的原有特征。除了实现对妆容迁移的精细控制外，将语义对齐纳入转换过程也至关重要，因为参考图像和目标图像的姿势往往不一致。我们提出了一种新的基于语义引导的对齐和区域自适应归一化框架（SARA），能够在姿势不对齐的情况下有效迁移妆容风格，提供灵活的控制能力，以满足实际应用的需求，如部分迁移、强度调整和妆容去除。具体来说，SARA包括三个模块：首先，我们提出了一个基于语义引导的对齐模块，通过使用不平衡最优传输匹配来处理语义区域不匹配问题，明确构建参考图像和目标语义图之间的密集对应关系；其次，区域自适应归一化模块负责将变形后的风格特征与通过区域平均池化获得的与形状无关的风格代码动态结合，从而减少对齐过程中的特征损失；最后，妆容融合模块逐步将目标图像的特征与迁移来的妆容风格融合，生成最终输出图像。此外，我们结合了最优传输和直方图匹配来生成伪真实值，以促进空间对齐和颜色分布的迁移。实验结果表明，我们提出的SARA在两个公共数据集上的性能优于现有方法。

引言

给定一张具有特定妆容风格的面部图像，妆容迁移的任务是将该妆容风格应用到目标面部图像上，同时保持目标面部图像的原有特征。这项任务在用户希望虚拟提升外貌的场景中有着广泛的应用。虽然可以从互联网上轻松获取带妆和不带妆的面部图像，但获取具有不同妆容风格的相同面部图像的配对图像却具有挑战性，因为很难找到完全相同的面部且妆容风格不同的图像。为了解决这个问题，一些方法（T. Li等人，2018年；Chang等人，2018年；Choi等人，2018年；Huang等人，2018年）采用了CycleGAN（Zhu等人，2017年）的思想，构建了一个循环训练过程，涉及两个网络：一个网络将妆容风格从源图像转移到目标图像，另一个网络从转移后的图像中去除妆容。然而，这些方法对面部不同的语义区域进行了平等处理。这一限制阻碍了对妆容迁移的精细控制，而精细控制是实现真实自然迁移效果的关键因素。

为了实现灵活且可控的妆容迁移，一些方法（Jiang等人，2020年；Liu等人，2021年；Sun等人，2022年；Yang等人，2024年；Xiang等人，2022年；Deng等人，2021年；Sun等人，2023年）将妆容图像的特征图编码为可学习的仿射变换参数（Huang和Belongie，2017年），然后用这些参数来调整目标图像的特征图。由于参考图像和目标图像之间的姿势经常不对齐，因此将语义对齐纳入转换过程至关重要。然而，现有方法在有效构建语义对应关系方面存在局限性：Jiang等人（2020年）和Liu等人（2021年）需要面部标志点和面部解析掩码来将空间信息整合到注意力矩阵中，导致模型推理过程相对繁琐；Deng等人（2021年）和Yang等人（2022年）由于依赖于低维编码向量或稀疏的语义对应关系，未能充分捕捉妆容风格中的复杂细节和空间关系；尽管Sun等人（2022年）建立了密集的语义对应关系，但其依赖于余弦相似度进行特征对齐，导致在语义区域不匹配的情况下出现多对一匹配的问题（Zhan等人，2021年），从而无法准确迁移妆容。直接像素对齐对参考图像和目标图像之间的微小像素级差异非常敏感，难以处理复杂的姿势变化，可能导致妆容风格映射不正确，产生不自然或扭曲的结果。

我们提出了一种新的妆容迁移框架——基于语义引导的对齐和区域自适应归一化的可控妆容迁移（SARA），该框架能够处理较大的空间不对齐，并实现特定部位和特定程度的妆容迁移（见图1）。首先，我们设计了一个基于语义引导的对齐模块（SAM），根据目标图像的面部解析图对参考图像进行变形。我们构建这种跨域特征对齐，生成一个中间结果，同时提供参考风格和目标图像的语义形状。语义图提供了面部区域（例如眼睛、嘴唇）的像素级语义分割，使模型能够将参考图像的妆容与目标图像的相应区域对齐。这使模型能够适应不同的面部结构和方向，确保妆容迁移的一致性和准确性。此外，我们使用不平衡最优传输来在特征对齐过程中建立密集的对应关系，有效处理头部姿势不对齐的情况，例如当目标面部需要参考图像中不存在的妆容风格时。鉴于中间结果的粗糙性，我们提出了一个区域自适应归一化模块（RAM）。该模块从参考图像中提取区域自适应风格，并将它们广播到目标语义图的相应区域，以补偿对齐过程中的潜在特征损失。需要注意的是，目标语义图是通过使用最优传输计划变形得到的，而不是从目标图像中提取解析图。区别在于，迁移后的妆容风格覆盖范围可能与目标面部的面部区域不一致。最后，一个妆容融合模块（MFM）负责将调整后的参数分配到融合块中。这些参数由SAM生成的变形风格和RAM生成的与形状无关的风格动态结合。MFM逐步将目标图像的特征与迁移来的妆容风格融合，生成精细的结果。

表1总结了各种妆容迁移方法的特性。简而言之，我们的主要贡献有三个方面：

•
我们提出了SARA，这是一个统一的框架，用于实现可控的妆容迁移，同时支持部分迁移、程度可控的迁移和妆容去除。
•
为了在姿势不对齐的情况下准确迁移妆容风格，我们将不平衡最优传输纳入基于语义引导的特征对齐中，以明确构建不匹配语义区域之间的密集对应关系。
•
我们提出使用与形状无关的风格代码实现区域自适应归一化，以动态补偿对齐过程中的潜在特征损失。

章节片段

妆容迁移

在过去十年中，妆容迁移受到了广泛关注（Wang和Fu，2016年；Li等人，2015年；Y. Li等人，2018年；Guo和Sim，2009年）。CycleGAN（Zhu等人，2017年）可以通过学习两组图像（一组有妆容，一组没有妆容）之间的域到域转换，应用于面部图像的妆容风格迁移。PairedCycleGAN（Chang等人，2018年）在CycleGAN的基础上进行了扩展，专门为妆容迁移和去除设计了配对循环GAN。

问题表述和符号说明

设X表示没有妆容的图像域，Y表示有妆容的图像域。给定一个源图像

x_{s} \in X

和一个参考图像

y_{r} \in Y

，我们的目标是学习一个映射函数：

f (x_{s}, y \to {\overset{?}{y}}_{s})

，其中

y ? s

具有与

y

相同的妆容风格，同时保持

x_{s}

的面部特征；此外，由于妆容去除是妆容迁移的一个特例，我们还学习了一个映射函数：

f ? s

，其中

y

具有与

x

相同的妆容风格，同时保持

y

的面部特征。

网络结构

实施设置和数据集

数据集。我们使用妆容迁移（MT）数据集（T. Li等人，2018年）来训练我们的模型，该数据集包含2719张有妆容的图像和1115张没有妆容的图像，每张图像都展示了不同的人和不同的姿势、面部表情。根据T. Li等人（2018年）的方法，我们从MT数据集中随机选择了250张有妆容的图像和100张没有妆容的图像作为测试集，其余图像用于训练。为了进一步验证我们的模型在面部图像上的有效性

结论

我们提出了SARA，这是一个新的妆容迁移框架，能够有效处理空间不对齐，并实现对迁移的精细控制。SARA结合了基于语义引导的对齐模块通过不平衡最优传输建立密集的对应关系，区域自适应归一化模块通过与形状无关的风格代码补偿特征损失，以及妆容融合模块生成详细的结果。广泛的实验表明，SARA的性能优于现有方法

CRediT作者贡献声明

钟晓静：撰写——原始草稿，概念构思，方法论。黄新怡：方法论，数据管理。吴中华：验证。林国胜：撰写——审稿与编辑。吴青瑶：资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（NSFC）（编号62272172）和中央高校基本科研业务费（编号D2250990）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言