FaceEditor：基于文本驱动和掩码约束的脸部属性编辑工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：FaceEditor: Text-Driven and Mask-Constrained Face Attribute Editing

【字体：大中小】 时间：2026年03月25日 来源：Pattern Recognition 7.6

编辑推荐：

　　面部图像编辑框架FaceEditor通过文本和掩码联合控制，提出基于潜在空间映射（ED Mapper）和全局调制模块（GMM）的编辑方法，实现精准的局部与全局属性编辑，并验证其优于现有方法的编辑精度和实时性。

林张|赵慧黄|孟伟良|杨远|保罗·L·罗辛|赖宇坤|王瑶楠

天津大学智能与计算学院，中国300072

摘要

近年来，面部图像编辑技术取得了显著进步，大多数方法采用多模态条件引导来获得真实感强的效果。然而，这些方法无法直观地编辑面部图像的特定区域，而且复杂的语义关系使得保留不相关属性变得困难。为了解决这些问题，本文提出了一种名为FaceEditor的统一图像处理框架，该框架支持使用文本和掩码单独或联合编辑面部属性。其核心思想是训练一个从粗粒度到细粒度的编辑方向映射器（ED Mapper），以从文本中预测潜在的编辑方向。在推理过程中，分割掩码限制了潜在代码和编辑特征在特征空间中的混合，从而实现定位和可控的图像编辑。此外，我们设计了一个全局调制模块（GMM），在不同层次上全局混合和优化潜在特征，进一步提升了模型的解耦编辑能力和编辑精度。实验结果表明，FaceEditor在准确性、视觉真实感和保留不相关属性方面优于现有方法，同时支持每张图片0.61秒的纯文本编辑速度。代码可在以下链接获取：https://github.com/Zlin0530/FaceEditor。

引言

文本驱动的图像处理作为图像处理领域中的一个重要且具有挑战性的任务，长期以来一直受到学者们的广泛关注和研究。最近，跨模态视觉-语言联合表示技术[1]、[2]、[3]的巨大成功为文本驱动的图像编辑操作开辟了许多可能性。许多基于GAN[8]和CLIP[1]的文本引导图像编辑方法[4]、[5]、[6]、[7]能够产生令人满意的编辑结果。这些方法主要采用基于优化的迭代方法[9]、[10]、[11]和映射网络学习方法[7]、[12]、[13]来完成交互式的文本驱动图像编辑任务。此外，扩散模型在生成能力方面的巨大潜力促使许多研究人员将其应用于图像合成和文本生成等领域[3]、[14]、[15]、[16]、[17]，取得了显著成果。DiffusionCLIP[18]将扩散模型与CLIP引导的损失函数结合用于图像生成。InstructDiffusion[19]在单一框架内统一了多种NLP任务，利用指令执行各种视觉任务，如图像编辑和增强。然而，这些方法无法直观且灵活地编辑图像的特定区域，经常遇到编辑失败的情况。例如，对于这些方法来说，将输入源图像的上唇变为红色或减轻面部左侧的皮肤颜色是非常具有挑战性的。此外，由于图像不同部分的视觉属性彼此之间并非独立，因此根据相关文本描述准确有效地完成图像编辑任务同时保持与文本描述无关的属性是非常具有挑战性的。

我们认为，解决这个问题需要根据文本提示识别并精确编辑源图像的相关区域。尽管图像编辑技术取得了显著进展，但目前尚无统一框架同时支持仅使用文本和文本+掩码对面部属性进行局部编辑。现有方法（如HairCLIPv2[11]）提供了文本、草图和掩码等交互模式，但仅限于特定区域（如头发），并未扩展到眼睛、嘴巴和皮肤等其他面部特征。因此，探索如何直观、简洁且精确地编辑源面部图像的任何区域是一个亟待解决且具有挑战性的问题。

为了实现这一目标，我们提出了FaceEditor，这是第一个同时支持文本和掩码控制的统一面部图像编辑框架。该框架既可以仅基于文本提示进行面部图像编辑，也可以结合用户提供的掩码对面部图像的特定区域进行编辑。具体来说，受到DeltaEdit[13]无文本训练方法的启发，我们在训练过程中使用图像对作为伪文本，以提高模型效率和泛化能力。这对于需要精细局部编辑的区域（如眼睛、嘴巴和皮肤）非常适用。传统的图像-文本对需要为每个区域提供单独的文本描述，这非常耗时。使用图像对可以让模型从特征差异中学习，从而无需大量的文本注释。训练的关键是学习一个从粗粒度到细粒度的映射网络ED Mapper，根据这些差异预测潜在代码的变化。由于文本-图像差异的CLIP特征意味着类似的语义变化，在推理阶段，我们通过ED Mapper使用文本特征差异来预测源图像潜在代码的编辑方向，从而产生与文本描述一致的中间编辑结果。这种方法提高了模型在局部编辑中的精度，增强了对未见任务的泛化能力，减少了对手动注释的依赖，并减轻了过拟合问题，使其能够适应新的细粒度编辑任务。此外，为了提高中间编辑结果的准确性并防止基于文本的编辑失败，我们设计了一个全局调制模块（GMM），在不同语义层次的潜在代码信息和编辑条件下混合和优化特征。许多方法已经证明，在 $F S 嵌入空间中进行特征混合可以实现更好的重建并保留局部细节[11]、[20]、[21]。因此，我们根据可选的分割掩码将中间编辑结果映射到$ 嵌入空间。然后，我们根据要编辑的区域指定掩码优化中间编辑结果，同时确保未编辑区域与源图像保持一致，从而生成最终的编辑结果图像。

为了展示FaceEditor的优越性，我们进行了大量的定量和定性比较以及用户研究。大量实验结果表明，FaceEditor在训练和推理速度、编辑精度以及编辑结果的视觉自然度和真实感方面表现优异。图1展示了使用FaceEditor进行面部图像编辑的具体实验结果，表1总结了不同方法支持的交互模式和编辑功能。

总体而言，我们的主要贡献可以总结如下：•

为了解决文本驱动编辑缺乏明确的空间约束可能无意中影响无关区域的问题，以及基于掩码的编辑在处理复杂属性变化时语义表达能力有限的问题，我们提出了FaceEditor，这是一个集成文本提示和分割掩码的统一框架，以实现语义驱动和空间可控的面部属性编辑。

•

我们提出了一种统一的解耦策略，该策略结合了从粗粒度到细粒度的ED Mapper和

FS

空间混合方法。通过渐进式的潜在特征细化、全局调制以及空间引导的特征解耦和混合，该框架实现了精确、可控且全局一致的图像处理。

•

我们展示了实时编辑能力，编辑结果仅需0.61秒即可生成，使我们的方法非常适合对速度要求较高的实际应用。

•

我们设计了特定任务的损失函数，以提高编辑精度并增强生成图像的视觉真实感。

章节片段

潜在空间图像处理

使用GAN反演将图像映射到潜在空间，以便理解和编辑图像，已成为图像重建和编辑任务中的活跃研究领域[22]、[23]、[24]、[25]。由于StyleGAN在特征解耦和图像语义表示方面的巨大成功，许多模型被提出用于解耦和编辑潜在特征。其中，e4e[22]反演框架因其能够获得

概述

我们的目标是实现精确高效的面部图像处理。为此，我们自然会放弃从头开始使用大量手动注释的图像-文本数据进行模型训练，因为这非常耗时、不灵活，且难以泛化到未见过的文本。得益于跨模态CLIP模型[1]的发展，语言和图像之间的表示已成为可能。研究表明，CLIP特征

实现细节

为了验证所提出方法的有效性和优越性，我们使用FFHQ[33]数据集对模型进行了训练和评估。数据集划分方面，我们将FFHQ数据集随机分为58,000张用于训练集和12,000张用于测试集。所有训练和评估都在单个RTX3090 GPU上进行。模型总共训练了100个周期，相当于550,000次迭代。我们进行了广泛的定量和定性分析以及用户研究，

结论

在本文中，我们提出了一种统一的图像编辑框架FaceEditor，它支持使用文本描述和分割掩码对图像的任何区域进行局部和可控的编辑。该方法首先使用训练有素的ED Mapper预测文本嵌入的编辑方向。然后，FaceEditor根据掩码提供的有效信息，在嵌入空间中选择性地混合和优化潜在代码特征，以实现定位的图像

CRediT作者贡献声明

林张：撰写 – 审稿与编辑，撰写 – 原稿，方法论，研究。 赵慧黄：撰写 – 审稿与编辑。 孟伟良：撰写 – 审稿与编辑，概念化。 杨远：撰写 – 审稿与编辑。 保罗·L·罗辛：撰写 – 审稿与编辑。 赖宇坤：撰写 – 审稿与编辑。 王瑶楠：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作部分得到了中国国家自然科学基金（项目编号61772179和12442056）的支持，部分得到了湖南省自然科学基金（项目编号2024JJ5059和2023JJ50095）的支持，以及湖南省教育厅科学研究基金（项目编号22B0728）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

潜在空间图像处理

概述

实现细节

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行