单张图像，任意人脸：可泛化的3D人脸生成技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Pattern Recognition 7.6

编辑推荐：

　　单图像3D人脸生成方法通过多视角扩散框架与输入条件网格估计实现，结合混合真实与合成数据训练，解决了现有方法依赖多视角拍摄或文本描述的局限性，在保持多视角一致性的同时实现通用人脸3D建模。

王文清|杨浩森|约瑟夫·基特勒|朱晓天

英国萨里大学视觉、语音与信号处理中心，吉尔福德

摘要

从单张无约束图像创建3D人脸虚拟形象是一项基础任务，它是众多现实世界视觉和图形应用的基础。尽管在生成模型方面取得了显著进展，但现有方法要么在人脸建模方面不够适用，要么无法从受限的训练领域泛化到无约束的人脸图像。为了解决这些限制，我们提出了一种新型模型Gen3D-Face，该模型能够在多视图一致的扩散框架内，利用单张无约束图像生成3D人脸。给定一张特定的输入图像，我们的模型首先生成多视图图像，然后进行神经表面构建。为了在保持对真实世界输入的泛化能力的同时融入人脸几何信息，我们直接从输入图像中估计出特定对象的网格，从而无需真实3D监督即可进行训练和评估。重要的是，我们引入了一种多视图联合生成方案，以增强不同视图之间的外观一致性。据我们所知，这是首次尝试并建立基准，用于从单张图像创建适用于通用人类的逼真3D人脸虚拟形象。广泛的实验表明，我们的方法在领域外单图像3D人脸生成方面优于之前的方法，并在领域内竞争中名列前茅。我们的代码和数据集将在被接受后发布。

引言

生成逼真的3D人脸虚拟形象对于计算机图形学和计算机视觉中的许多实际应用至关重要，包括视频会议、虚拟建模、娱乐以及增强现实[2]、[3]、[4]。现有的3D人脸建模方法主要依赖于多视图图像或视频输入[5]、[6]、[7]、[8]，或文本引导的3D生成[9]、[10]，每种方法都有其固有的局限性。多视图重建方法[5]、[6]、[7]、[8]需要校准的多视图捕获，并且通常涉及昂贵的个体优化，这限制了它们在无法获得此类输入数据的实际场景中的应用。另一方面，文本引导的虚拟形象生成[9]、[10]难以确保身份的真实性并保留精细的人脸细节，因为仅通过文本描述很难准确表达人类身份特征。这些限制共同凸显了需要一种更易于获取且忠实于身份的3D人脸虚拟形象生成解决方案。

受到生成扩散模型[11]显著成功的启发，并受到上述挑战的推动，“单图像3D人脸生成”已成为一个热门课题，其关键挑战在于仅从一张通用人类身份的面部图像中提取出几何和外观信息。这两个看似不可能的任务现在变得有可能实现，原因有二：首先是因为现成的生成模型捕获了前所未有的丰富和全面的知识，为提取和转移特定下游任务（本工作中的3D人脸）所需的信息提供了机会[12]、[13]。例如，Stable Diffusion使用来自互联网的大量（未知的）文本-图像对进行了训练，其中包括来自各种主题（如名人）的多样化面部图像。其次是多视图图像生成[14]、[15]、3D对象表示、重建和生成[16]、[17]、[18]方面的巨大技术进步。将这些技术正确结合起来可能是解决这一挑战的基础。

基于上述讨论，一种直观的方法是从包含每个身份多视图图像的大型多样化数据集中学习一个通用的3D人脸生成模型，以便模型能够泛化到未见过的一般单张面部图像。有一些早期尝试通过训练由3D艺术家创建的大型合成数字虚拟形象来追求这一策略[19]。然而，这引发了从合成到真实领域的泛化挑战，导致生成的人脸不真实。此外，由于内在复杂性和多样性以及复杂的隐私考虑，人脸数据的收集受到很大限制。因此，现有的3D人脸基准在实践中的规模和多样性往往有限，例如，仅包含几百个身份[20]、[21]，这不足以用于模型训练。

为了缓解这一数据稀缺问题，最新的单图像3D人脸生成尝试通过在多视图合成中结合真实网格来利用人类的几何先验[1]。这项工作的一个有希望的发现是，适当融合图像外观和网格的几何知识可以使模型在不同视图间工作，产生高质量的输出。然而，我们发现他们的方法存在几个显著限制，这些限制严重阻碍了其向无约束人脸图像的泛化，如图1所示：(i) 由于对训练数据的严格需求而过度拟合训练领域。数据有限导致模型无法泛化到不同的未见风格；(ii) 过度依赖真实网格，而在实践中这通常是不可用的；(iii> 由于Unet编码器内部多视图信息无法有效传递，导致多视图一致性不足。

在这项工作中，为了实现这一目标，我们开发了Gen3D-Face，这是一个潜在的扩散框架，它联合生成多视图一致的图像，并利用输入估计的人脸几何信息以及混合的真实和合成训练数据，从单张无约束图像重建逼真且可泛化的3D人脸虚拟形象。我们的模型首先生成一致的多视图人脸图像，然后进行神经表面构建。为了增加数据多样性，我们使用现成的模型[22]生成合成3D人脸图像。与之前依赖真实3D头部扫描的扩散基虚拟形象模型不同，后者获取成本高昂且存在隐私问题，我们利用输入条件化的网格估计，不仅减轻了模型对几何先验的依赖，还使其能够在没有真实网格的情况下泛化到典型情况，并具有独特的外观风格。为了确保多视图一致性，我们引入了一种多视图联合生成方案。

我们的贡献总结如下：(1)我们研究了鲜有研究的单图像3D人脸生成问题，特别关注所开发模型泛化到未见无约束人脸图像的能力，使其更具实际用途和可部署性。据我们所知，这是首次在单图像3D人脸生成框架中使用多视图扩散模型来解决这一有意义的问题。(2)我们提出了Gen3D-Face，这是一个新颖的框架，它结合了输入条件化的网格估计（无需真实网格即可提供几何指导）和联合多视图扩散生成（确保跨视图的一致性），并采用混合真实和合成训练策略来提高领域外场景的鲁棒性。(3)广泛的评估表明，我们的方法在性能上达到了最先进水平，同时在可扩展性和适用性方面具有实际优势，因为它消除了对专用多视图捕获或真实网格监督的需求。

方法

给定一张单个人脸图像y作为输入，我们旨在为这个人生成一个3D人脸虚拟形象。为此，我们提出了一种新的潜在扩散方法Gen3D-Face，其架构如图2所示。它从单张人脸图像生成一致的多视图图像，然后可以将其输入到现有的神经表面构建方法中（例如Neus2[17]）。对于前者，我们采用现成的Stable Diffusion[11]作为核心，其中扩散和去噪过程在

实验

数据集我们采用与Morphable Diffusion[1]相同的训练/测试分割协议：323个身份用于训练，36个身份用于测试，遵循官方FaceScape[20]评估设置。所有比较的模型都使用相同的真实训练数据，而我们的模型也使用合成数据。对于领域外的泛化评估，我们从FFHQ[35]中随机选择1,024张图像，并使用[36]去除背景。我们还在H3DS数据集[37]上进行测试，该数据集包括

局限性

我们的工作旨在从任何输入图像生成多视图图像，然后进行重建。然而，基于扩散的流程每个视图都需要多个去噪步骤，导致计算量较大，限制了实时部署。此外，在极端夸张的表情或具有挑战性的姿势组合下，性能可能会下降，因为输入估计的FLAME网格和训练数据对这些罕见几何变形的覆盖范围有限，导致效果不佳

结论

在这项工作中，我们对无约束、领域外的单图像3D人脸生成问题进行了开创性的研究。基于最近的多视图扩散方法，我们提出了一种新的生成方法Gen3D-Face，可以从单张无约束图像生成逼真的3D人脸虚拟形象。为此，Gen3D-Face整合了三个关键组件：(i) 一个结合了质量控制的增强的混合真实和合成训练流程

CRediT作者贡献声明

王文清：撰写——审稿与编辑，撰写——初稿，可视化，验证，方法论，数据整理。杨浩森：方法论，概念化。约瑟夫·基特勒：撰写——审稿与编辑，监督，资源获取，方法论，资金筹集。朱晓天：撰写——审稿与编辑，监督，资源获取，方法论，资金筹集。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验

局限性

结论

CRediT作者贡献声明

利益冲突声明

热点排行