Diff-KATKG：基于扩散的Talking Head生成技术，结合关键点和动作单元的引导

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Diff-KATKG: Diffusion-Based Talking Head Generation with Joint Keypoint and Action Unit Guidance

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition 7.6

编辑推荐：

　　高保真头显生成扩散框架Diff-KATKG，融合面部关键点和动作单元的跨注意力机制，结合跨帧特征聚合策略提升时空一致性，实现无音频依赖的高质量视频合成。

作者：石五珍、王帅、薛子邦、文阳

中国广东省深圳市南山区南海大道3688号，深圳大学电子与信息工程学院数字创意技术工程实验室

摘要

我们提出了Diff-KATKG，这是一种基于扩散的新框架，用于高保真度的人像生成，它同时考虑了面部关键点和动作单元（Action Units, AUs）的影响。为了在稀疏驱动条件下实现精细的运动控制，我们设计了一个基于交叉注意力的融合模块，该模块将关键点和动作单元的特征融合成一个统一的嵌入表示，作为扩散模型噪声预测网络的输入条件。这种联合表示有效地捕捉了姿态和表情的动态变化，从而实现了富有表现力和可控性的视频合成。为了进一步增强时间连贯性，我们引入了一种跨帧特征聚合策略，利用之前生成的帧的时空依赖性来指导去噪过程，使得帧与帧之间的过渡更加平滑，动作更加自然。得益于扩散模型的渐进式去噪机制，我们的方法能够实现详细且稳定的帧重建，显著提高了视觉真实感和时间一致性。

引言

随着深度学习和人工神经网络的快速发展，计算机视觉已经从识别和理解任务扩展到了能够创建动态视觉内容的生成范式。人像生成（Talking Head Generation, THG）就是这一转变的典型例子。通过学习音频、图像和文本输入之间的相关性，THG系统能够合成具有自然表情和准确唇部同步的动态面部视频。该领域的进步显著提高了数字人物的真实感和可控性，使得THG成为交互式数字人类系统的核心组成部分，并应用于电影级视频配音、虚拟直播头像和低比特率视频通信等领域。然而，现有方法在稀疏驱动条件下的精细运动控制和表现力方面仍存在局限性。

现有的基于GAN的方法已经展示了利用面部关键点和动作单元（AUs）来生成可控姿态和表情的能力，实现了带宽效率和视频质量之间的平衡[1]。然而，GAN通常存在训练不稳定、时间不一致以及难以捕捉精细面部细节的问题，这些限制了生成视频的感知真实感和流畅性。

尽管扩散模型在图像和视频生成方面取得了显著成功，但直接将其扩展到在稀疏驱动信号下的人像合成中并非易事。与基于GAN的方法不同，扩散模型依赖于迭代去噪过程，在此过程中，低维和稀疏的控制信号（如面部关键点和动作单元）可能会被噪声逐渐削弱或覆盖。因此，在整个采样过程中保持强大的可控性变得更加具有挑战性。此外，扩散模型对条件信息的注入方式和位置非常敏感，简单的条件策略可能无法在每个去噪步骤中始终如一地指导生成过程。另外，基于扩散的人像生成通常是逐帧进行的，这在稀疏运动线索驱动下会加剧时间不稳定性。这些挑战凸显了需要为稀疏控制环境下的扩散模型设计结构化和健壮的条件机制的必要性。一些最近的方法报告了强大的音频驱动人像生成结果：Diffused Heads [2] 使用扩散自回归地为单幅肖像添加语音动画，生成具有真实动作和稳定背景的人像视频；Hallo [3] 通过分层模型处理唇部运动、表情和头部姿态，以获得更好的同步性和一致性；Zhu等人[4] 强调了扩散框架中的稳健语音到动作的对齐。然而，当音频不可用、不可靠或涉及隐私问题时，音频驱动的方法可能并不实用。

在本文中，我们提出了一种仅由稀疏面部关键点和动作单元驱动的基于扩散的人像生成框架，不依赖于任何音频输入。我们的方法采用了一种新颖的交叉注意力融合模块，有效地将关键点和动作单元的特征融合成一个统一的条件嵌入，用于扩散模型，从而实现对面部姿态和表情动态的精细、可解释的控制。此外，我们还引入了一种跨帧特征聚合策略，利用之前生成的帧的时空上下文，显著提高了时间一致性和减少了闪烁伪影。

与现有的基于GAN的关键点和动作单元驱动方法[1]相比，我们的方法得益于扩散模型的稳定训练和详细重建能力，实现了更高的感知质量和时间平滑性。当前的音频驱动扩散方法需要音频输入，但在许多现实世界场景中我们只能获得稀疏的视觉信号。因此，我们提出了一种无音频的方法，非常适合只有稀疏面部驱动信号的应用场景。广泛的实验表明，我们的框架在视觉真实性和时间稳定性方面优于现有的基于GAN和音频驱动的扩散方法，验证了其有效性和适用性。

我们的主要贡献总结如下：

•

我们提出了一种基于扩散的人像生成框架，该框架由面部关键点和动作单元共同驱动，无需依赖音频即可实现精确和精细的控制。

•

我们设计了一个交叉注意力融合模块，将关键点和动作单元的特征有效融合成一个统一的条件嵌入，用于扩散模型。

•

我们引入了一种跨帧特征聚合机制，利用之前生成的帧的时空依赖性，增强了时间一致性和动作的自然性。

•

广泛的实验表明，与之前的基于GAN和音频驱动的扩散方法相比，我们的方法具有更优越的感知质量和时间稳定性。

方法

我们的框架如图1所示，我们解决了可控人像视频生成的问题，目标是生成一个跟随驱动序列运动的视频，同时保持源图像的完整性。设s为源图像，驱动视频表示为一系列帧{d₁, d₂, ???, d_t}, 其中d_i是第帧，t是帧的总数。目标是生成一个序列{y₁, y₂, ???, y_t}, 使得每个帧y_t

实验设置

数据集：所有方法都在VFHQ数据集[44]上进行训练。为了确保准确的动作单元估计，动作单元提取网络在两个面部表情数据集BP4D和DISFA上进行了预训练。结合时空和面部先验的视频超分辨率模块也在VFHQ上进行了预训练，以增强面部细节的重建。评估时，我们使用了VFHQ和VoxCeleb2 [45]来评估在不同条件下的泛化能力，包括身份变化、光照变化等。

结论

在本文中，我们提出了Diff-KATKG，这是一种基于扩散的人像生成框架，它由面部关键点和动作单元（AUs）共同驱动。通过交叉注意力机制融合可解释的姿态和表情信号，并利用扩散模型的渐进式去噪过程，我们的方法在稀疏驱动条件下实现了高保真度、时间一致的视频合成。我们还添加了一个时间超分辨率模块来提升输出质量，改善细节。

伦理考虑

我们的方法可能被滥用来生成真实的人像视频，从而导致身份滥用、深度伪造和虚假信息的传播。我们不打算将该方法用于模仿或欺骗性用途。为了减少滥用，我们将在所有演示中明确披露相关信息，并在生成的视频中添加可见的水印以标明其合成性质，这符合以往人像生成工作的常见做法。我们将遵守相关的数据集许可和同意要求。

关于AI辅助的披露

作者仅将生成式AI工具用于语言编辑和校对目的。所有科学内容、分析和结论均由作者独立完成。

CRediT作者贡献声明

石五珍：撰写——原始草稿、方法论、资金获取。王帅：撰写——原始草稿、验证。薛子邦：撰写——原始草稿、验证、调查。文阳：撰写——审阅与编辑、资源准备、资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62101346和62301330）、广东省基础与应用基础研究基金（项目编号2024A1515010496和2022A1515110101）、深圳市科技计划（项目编号JCYJ20240813141358076和20231121103807001）以及广东省重点实验室（项目编号2023B1212060076）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作