“先思考再绘制”：通过分解情感语义实现精细可控的表情Talking Head生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Think-Before-Draw: Decomposing Emotion Semantics for Fine-Grained Controllable Generation of Expressive Talking Heads

【字体：大中小】 时间：2026年03月25日 来源：Pattern Recognition 7.6

编辑推荐：

　　文本驱动情感头雕生成通过链式思维解析与渐进式去噪策略提升自然度，实现抽象情绪到生理面部动作的细粒度映射。

施汉雷|曲乐媛|刘宇|高迪|龚琳琳|郑玉华|李泰豪

中国科学院杭州高等研究院，中国杭州

摘要

情感头像生成已成为计算机视觉和多模态人工智能交叉领域的一个关键研究方向。其核心价值在于通过沉浸式和富有同理心的交互来增强人机交互。随着多模态大型语言模型的发展，情感头像生成的驱动信号已从音频和视频转向更灵活的文本。然而，当前的文本驱动方法依赖于预定义的离散情感标签，这简化了真实面部肌肉运动的动态复杂性，限制了自然的情感表达能力。本研究提出了“思考-再绘制”（Think-Before-Draw）框架，以解决两个关键问题。首先，我们深入解析情感语义，通过创新引入“思维链”（Chain-of-Thought）技术，将抽象的情感标签转化为基于生理学的面部肌肉运动描述，从而实现从高层次语义到可执行运动特征的映射。其次，我们优化了细粒度表达能力，借鉴艺术家肖像绘画过程，提出了一种渐进式引导去噪策略，采用“全局情感定位—局部肌肉控制”机制来精细化生成视频中的面部表情动态。实验表明，我们的方法在MEAD和HDTF数据集上取得了有竞争力的性能。此外，我们还收集了一组肖像图像来评估模型的零样本生成能力。

引言

随着元宇宙、虚拟数字人和智能交互技术的快速发展[1][2]，情感头像生成已成为计算机视觉和多模态人工智能领域的关键研究方向[3]。情感表达是人机交互的核心要素，对用户沉浸感、信任感和同理心互动有着深远影响。因此，创建真实且富有情感表现力的头像仍是一个重大挑战。情感头像生成的目标是从单张静态图像和驱动信号合成一个逼真的动态头像，同时实现嘴唇同步、自然头部动作和细腻的情感表达。这项技术在数字助手、电影制作和虚拟视频会议等多个领域展现出巨大潜力[4][5]。

近年来，情感头像生成研究受到了越来越多的关注[6][7]。这些方法要么通过逐帧从输入视频模板中复制表情[8][9]，要么使用预定义的情感标签进行表情操控[10]。随着多模态大型语言模型（MLLM）的快速发展，研究人员开始探索更灵活的驱动方式，特别是利用自然语言文本来控制情感表达[11][12]。然而，这些文本驱动的方法通常依赖于简化的标签到文本的映射，直接使用离散的情感标签作为文本描述符。这种粗略的映射往往导致面部动画显得不自然和僵硬。例如，生成的表情可能过于夸张或与角色身份不符，在某些情况下甚至违反基本的生物力学约束。面部表情源于复杂的肌肉协调，而不仅仅是简单的线性映射[13]。简而言之，单一情感标签无法捕捉真实情感表达中面部肌肉的微妙互动。

为了实现细粒度、文本引导的情感头像视频生成，我们解决了以下两个关键问题：（1）如何深入解析单一抽象情感标签的语义，将其高层次语义信息转化为可用于视频生成的可执行面部运动特征；（2）如何通过细粒度控制策略优化生成视频的细节表达能力。为此，我们提出了“思考-再绘制”（Think-Before-Draw，简称TBD）框架，该框架结合了“思维链”（Chain-of-Thought，简称CoT）[14]和渐进式引导去噪策略，用于情感感知的头像生成。

首先，受面部表情生成机制的启发，面部表情本质上是由多个面部肌肉群的精细协调运动产生的[15][16][17]。我们提出将面部肌肉运动的知识纳入表情分析领域。然后，CoT技术通过明确建模中间分析过程，有效引导MLLM模拟人类认知的渐进式思维特征，从而显著提升其解决复杂问题的能力。在面部表情基础和CoT技术的基础上，我们提出了一个创新的“思维链面部动画”（CoT-FA）模块，系统地弥合了面部肌肉运动与表达语义之间的差距。通过整合面部动作编码系统（FACS）[13]标准和对主导情感状态的核心肌肉群的生理学知识，我们的方法建立了面部动作单元（AU）与其相应语义解释之间的细粒度双向映射，显著提高了面部表情分析的可解释性。

其次，为了实现更自然、生动的面部表情合成，借鉴艺术家肖像绘画过程[18][19]（从整体构图到细节逐步推进），我们开发了一种渐进式引导去噪策略，在去噪过程中采用分层条件化处理。在CoT-FA模块的基础上，我们实现了两阶段互补的分层条件化机制：（1）粗粒度提示在早期去噪步骤中建立情感基础；（2）细粒度提示在后期步骤中实现细腻的表情控制。这种多尺度控制机制在捕捉和再现人类面部表情的微妙动态特征方面表现出色，为细粒度情感表达操控提供了有效解决方案。总结来说，我们的研究主要贡献如下：

•

我们提出了TBD框架，该框架结合了CoT和渐进式引导去噪策略，在文本引导下实现细粒度情感头像视频生成。

•

为了解决将情感语义映射到视觉表达的挑战，创新引入了CoT技术，通过多步分析将抽象情感标签转化为基于生理学的面部肌肉运动描述。

•

为了提升生成视频的情感表现力和自然度，我们提出了一种渐进式引导去噪策略，采用“全局情感定位—局部肌肉控制”机制。

•

通过定量和定性分析，本研究验证了所提框架在情感表达力、动作自然度和用户控制便捷性方面的显著优势，为情感交互式虚拟人技术提供了新的技术见解。

部分内容摘要

情感感知头像生成

在情感感知头像生成领域，研究人员致力于在保持嘴唇同步和自然面部动作的同时修改或重建面部表情[20][21]。当前研究主要围绕三种驱动方法展开，每种方法都有其独特的优势和局限性。音频驱动方法通过从语音信号中提取情感特征来生成面部动画[22][23]。虽然这些技术实现了嘴唇同步，但存在

整体框架

我们的方法流程如图1所示。给定输入参考图像、音频和情感相关文本，我们使用Wav2Vec提取音频特征，使用VAE编码器提取参考图像特征。对于文本处理（详见第3.2节），输入首先被送入CoT-FA模块生成多级文本描述，然后传递给CLIP文本编码器。具体来说，当处理用户提供的文本指令或情感标签时

实验设置

实施细节。本研究在配备8个NVIDIA L20 GPU的高性能计算硬件上进行了训练和推理阶段的实验。训练过程分为两个阶段，每个阶段包含30,000步，批量大小为2，处理分辨率为512×512像素的视频数据。在第二训练阶段，每次迭代生成14帧视频。在整个过程中，学习率保持为1e-5。

总结与贡献

本文提出了TBD框架，这是一种基于文本的细粒度和自然情感头像视频生成方法。该工作的关键贡献在于建立了连接语义解析和结构化控制的生成范式。通过CoT-FA模块，将抽象情感标签转化为层次化的中间语义表示，将情感合成从隐式映射转变为可解释的推理过程。这一设计提升了

CRediT作者贡献声明

施汉雷：撰写——原始草稿、验证、软件开发、调查、形式分析。曲乐媛：方法论、资金获取。刘宇：软件开发、数据管理。高迪：资源协调、方法论、形式分析。龚琳琳：撰写——审稿与编辑、项目管理。郑玉华：撰写——审稿与编辑、概念构思。李泰豪：撰写——审稿与编辑、监督、资源协调、项目管理、方法论、资金获取、形式分析、概念构思。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

本工作部分得到了浙江省重点研发计划（2025C01104）、杭州高等研究院科学研究启动基金（2024HIASC2001）以及浙江省自然科学基金（编号LQN25F020001）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言