PSA-NeRF：个性化空间注意力神经渲染在音频驱动说话人像生成中的创新应用

《Chinese Journal of Electronics》：PSA-NeRF: Personalized Spatial Attention Neural Rendering for Audio-Driven Talking Portraits Generation

【字体：大中小】 时间：2026年01月04日 来源：Chinese Journal of Electronics 3

编辑推荐：

　　本文针对音频驱动说话人像生成中存在的跨模态关联难以捕捉、面部动态不够自然、缺乏个性化控制等问题，提出了一种基于神经辐射场（NeRF）的个性化空间注意力神经渲染框架（PSA-NeRF）。研究通过音频-唇部代理任务提取空间相关的语音表征，并引入空间注意力图作为语义先验，显式学习音频与视觉模态的关联。实验表明，该方法在PSNR、SSIM、LMD和Sync等指标上优于现有先进方法，能够生成更具真实感、口型同步且支持个性化编辑的说话人像，为虚拟现实、数字人等应用提供了重要技术支撑。

在虚拟现实、数字人和计算机游戏等应用蓬勃发展的今天，如何让虚拟人物根据任意音频输入生成自然、逼真且口型同步的说话人像，成为了一个极具挑战性的研究课题。尽管音频驱动说话人像生成技术已经取得了长足进步，但现有方法在生成自然的面部动态、实现精确的音频同步以及支持个性化编辑方面仍存在明显不足。传统的生成对抗网络（GAN）或基于三维可变形人脸模型的方法，往往因为忽略了渲染的本质过程而导致面部运动出现伪影。近年来，神经辐射场（NeRF）技术因其在保持视角一致性方面的卓越表现，被引入到说话人像生成领域。然而，现有的音频驱动神经辐射场（AD-NeRF）方法通常将语音表征和位置编码作为独立条件输入隐式函数，难以显式捕捉音频与视觉模态之间的复杂关联，导致生成的面部动态不够准确。同时，由于缺乏对语音表征的可控语义约束，这些方法无法对生成的面部属性（如眨眼、嘴巴开合程度）进行个性化定制。

为了解决上述挑战，发表在《Chinese Journal of Electronics》上的研究论文“PSA-NeRF: Personalized Spatial Attention Neural Rendering for Audio-Driven Talking Portraits Generation”提出了一种创新的个性化空间注意力神经渲染框架。该研究的核心思想是在神经渲染过程中，通过引入空间注意力图作为语义先验，来显式地学习音频与视觉模态之间的关联。

研究人员为开展这项研究，主要运用了几个关键技术方法。首先，采用基于音频-唇部代理任务的音频-视觉表征学习方法，通过唇部定位任务使语音表征在视觉模态中对齐，从而增强唇部同步。其次，设计了一个空间注意力生成模块，该模块包含一个预测网络，能够根据语音表征、姿态和位置嵌入生成对应的空间注意力图，作为控制不同语义区域（如嘴唇、眼睛）的语义先验。此外，还引入了注意力图校准机制，以解决训练数据中眨眼帧比例低导致的眨眼动作缺失问题。最后，构建了一个空间感知的音频驱动神经辐射场，将经过空间注意力图调制后的语音表征（即空间感知语音表征）与位置嵌入、视角方向一同输入隐式函数，通过体渲染生成最终的高保真说话人像。研究使用的数据集为从YouTube公开收集的约3-6分钟的主持人演讲视频，满足镜头固定、人物头部始终在画面内、背景静态等要求。

PSA-NeRF框架概述

PSA-NeRF框架包含四个主要阶段：语音表征提取、空间注意力生成、可控运动编辑和空间感知注意力神经渲染。其核心是通过空间注意力图这一语义先验，在渲染过程中显式学习音频与视觉的跨模态关联。给定音频输入后，首先通过音频-视觉表征学习模块提取语音表征f_s，该表征由纯音频特征f_a和经过音频-唇部代理任务对齐的视听特征f_av拼接而成。随后，空间注意力生成模块中的隐式函数F_φ根据f_s、姿态p和位置嵌入γ(x)预测出对应的空间注意力图M_P。该预测图会与参考图M_R（由解析图经高斯滤波和语义分数映射得到）进行校准，最终得到用于指导渲染的空间注意力图M_A。在可控运动编辑模块中，用户可以通过调整眼部或嘴部区域的高度缩放因子τ，对注意力图进行个性化编辑，从而控制眨眼或嘴巴开合。最后，在空间感知注意力神经渲染阶段，编辑后的注意力图M_E与语音表征f_s相乘，得到空间感知的语音表征f'_s，并将其输入神经渲染隐式函数F_θ，通过体渲染生成具有自然且个性化面部动态的说话人像。

语音表征提取

基于音频与唇部运动相关性最强的观察，研究人员提出了一种音频-视觉表征学习方法，旨在提取与视觉相关的语音表征，并突出音频与面部语义（尤其是嘴唇）的关联。该方法以DeepSpeech特征为起点，通过两个分支进行处理：一个分支使用一维卷积神经网络（CNN）提取紧凑的音频特征f_a；另一个分支则先通过相同的CNN处理DeepSpeech特征，再经由基于音频-唇部代理任务的表征学习对齐到视觉模态，最后通过一个多层感知机（MLP）得到视听特征f_av。音频-唇部代理任务使用长短期记忆网络（LSTM）处理音频表征以捕捉连续k帧间的序列依赖性，并通过MLP预测嘴部轮廓，其训练独立于其他网络。通过这种方式提取的拼接语音表征f_s= (f_a, f_av) 更有利于后续的音频同步，尤其是唇部同步。

空间注意力生成

为了显式地捕获音频与视觉模态的关联，研究人员引入了空间注意力图作为语义先验。该模块包含空间注意力预测和注意力图校准两个部分。空间注意力预测部分构建了一个隐式函数F_φ，根据语音表征f_s、姿态p和位置嵌入γ(x)来预测空间注意力图M_P，以更好地保持视角一致性。注意力图校准部分则利用参考图M_R来校准预测图M_P，特别是针对训练数据中较少的眨眼帧。具体而言，通过计算眼部区域的长宽比α作为眨眼值，并与阈值α_t（设置为0.2）比较，来决定最终使用的注意力图（α > α_t时用M_P，否则用M_R）。空间注意力图具有双重优势：一方面，它作为语义先验，帮助语音表征在训练过程中恢复结构信息，从而显式地指导神经辐射场解耦不同的语义属性（如唇部运动）；另一方面，它作为一种中间表示，可用于提供比单纯音频流更多样化的语义控制。

可控运动编辑

得益于空间注意力图的语义可控特性，PSA-NeRF支持对说话人像的面部属性进行个性化编辑。研究提供了两种编辑选项：嘴巴开合和眨眼控制。基于人物眼睛和嘴巴的变化通常表现为高度变化而宽度不变的观察，设计了一个可以调整目标区域Ω内高度与宽度比例的组件。编辑过程通过公式(6)和(7)实现，用户指定缩放因子τ和目标值η（例如，对于嘴唇，η=1），即可生成编辑后的注意力图M_E，从而实现对特定面部属性的定制。

空间感知注意力神经渲染

在获得空间注意力图M_A（或编辑后的M_E）和语音表征f_s后，PSA-NeRF通过扩展音频驱动神经渲染的设置，利用空间感知的语音表征f'_s来生成说话人像。神经渲染的隐式函数F_θ以f'_s、位置嵌入γ(x)和视角方向d为输入，预测颜色c和密度σ，最终通过体渲染公式(1)生成图像。

训练目标与实验评估

PSA-NeRF的训练目标包含空间注意力图重建和渲染图像重建双重任务。总损失函数为L = L_photo+ λ_lipL_lip+ λ_parsingL_parsing，其中L_photo为光度测量损失，L_lip为仅在唇部区域计算的唇部损失，L_parsing为解析损失，用于约束预测的注意力图M_P与参考图M_R一致。在实验评估部分，研究在Obama和May两个测试集上，与MakeItTalk、PC-AVS、FACIAL、AD-NeRF和SSP-NeRF等先进方法进行了定量和定性比较。定量评估指标包括峰值信噪比（PSNR）、结构相似性指数（SSIM）、唇部标志点距离（LMD）和同步置信度（Sync）。结果表明，PSA-NeRF在大多数指标上均优于基线方法，尤其在视觉质量（PSNR、SSIM）和唇部运动准确性（LMD）方面表现突出，证明了其生成结果的真实性和音频同步能力。定性评估显示，PSA-NeRF生成的面部属性（如牙齿和嘴唇细节）更准确、自然，优于其他方法。此外，可控编辑结果也展示了该方法在个性化调整眨眼和嘴巴开合方面的有效性。消融研究进一步证实了音频-视觉表征f_av、空间注意力图重建任务和校准模块各自的重要性。

PSA-NeRF的研究成功地将语义先验引入到音频驱动的神经渲染中，通过空间注意力图显式地建模了音频与视觉模态的关联。该方法不仅能够生成高保真、口型同步的说话人像，还支持对面部属性进行灵活的个性化编辑，解决了现有方法在自然动态生成和可控性方面的关键瓶颈。这项研究为数字虚拟人、虚拟现实等应用提供了更强大的技术工具，推动了音频驱动人脸动画技术向更自然、更可控的方向发展。未来，该方法有望在更复杂的场景和更具表现力的面部动画生成中发挥重要作用。

热点排行

新闻专题