语音声学与实时磁共振成像（rt-MRI）中的发音动态反演：结合视频扩散模型的研究

《Computer Speech & Language》：Speech acoustics to rt-MRI articulatory dynamics inversion with video diffusion model

【字体：大中小】 时间：2026年02月17日 来源：Computer Speech & Language 3.4

编辑推荐：

　　实时MRI驱动的视频扩散模型结合语音与静态MRI多模态信息，生成发音动态图像序列，提出基于ROI像素强度相关性的语言学指导评估方法，验证模型在未见过参考语音下的泛化能力。

作者：轩希（Xuan Shi）、冯天天（Tiantian Feng）、朴在（Jay Park）、克里斯蒂娜·哈格多恩（Christina Hagedorn）

美国南加州大学电气与计算机工程系，地址：3740 McClintock Ave, Los Angeles, 90089, CA

摘要

将语音声学信息转换为发音动力学数据是一个跨学科的挑战，涉及临床、语言学和工程学领域，其应用包括言语治疗和第二语言学习。尽管这一领域非常重要，但目前现有的方法缺乏一种系统性的方法，可以从语音声学数据生成更为完整的声道发音动力学信息。利用实时磁共振成像（rt-MRI）以高帧率（83帧/秒）获取覆盖声道口咽部和喉部区域的时空丰富的视频数据，结合基于语言学理论的计算框架，为改进语音到发音的转换提供了新的可能性。在这项工作中，我们提出了一种利用rt-MRI驱动的视频扩散模型将语音声学信息转换为发音动力学数据的新方法。此外，我们还引入了一种新的评估方法，即在感兴趣的发音区域（ROIs）内进行像素强度相关性分析，用于评估视频生成模型的性能。我们的结果证明了该系统在泛化到未见过的参考语音数据方面的竞争力。

引言

声学到发音的转换（Acoustic-to-Articulatory Inversion，简称AAI）是指从语音信号中推断出发音动力学信息的过程。作为从发音生成声学信号的逆过程，AAI在语音理解、语音障碍干预、第二语言习得等领域具有广泛的实际应用价值，甚至还可以辅助音频信息以提高语音识别和说话者识别能力（Li等人，2016年；Ghosh和Narayanan，2011年）。以往的研究探索了多种用于AAI任务的声学和发音表示方法及模型，从经典的统计方法（Ghosh和Narayanan，2010年；Ghosh和Narayanan，2013年）到现代的神经网络方法（Cho等人，2024年；McGhee等人，2024年；Yang等人，2024年；Csapó，2020年；Oura等人，2024年；Udupa和Ghosh，2023年；Nguyen等人，2024年）。具体来说，发音信息可以通过电磁发音图（EMA）（Cho等人，2024年；McGhee等人，2024年）、超声波（Yang等人，2024年）、X射线（McGhee等人，2024年）或实时磁共振成像（rt-MRI）（Csapó等人，2020年；Oura等人，2024年；Udupa和Ghosh，2023年；Nguyen等人，2024年）等方式进行表征。其中，rt-MRI的独特优势在于能够以高帧率提供覆盖声道口咽部和喉部区域的时空丰富的视频数据。然而，许多现有的基于rt-MRI的AAI方法在泛化到未见过的语音或说话者时存在不足，且无法准确客观地评估不同发音器官的生成效果。

在这项工作中，我们开发了一种新的AAI系统，该系统以语音声学数据和3D静态MRI作为输入，生成详细的声道rt-MRI图像序列。我们假设语音数据和3D静态MRI提供了互补的声学和结构（体积）信息，从而有助于提高模型对未见过的参考语音和说话者的泛化能力。为此，我们将提取的语音和3D静态MRI特征作为条件输入，并使用潜在扩散模型（LDM）在潜在空间中逐步生成目标rt-MRI序列。条件输入有助于控制模型对未见过的参考数据的生成过程，而LDM则实现了高效准确的视频生成。

在大多数现有的视频生成研究中，生成视频的质量通常通过主观评分或感知评分来评估，例如FVD（Unterthiner等人，2019年）和SSIM（Wang等人，2004年）。然而，在语音发音生成场景中，由于发音收缩估计的准确性对于进一步的语言分析和实际应用至关重要，因此这一点尤为重要。在这项工作中，我们引入了感兴趣区域（ROI）内的像素强度相关性评估方法，用于评估发音收缩的位置和程度准确性。我们手动标注了rt-MRI数据集的一个子集作为评估参考。这些标注计划与社区共享，供公众使用。我们的主要贡献如下：

我们开发了一种由语音驱动的发音rt-MRI生成系统，填补了声学信息与高质量发音数据转换之间的空白。
我们将语言学领域知识纳入视频生成评估中，而不仅仅是依赖感知评分，从而能够对模型性能进行语言学上的解读。此外，我们还分享了我们的发音器官标注数据以支持进一步的研究。
我们的评估结果表明，该模型在建模和生成发音动力学方面表现出色，并且具有很强的泛化能力，适用于未见过的参考语音数据。

问题表述与假设

在这项工作中，我们定义了输入数据三元组：[语音波形

S

、rt-MRI序列

V

和 3D静态MRI

I

，其中

S \in R^{t_{S}}

、

V \in R^{t_{V} \times h_{V} \times w \times c}

分别代表语音和视频的时间尺度；

t

和

I \in R^{{< />}_{I} \times w_{I} \times c}

分别代表图像的高度、宽度和通道。我们选择整个3D静态体积扫描中的中矢状面帧作为输入。值得注意的是，语音和rt-MRI视频来自同一录音，但它们的时间轴不同。

数据集

我们所有的转换实验和评估都是基于一个大型公开可用的发音rt-MRI数据集——USC 75-Speaker数据集（Lim等人，2021年）进行的，该数据集在语音科学研究中被广泛使用。该数据集包含了75位说话者的语音数据，每位说话者提供了17分钟的语音样本，包括辅音和元音序列（VCV/bVt）、句子、音韵平衡的段落以及通过图片描述引发的自由语音。

实验

结论

声学到发音的转换仍然是一个重要的未解决问题，其在多个应用领域具有广泛的影响。在这项工作中，我们利用潜在扩散模型从语音和3D静态MRI输入生成rt-MRI图像。该模型的性能通过基于语言学的ROI像素强度相关性和感知评分进行了评估。我们的结果显示，在生成发音收缩信息方面取得了良好的准确性，特别是在前部发音器官和咽部区域，表明该模型具有潜在的应用价值。

CRediT作者贡献声明

轩希（Xuan Shi）：负责写作——审稿与编辑、撰写初稿、可视化、验证、项目管理、方法论设计、数据分析、概念化。冯天天（Tiantian Feng）：负责写作——审稿与编辑、撰写初稿、验证、数据分析、调查、形式化分析、数据管理。朴在（Jay Park）：负责写作——审稿与编辑、软件开发、资源管理、数据管理。克里斯蒂娜·哈格多恩（Christina Hagedorn）：负责写作——审稿与编辑、撰写初稿、验证、数据分析、调查、形式化分析。

关于手稿准备过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了Gemini 3工具进行校对。使用该工具/服务后，作者对内容进行了必要的审查和编辑，并对发表文章的内容负全责。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：Shrikanth Narayanan报告称获得了国家科学基金会的财务支持。如果还有其他作者，他们声明自己没有已知的可能影响本文工作的财务利益或个人关系。

致谢

本项工作得到了美国国家科学基金会（NSF）的资助（Grant NSF (IIS-2311676, BCS-2240349, RI-2106930）。作者对内容和结论负全责。同时，我们也感谢张宇斌博士和卢一静博士提供的宝贵建议。

摘要

引言

相关研究

问题表述与假设

热点排行

新闻专题