端到端目标说话人语音识别技术，结合语音活动检测功能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：End-to-End Target Speaker speech recognition with voice activity detection fusion

【字体：大中小】 时间：2026年01月30日 来源：Digital Signal Processing 3

编辑推荐：

　　传统VAD系统在多说话人场景下因独立训练导致耦合问题，引入插入/删除错误，影响ASR性能。本文提出端到端流式SP-ASR框架，通过融合VAD和ASR模块解决重叠问题。SP-VAD模块采用上下文注意力和目标说话人注意力机制实现流式语音分段，SM-ASR模型结合Conformer编码器进行细调，有效抑制噪声干扰并提升目标说话人识别准确度。实验表明该系统在SNR变化场景下ctWER显著优于传统方法。

林振涛|曾碧|文松|陈志豪|胡慧婷

中国南方理工大学，广州

摘要

基于传统语音活动检测（VAD）的系统在处理多说话者环境中的说话者重叠问题时经常遇到挑战，尤其是在目标说话者自动语音识别（ASR）的背景下。这一困难主要源于前端VAD模块的局限性，这些模块被独立训练用于区分噪声和语音，但经常引入“插入和删除错误”，从而对ASR系统的整体性能产生不利影响。为了解决这一耦合缺陷，我们提出了一个端到端的流式个人目标说话者ASR（SP-ASR）框架，该框架以流式方式实现了VAD和ASR组件的融合。我们的架构引入了两项关键创新：首先，流式个人VAD（SP-VAD）模块充当神经门控器，通过其上下文注意力和目标说话者注意力（CA-TSA）机制对音频流进行分割，同时强调目标说话者的特征。随后，采用流式掩码ASR（SM-ASR）模型，该模型与SP-VAD集成，并使用粗粒度和细粒度的说话者信息进行微调，以提取特定于说话者的转录内容。我们的实验表明，目标说话者词错误率（ctWER）显著降低，展示了端到端SP-ASR融合系统相较于传统ASR系统的优越性，尤其是在语音重叠和噪声严重的情况下。

引言

在会议场景中，多说话者互动很常见[1]。然而，多个说话者同时交谈的重叠语音现象对目标说话者的自动语音识别（ASR）系统构成了相当大的挑战。为应对现实世界的挑战，已经提出了各种系统，这些系统侧重于通过说话者分离、对话记录和信息提取来识别目标说话者。然而，这些系统假设输入的是短音频片段，因此需要使用独立训练的基于VAD的模块，这通常会导致ASR中出现虚假的插入和删除。相反，无VAD的方法[2]、[3]可以减少删除错误，但会增加计算复杂性。

在基于VAD和无VAD系统的基础上，我们开发了一个端到端的融合系统，该系统不仅增强了目标说话者的ASR性能，还具备VAD功能，有效处理了重叠问题。

对于目标说话者ASR任务，主流方法涉及说话者分离、对话记录和信息提取，这些过程依赖于独立训练的前端VAD。如图1(a)所示，基于VAD的系统可以隔离目标说话者的片段，使ASR模型能够专注于这些特定片段。说话者对话记录进一步细化了VAD分割的语音，将其与ASR结果对齐，得到目标说话者的最终转录内容。利用特定于说话者的信息有助于实现基于目标说话者提取（TSE）[4]、[5]、[6]、目标说话者ASR（TS-ASR）[7]、[8]、[9]和个人VAD（PVAD）[10]、[11]、[12]、[13]、[14]的目标说话者语音识别系统。然而，这些方法都依赖于前端基于VAD的模块。

如图1(c)所示，在无VAD的系统中，由于没有VAD系统，ASR的内存消耗显著增加，因为它需要处理较长的语音片段而无法进行选择性过滤。另一种用于转录长音频记录的方法是使用流式ASR模型，这些模型不依赖于VAD模块[2]、[3]，但会引入非目标说话者和背景干扰。

基于VAD的系统可以检测说话者活动区域，但区分过程可能会引入插入和删除错误，从而影响ASR性能。相反，无VAD的系统消除了对精确说话者活动检测的需求，但必须主要应对噪声干扰这一挑战。

在本文中，我们提出了一个端到端的流式个人目标说话者ASR（SP-ASR）融合系统，通过VAD和ASR的联合训练，在基于VAD和无VAD的系统之间实现了平衡策略。

•

首先，我们引入了流式个人VAD（SP-VAD）模块，该模块利用上下文注意力（CA）和目标说话者注意力（CA-TSA），如第3.1节所述。具体来说，上下文注意力（CA）有效增强了全局上下文信息，而目标说话者注意力（TSA）提高了系统区分目标说话者的能力。

•

随后，采用流式掩码ASR（SM-ASR）模型，该模型与SP-VAD集成，并使用Conformer编码器[15]和粗粒度及细粒度的说话者信息进行微调，以提取特定于说话者的转录内容。该编码器通过增强目标说话者信息来提高识别准确性。

•

最后，我们评估了不同的系统配置，并使用目标说话者词错误率（ctWER）作为评估指标，分析了不同信噪比（SNR）下的性能。

方法

SP-ASR模型专门设计用于以端到端融合的方式解决说话者重叠和噪声区分的挑战，从而提高目标说话者的识别能力。SP-ASR的端到端架构如图3所示。在本节中，我们介绍了我们的新型SP-VAD和SM-ASR模型，重点介绍了CA-TSA模块和说话者增强音频编码器微调方法。

实现细节

SP-VAD模型使用了维度为128的中间表示。CA-TSA模块具有

L = 2

层，每个层配置了四个头。ASR模型采用Conformer架构实现，包括一个12层的编码器，编码器维度为512，8个注意力头和32大小的卷积核，以及一个3层的解码器，产生4996维的输出。值得注意的是，ASR模型

在模拟数据集上的实验

我们使用模拟的真实数据集进行了一系列实验，以验证所提出的SP-ASR方法，重点比较了不同VAD和ASR系统的性能，特别是在不同的信噪比（SNR）条件下。

数据集

为了验证所提出的SP-ASR方法在处理重叠语音问题方面的有效性，我们使用了Augmented Multi-party Interactions（AMI）语料库[41]中指定的官方训练和评估数据集进行训练和测试。

AMI会议语料库包含100小时的会议录音，每个会议场景通常涉及4名说话者，但在某些情况下，会议可能只有3名或多达5名说话者。

结论

传统的VAD策略在复杂的多说话者环境中常常失败，特别是在目标说话者ASR方面，因为独立训练会导致有害的耦合问题、插入和删除错误。为从根本上解决这一挑战，我们提出了端到端的SP-ASR框架，实现了为流式操作设计的VAD和ASR组件的新颖融合。SP-ASR的核心在于两项关键创新。SP-VAD模块作为一个强大的、目标感知的神经

CRediT作者贡献声明

林振涛：方法论、概念化、撰写——原始草稿。曾碧：监督、撰写——审阅与编辑。文松：软件、调查。陈志豪：可视化、数据管理、软件。胡慧婷：软件、验证。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作