《Engineering Applications of Artificial Intelligence》:Neural style transfer architectures for improving generalization in low-resource spoken language identification
编辑推荐:
本研究提出利用神经风格迁移(NST)生成合成音频作为数据增强,优化超参数并改进NST架构,包括替换随机CNN层为预训练LID编码器、引入时空注意力模块和加权残差连接,有效提升低资源多语言说话人识别的跨语料库泛化能力,在多个南亚语料库和LRE 2022挑战赛中优于传统方法。
斯潘丹·德伊(Spandan Dey)| 戈塔姆·萨哈(Goutam Saha)
电子与电气通信工程系,印度理工学院卡尔帕格普尔分校
赫利利(Hijli),卡尔帕格普尔(Kharagpur),西孟加拉邦,721302,印度
摘要
在资源有限的口语识别(LID)任务中,面对多语言标注语音数据不足的挑战,本研究提出利用神经风格迁移(NST)架构来解决这一问题。NST主要应用于计算机视觉领域,通过将风格图像的纹理与内容图像融合来生成合成图像。尽管NST在生成音频应用中逐渐受到关注,但其在基于语音的分类任务中作为增强手段的潜力尚未得到充分探索。据我们所知,这是首批将NST应用于LID训练的研究之一,具体是通过生成合成增强音频来实现。作为基线方法,我们选择了一个为音乐生成设计的浅层、宽层随机卷积神经网络(CNN)模型。首先优化NST的超参数,如CNN层数量和通道大小、输入频谱图维度,然后对NST框架进行了三项关键改进:(i)用预训练的LID编码器替换随机CNN层;(ii)引入双时频注意力音频风格提取模块以有效捕捉纹理;(iii)引入加权残差连接以平衡风格和内容信息。利用NST生成的音频作为新颖的音频增强技术,并作为对抗领域泛化的伪域,提升了三个主要南亚LID语料库及2022年语言识别评估(LRE)挑战赛数据中的性能。为进一步发挥NST在LID中的潜力,我们还结合了基于表现最佳的前三组和前五组NST超参数集的LID模型进行了评分融合。结果表明,基于NST的增强方法优于其他多种流行的增强方法。
引言
口语识别(LID)系统被用作多语言语音应用的前端,例如语音助手、智能家居以及其他人机交互(HCI)场景(Ambikairajah等人,2011年)。LID系统允许用户使用母语通过语音命令与智能设备进行交互。这些应用依赖于多种基于语音的技术,如自动语音识别(ASR)、语音到语音的机器翻译(MT)等,从全球角度来看,支持多语言功能至关重要。高效的LID系统用于扩展这些语音应用,其任务是从输入的语音命令中检测出语言。根据检测到的语言,后端技术可以相应调整其操作模式。然而,为了确保LID系统能够惠及全球用户,需要收集大规模的多语言标注语音数据。在当前基于深度神经网络(DNN)的架构时代,这一需求变得更加迫切(Li等人,2013年)。随着全球LID挑战赛的推进,例如美国国家标准与技术研究院(NIST)组织的语言识别评估(LRE)挑战赛(Sadjadi等人,2018年)、东方语言识别(OLR)挑战赛(Li等人,2020年)以及多个开源数据库(如Mozilla Common Voice,2020年;VoxLingua107,Valk和Alum?e,2021年),研究人员在多种语言的LID系统开发方面取得了显著进展。然而,尽管世界上有超过7000种语言(M等人,2020年),但大多数语言仍属于资源匮乏类型。其中一些语言(如南亚或非洲的语言)的使用者数量甚至超过一百万(M等人,2020年)。开发针对这些资源匮乏语言的有效LID系统的一个潜在方法是收集和标注大规模的语音语料库。然而,这一过程耗时且需要长期的人力协作。因此,大多数资源匮乏的LID研究依赖于小规模的内部语料库开发(Dey等人,2022年)。这些小型语料库通常缺乏语言多样性,因此仅在其自身测试子集上的评估可能无法保证训练出的LID模型的泛化能力。因此,对于资源匮乏的LID任务,我们依赖跨语料库评估协议(Dey等人,2023a)来评估使用各自语料库训练的独立LID模型的泛化能力。
针对资源匮乏问题的另一种解决方案是通过不同的增强方法来扩充小型数据。增强可以增加可用数据量并提升非语言多样性,从而提高大型DNN架构的泛化能力(Snyder等人,2018b)。研究人员探索了多种增强方法来提高LID系统的鲁棒性,例如随机扰动语速和音量、与不同房间脉冲响应的卷积、通过随机带宽过滤进行增强、改变音频编解码器进行增强(Vu等人,2019年)。此外,还有特征级别的音频增强方法,如SpecAug(Park等人,2019年)、Mixup(Zhang等人,2018年),这些方法在LID应用中非常有用(Dey等人,2023a)。最近,Rajaa等人(2023年)提出了Map-Mix增强方法,这是一种针对数据类别的固定维度Mixup版本。Ambili和Roy(2023年)的研究中使用了语音合成模型来生成LID任务的合成数据。然而,在LID中最常见的增强方法之一是在训练语音中添加非语音元素,如白噪声、杂音和音乐(Snyder等人,2018b;Snyder等人,2018a;Raj等人,2019年;Trinh等人,2022年;Chaitra等人,2023年;Hu等人,2023年)。通常使用MUSAN语料库(Snyder等人,2015年)来导入这些附加干扰元素(Snyder等人,2018a;Wang等人,2023年;Dey等人,2024年)。这种传统的增强方法基于非语音元素如何污染语音信号的简单加性假设。然而,实际情况可能更为复杂,例如存在多个噪声源、时变且不动的噪声源(如火警或警报器)、移动的静态或时变噪声源(如交通噪音)等。因此,生成增强数据时应采用更复杂的非线性机制将非语音元素与语音信号融合。基于这些动机,本研究首次提出了利用神经风格迁移(NST)进行音频增强的方法,这是一种将非语音元素融入语音信号的非线性神经方式。为了公平比较和基准测试,我们使用相同的MUSAN语料库来融合非语音元素。实验表明,所提出的基于NST的增强方法优于常见的非语音添加方法及其他多种增强方法。
NST通过将风格图像的纹理与另一图像的内容融合来生成合成图像(Jing等人,2019年)。Gatys等人(2016年)首次使用预训练的对象检测网络提取艺术画的深度风格表示,并将其与照片内容融合。NST主要应用于计算机视觉领域,尤其是在图像和视频处理中(Amin等人,2023a;Ul Amin等人,2024年)。受合成图像生成的启发,NST方法也在音频领域受到关注(Agarwal等人,2022年;Ribeiro等人,2022年;Cífka等人,2021年)。Ulynov和Lebedev(2016年)首次尝试将Gatys等人(2016年)的NST方法应用于音频领域。他们提取了音频的语音短时傅里叶变换(STFT)表示,并使用浅层、宽层单卷积神经网络(CNN)联合优化风格和内容损失。生成的音频质量较差,内容信息不突出。Grinstein等人(2018年)使用多种风格提取框架进行了音频NST,并对标准基于图像的NST框架进行了必要的修改。作者报告称,使用具有4096个滤波器的随机初始化CNN层并仅优化风格损失,可以生成感知效果更好的风格迁移音频。
然而,我们注意到NST作为基于语音的分类任务的增强手段的潜力尚未得到充分探索。这成为我们工作的动机。我们以Grinstein等人(2018年)开发的NST架构为基线,并对其关键超参数进行了优化。我们研究了CNN层数量、CNN输出通道数量以及输入频谱图通道数量的影响。此外,针对LID场景,我们进一步提出了一个包含三个额外模块的NST架构:
- •
我们用预训练的LID或领域识别任务编码器替换了随机初始化的CNN层。
- •
扩展了传统的频谱格拉姆矩阵计算方法,引入了时域格拉姆矩阵风格提取器,以更好地捕捉风格语音中的非语言特征。
- •
我们在NST架构中加入了加权残差连接,以平衡风格和内容频谱图的影响。
本研究的另一个重要贡献在于NST的应用。此前,NST方法主要应用于生成性音频任务,如声音转换(Agarwal等人,2022年;Zhou等人,2021年)、文本到语音合成(Ribeiro等人,2022年)、音频制作(Mimilakis等人,2020年)、音乐风格迁移(Cífka等人,2021年)。据我们所知,NST此前未被用作任何基于语音的分类任务的增强手段。在本研究中,NST生成的音频被用作替代增强手段,并进一步应用于对抗领域泛化(DG)(Zhou等人,2022年)方法,以提高相同语料库和跨语料库评估下的LID性能。通过跨语料库评估,我们发现针对特定训练语料库优化的NST架构在训练或评估语料库发生变化时可能表现不佳。因此,为了确保基于NST的LID框架能够泛化到未知的实际情况,我们结合了表现最佳的前三组和前五组NST超参数集的LID模型进行评分融合。融合框架在相同语料库和跨语料库评估中均显著优于多种传统增强方法和基线NST模型。最后,我们通过图1展示了如何使用基于NST的增强方法训练LID系统,并将其应用于多语言语音应用。在开发阶段,我们使用非语音语音作为风格音频,并将其与LID训练数据融合生成NST增强音频。然后使用增强后的训练数据训练LID模型,这些模型可以作为多种多语言语音应用的前端。
本文的其余部分安排如下:第2.1节详细描述了所提出的基于NST的架构及其在LID系统开发中的应用。第3节介绍了数据库和实验细节。第4节展示了实验结果,第5节进行了额外的消融研究。最后是结论部分。
方法论
首先,我们概述了方法论及其工程应用,以满足更广泛读者的需求。接着,我们讨论了基线NST架构及其重要超参数。随后,我们提出了针对LID应用的基线NST架构的不同修改方案。接下来介绍了基于NST的增强方法和以NST生成数据为伪域的对抗性LID框架的详细信息。
实施细节
在本节中,我们介绍了语料库描述、数据组织和预处理、特征提取、LID分类器架构以及评估指标的详细信息。
实验结果
我们首先优化了基线NST的超参数,并评估了它们对LID性能的影响。然后根据验证集的结果选择了优化后的HP NST架构。接下来,我们分别研究了添加到优化后的HP NST架构中的每个新模块的影响。最后,我们将提出的NST架构(包含所有三个额外模块的优化后的HP NST)应用于数据增强和对抗领域泛化。最后,我们报告了LID实验结果。
消融研究及讨论
在本节中,我们提供了额外的后续分析和对NST架构及其对LID性能影响的进一步讨论。
结论
本研究是首批探索音频领域神经风格迁移用于数据增强和领域适应以提升LID泛化能力的研究之一。我们采用了一个基于单层宽随机CNN的基线NST架构,并加入频谱格拉姆矩阵风格提取器,将非语音语音的纹理转移到内容音频中。通过优化多个超参数(如CNN层数量等),进一步改进了基线NST架构。
CRediT作者贡献声明
斯潘丹·德伊(Spandan Dey):撰写——审阅与编辑、原始草稿撰写、方法论构建、概念化。戈塔姆·萨哈(Goutam Saha):撰写——审阅与编辑、验证、监督、概念化。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。