《Computer Speech & Language》:A robust framework for noisy speech recognition using Frequency-Guided-Swin Transformer
编辑推荐:
提出结合卷积神经网络(CNN)和频率引导的Swin Transformer(FG-Swin)的混合架构,用于提升嘈杂环境下的语音识别性能。FG-MSA机制通过动态关注关键频率成分增强噪声鲁棒性,实验表明在Aurora-2和NSC数据集上准确率提升2.49%,WER降低8%,优于传统DNN、LSTM及基线Transformer模型。
Noussaiba Djeffal|Djamel Addou|Hamza Kheddar|Sid Ahmed Selouani
阿尔及利亚阿尔及尔胡阿里·布迈丁科学技术大学(USTHB)语音通信与信号处理实验室
摘要
传统的自动语音识别(ASR)系统在处理多样化和噪声环境时常常遇到困难,背景干扰会显著降低识别精度。本文提出了一种新的噪声语音识别方法,该方法结合了卷积神经网络(CNN)和Swin Transformer以及频率引导的多头自注意力(FG-MSA)架构。该方法旨在解决噪声环境中的语音识别问题,重点是从噪声音频中提取字符级转录内容。CNN能够高效提取局部特征,而Swin Transformer凭借其分层结构和移动窗口机制,能够捕捉局部和长距离依赖关系。FG-MSA机制用于引导注意力机制关注对语音识别最相关的频率成分,从而提高在噪声条件下的鲁棒性。实验表明,该方法在噪声环境中的ASR性能和效率得到了提升。在Aurora-2数据集和噪声语音命令(NSC)数据集上的评估结果显示,提出的CNN-FG-Swin Transformer在Aurora-2数据集上的平均准确率为87.19%,比基线Swin Transformer高出2.49%;在所有数据集上的平均准确率为87.01%,优于所有对比的现有技术。在NSC数据集(-9 dB噪声水平)中,其词错误率(WER)为36.20%,比端到端胶囊网络模型(DNN 38.63%和LSTM 69.09%)的表现更好,证明了其在实际应用中的鲁棒性。
引言
近年来,自动语音识别(ASR)取得了显著进展,准确性和适应性都有所提高(Djeffal et al., 2023b)。这些发展促进了语音技术的广泛应用,使得人机交互更加直观。如今,虚拟助手和语音控制设备已变得普遍,凸显了ASR在提升用户体验方面的变革性作用(Djeffal et al., 2024a, Hamza et al., 2023)。然而,ASR系统在噪声环境中仍面临保持可靠性和准确性的挑战(Hinton et al., 2012)。背景噪声会改变语音信号的声学特性,导致错误率上升和系统性能下降。此外,噪声可能掩盖重要的语音线索,使系统难以区分发音相似的单词,还可能因语音重叠或突然的瞬态声音(如汽车喇叭、警报声)引入错误激活或误解。噪声还会降低传统特征提取技术的效果,因为这些技术依赖于干净的输入来进行准确识别,并可能影响说话人识别和语言建模。研究人员探索了多种策略来应对这些挑战,包括先进的信号处理技术和鲁棒的特征提取方法。随着深度学习(DL)的发展,卷积神经网络(CNN)和循环神经网络(RNN,包括长短期记忆网络LSTM)等模型通过自动学习数据中的复杂特征和时间模式,显著提升了ASR性能。然而,这些基于DL的方法在噪声环境中仍存在局限性,尤其是在噪声改变语音动态或需要跨长时间框架的上下文时。因此,需要更先进的架构。基于Transformer的架构在自然语言处理和计算机视觉任务中表现出色(Kheddar et al., 2025a, Vaswani et al., 2017, Kheddar, 2025),也成为了一种有前景的解决方案。它们的多头自注意力(MSA)机制能够有效捕捉长距离依赖关系和上下文关系,非常适合用于ASR任务。
本文提出了一种利用基于Transformer的MSA来提升噪声环境下ASR系统效果的新方法。通过结合CNN和Swin Transformer架构,我们提出了一种创新方法来应对噪声环境中的语音识别挑战。虽然CNN在提取局部特征方面表现优异(Djeffal et al., 2023a),但Swin Transformer在捕捉长距离依赖关系和分层表示方面具有优势,两者的结合特别适合这一任务。与主要关注关键词检测(Sun et al., 2024)、语音增强(Jiang et al., 2023)或情感识别(Liao and Shen, 2023, Liu et al., 2025)等任务的现有研究不同,我们的模型通过引入移动窗口机制和频率引导的MSA(FG-MSA),增强了ASR任务中对噪声输入的处理能力,提高了序列预测的上下文特征提取效果。
所提出的FG-MSA使模型能够动态关注关键频率带,有效捕捉与语音相关的特征,同时减轻噪声的影响。这种针对性方法进一步提升了模型在复杂声学环境中的鲁棒性。本文在噪声条件下的字符级转录方面做出了独特而原创的贡献。
本文的主要贡献如下:
- –
提出了一种新的混合架构,将CNN与频率引导的Swin Transformer(FG-Swin)结合,以提升噪声环境下的ASR性能。CNN提取低级声学特征,而Swin Transformer捕捉长距离依赖关系,确保语音表示的鲁棒性。
- –
在Swin Transformer模块中引入了一种新的FG-MSA机制,以改善模型对相关频率成分的关注能力,从而提高噪声鲁棒性和语音清晰度。该方法动态调整注意力分配,抑制噪声的同时保留关键语音特征。
- –
将提出的方法与领先的DL模型进行对比测试,使用Aurora-2数据集(孤立单词和完整数据集)以及噪声语音命令(NSC)数据集,通过词识别准确率和词错误率(WER)等关键指标评估其性能,突出了CNN-FG Swin Transformer模型的优势。
- –
验证了所提出方法的效率,其在多种噪声条件下的有效性得到了验证,确保模型能良好适应实际噪声语音场景。
本文的其余部分结构如下:第2节概述相关研究;第3节介绍基线Swin Transformer的背景;第4节介绍提出的CNN-FG-Swin Transformer方法;第5节展示实验结果;第6节总结工作并探讨未来研究方向。
相关研究
噪声鲁棒ASR的研究已经进行了四十多年。Li等人(2014)对深度学习时代之前的经典技术进行了全面回顾。主流框架是高斯混合模型-隐马尔可夫模型(GMM-HMM),其中GMM捕获声学特征分布,HMM建模时间动态;通常通过特征补偿、模型适应或专门训练来提高鲁棒性。在基于模型的技术中,向量泰勒
基线Swin Transformer模块
如图1所示,Swin Transformer模块在基于窗口的MSA(W-MSA)和基于移动窗口的MSA(SW-MSA)之间切换(Park et al., 2025)。SW-MSA模块通过自定义的ShiftedWindowLayer对特征图进行空间移动,然后再应用MSA,从而实现跨窗口交互,补充了W-MSA中的局部注意力(Sun et al., 2024)。实际应用中,Swin Transformer模块提出的方法
该架构的核心创新在于整合了FG-Swin Transformer模块,扩展了传统Swin Transformer的功能,通过结合FG-MSA实现了这一目标。该架构用于噪声环境下的ASR,通过CNN进行初始特征提取,然后通过FG-Swin Transformer模块、W-MSA、SW-MSA和多层感知器(MLP)进一步增强上下文理解,如图2所示。实验
为了评估所提出模型在噪声语音识别任务中的有效性,使用标准基准数据集进行了系列实验。实验旨在评估在不同噪声条件、说话人变化和信噪比(SNR)水平下的性能。我们将该方法与基线模型进行比较,以展示在多种测试场景下的鲁棒性和准确性提升。结论
本研究提出了FG-Swin Transformer用于噪声语音识别,利用频率引导机制在频谱域增强特征提取的能力。FG-Swin Transformer架构结合了频率引导的注意力和Swin Transformer的基于窗口的自注意力机制,解决了语音信号中噪声失真的问题。在Aurora-2数据集和NSC数据集上的实验结果表明,FG-SwinCRediT作者贡献声明
Noussaiba Djeffal:撰写 – 审稿与编辑、初稿撰写、可视化、验证、资源准备、方法论设计、调查、数据分析、概念构建。Djamel Addou:撰写 – 审稿与编辑、初稿撰写、可视化、验证、资源准备、项目管理、方法论设计、调查、数据分析、概念构建。Hamza Kheddar:撰写 – 审稿与编辑、初稿撰写、可视化、验证利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。致谢
本研究未获得任何公共、商业或非营利机构的资助。