《Computer Speech & Language》:Design of Single-Channel Speech Enhancement Algorithm in Noisy Acoustic Environments
编辑推荐:
双通道相位提取架构TFEM-PHASEN-MINI结合Transformer与轻量化卷积模块,优化相位补偿并提升计算效率,在多个公开数据集上达到PESQ、STOI等语音质量指标最优,验证了其在资源受限设备上的适用性。
赵一夫|董光辉|刘楠
中国哈尔滨东北林业大学计算机与控制工程学院,150040
摘要
在语音增强领域,基于Transformer和自注意力的去噪网络被广泛使用,并且表现优异,语音增强作为语音识别的前端处理具有重要意义。然而,现有的双分支架构由于相位谱的敏感性和易于补偿的特性,缺乏足够的自然语音相位提取能力,而传统的膨胀卷积架构不适用于资源受限的设备,这迫切需要轻量级的替代方案。因此,本文提出了TFEM-PHASEN-MINI,这是一种基于基础特征模块和细节特征模块的离散双分支相位提取架构。它使用DilatedReparamBlock替换了密集编码器的膨胀卷积模块,通过融合卷积神经网络和Transformer来平衡计算效率和性能。此外,它还设计了一个时频特征提取模块来验证将语音识别模块集成到语音增强中的效果,并添加了一个相位增强模块,以解决由于幅度谱过度补偿导致的语音音素特征提取不足的问题,该方法通过并行相位估计实现。在VoiceBank+DEMAND数据集上,该算法在PESQ、CSIG、COVL、FWSSNR、CEPS和STOI指标上分别取得了3.44、4.72、4.18、17.13、2.10和0.96的分数。在DNS-Challenge数据集上,它在WB-PESQ和NB-PESQ指标上分别获得了3.20和3.57的分数。在EARS-WHAM测试集及其盲测试集上,该算法在PESQ、CSIG、CBAK、COVL、SSNR、FWSSNR、CEPS和STOI指标上分别提高了0.56、1.00、0.94、0.83、8.42、5.26和0.15,同时获得了非侵入式评估指标(整体质量3.80、噪声度4.18、不连续性4.32、色彩度3.85、响度3.45),显示出良好的泛化能力。尽管在VoiceBank+DEMAND数据集上CBAK和SSNR指标相对较低,但其整体性能仍然先进。计算复杂性和设备推理测试验证了其计算效率与准确性之间的平衡。
章节摘录
研究背景和主题意义
在我们的日常生活中,单通道语音增强有着极其广泛的应用。在助听器、人工耳蜗和语音识别前端模块等领域,环境噪声和混响等因素常常会导致语音可懂度下降,因此语音增强显得尤为重要。特别是在助听器的应用中,Zuzana Jel?icová(Jel?icová等人,2023年)等人提出了一种可配置的ASIC加速器
模型架构介绍
与传统的时频域语音增强生成对抗网络类似,该算法的主要焦点在于生成器的设计,包括密集编码器、时频提取模块、掩码解码器、相位解码器以及位于相位解码器之后的相位增强模块等组件。
首先,密集编码器使用级联的DilatedReparamBlock膨胀卷积层来扩展感受野并提升模型的性能
模型架构介绍
密集编码器将输入特征图
编码为时频域表示,具有较低的采样率和较高的维度。它由两个卷积块和四个膨胀卷积模块以堆叠方式组合而成,用于初步提取跨时频尺度的语音多模态特征。每个卷积块包括一个2D卷积层、一个实例标准化(IN)单元和一个参数化修正线性单元(PReLU)不同数据集上的模型测试与比较
本文使用了三个数据集:VoiceBank+DEMAND(Botinhao等人,2016年)、DNS-Challenge(Reddy等人,2020年)和EAR-WHAM(Richter等人,2024年)。这些数据集的简要介绍和详细讨论见表4。
VoiceBank+DEMAND数据集分为训练集和测试集,采样率为48 kHz。该数据集的语音样本来自VoiceBank语料库,包含11,572段训练语音(由28位发音者录制)
限制与相关讨论
尽管基于生成对抗网络(GANs)的语音增强模型展现出广阔的应用前景,但它们在这一领域仍存在一些局限性。
一个主要问题是幅度谱和相位谱之间的过度补偿问题。虽然本文提出的算法在指标性能和计算效率之间取得了良好的平衡,但仍然存在残余的背景噪声
结论
本文提出了TFEM-PHASEN-MINI,这是一种基于PHASEN架构的单通道语音增强算法,受到MUSE模型的启发,并采用了离散双分支生成对抗网络。它通过短时傅里叶变换(STFT)提取幅度频率和相位频率特征,包含三个关键组件:DilatedReparamBlock模块,用于减轻密集编码器的计算负担并优化时频依赖性;时频增强和相位增强模块
未引用的参考文献
(Wahab等人,2025年;Cheng等人,2022年;Ding等人,2024年)
数据可用性
本研究使用的数据集均为公开可获取的,原始代码已包含在附件中。如有需要,可提供所有相关分析和结果,以便其他研究人员进行验证和复制。如需更多信息或访问数据,请联系此邮箱:liunannf@yeah.net。
CRediT作者贡献声明
赵一夫:撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、调查、形式分析、数据管理、概念化。董光辉:软件开发、资源获取、方法论设计、调查、资金筹措。刘楠:形式分析、数据管理、概念化。