《Computer Speech & Language》:A dual-branch parallel network for speech enhancement and restoration
编辑推荐:
提出双分支并行网络DBP-Net,通过参数共享和跨分支跳跃融合实现语音增强与恢复的统一架构,有效处理噪声、混响和带宽衰减,实验验证其性能优于现有基线且模型轻量。
作者:Da-Hee Yang、Dail Kim、Joon-Hyuk Chang、Jeonghwan Choi、Han-Gil Moon
韩国首尔汉阳大学电子工程系,邮编04763
摘要
我们提出了一种新型的通用语音恢复模型——DBP-Net(双分支并行网络),该模型能够有效处理包括噪声、混响和带宽下降在内的复杂现实世界中的语音失真问题。与以往依赖单一处理路径或分别使用不同模型进行增强和恢复的方法不同,DBP-Net采用了一种统一的架构,包含两个并行分支:一个基于掩蔽的分支用于失真抑制,另一个基于映射的分支用于频谱重建。DBP-Net的核心创新在于两个分支之间的参数共享机制以及跨分支的融合机制,其中掩蔽分支的输出被直接融合到映射分支中。这种设计使得DBP-Net能够在轻量级的框架内同时利用抑制和生成这两种互补的学习策略。实验结果表明,DBP-Net在综合语音恢复任务中的性能显著优于现有模型,同时保持了模型的紧凑性。这些发现表明,DBP-Net为各种失真场景下的语音增强和恢复提供了一种有效且可扩展的解决方案。
引言
在现实世界的声学环境中,语音信号经常受到背景噪声、混响和带宽限制等多种失真的影响。尽管在语音增强和带宽扩展(BWE)方面已经进行了大量研究,但大多数现有工作都集中在单一类型的失真上,例如去噪(Xu等人,2014年;Park和Lee,2017年;Tan和Wang,2018年;Luo和Mesgarani,2019年;Defossez等人,2020年;Yang和Chang,2023年;Saleem等人,2025年;Zhang等人,2025年;Chen等人,2025年)、去混响(Zhao等人,2020年;Ernst等人,2018年;Shi等人,2020年)或带宽扩展(Li和Lee,2015年;Nguyen等人,2022年)。然而,在实际应用中,这些失真往往同时存在,因此单一用途的系统往往无法满足需求。
最近在通用语音恢复领域取得的进展出现了能够处理多种类型失真的模型,如噪声、混响和带宽减少(Liu等人,2022年;Byun等人,2023年;Kim等人,2023年;Serrà等人,2022年;Scheibler等人,2024年)。尽管这些方法取得了重要进展,但它们通常依赖于特定任务的模块或分阶段处理流程,或者需要更大的模型容量,尤其是在生成模型方面。这一领域的一个关键挑战在于如何平衡抑制(如噪声和混响去除)与重建(如带宽扩展)这两种截然不同的需求。基于掩蔽的方法在抑制方面效果显著,而基于映射的生成方法对于重建至关重要。大多数现有的判别模型只专注于其中一种任务,限制了它们在统一框架内高效处理两种任务的能力。
为了解决这些限制,我们提出了DBP-Net,这是一个双分支并行网络,它在统一的架构中明确地模拟了增强和恢复这两种不同的任务。该模型包含两个并行分支:一个基于掩蔽的分支负责失真抑制,另一个基于映射的分支负责频谱重建。重要的是,这两个分支共享参数,并通过跨分支融合机制相连,使得基于映射的分支能够利用掩蔽分支的中间表示。这种结构促进了互补学习,使网络能够在复杂失真场景下自适应地平衡抑制和重建功能。DBP-Net的创新之处在于它通过明确的分支协作和参数共享,实现了两种不同学习范式的统一。与以往分别处理失真或依赖顺序处理阶段的方法不同,DBP-Net能够同时、高效且可解释地处理多种类型的失真。
实验结果表明,DBP-Net在各种通用语音恢复基准测试中表现出强大的性能,同时保持了较低的参数数量。其架构和性能的详细分析分别在第2节“模型描述”和第3节“实验”中提供。
问题表述
我们在同时受到三种常见失真影响的环境中进行通用语音恢复:加性噪声、混响和带宽下降。设表示原始语音信号。观测到的失真信号可表示为:,其中表示与
数据集和实验设置
我们以16 kHz的采样率考虑了噪声、混响和带宽下降对语音信号的影响来生成失真语音。对于噪声失真,我们将VCTK语料库(Valentini-Botinhao等人,2017年)中的28位英语说话者的语音与DEMAND噪声数据集混合,信噪比范围为0 – 20 dB。混响信号是通过将语音信号与模拟的房间冲激响应进行卷积生成的,使用的是Pyroomacoustics引擎。
结论
在本文中,我们提出了DBP-Net,这是一种通用的语音恢复模型,它集成了两个并行的幅度解码器:一个用于失真去除,另一个用于语音重建。鉴于现有单一用途模型的局限性,我们设计了一种统一的架构,能够在单一框架内处理多种失真,如噪声、混响和带宽减少。所提出的模型在各种测试中均显示出持续的改进效果。
CRediT作者贡献声明
Da-Hee Yang:撰写初稿、可视化、验证、软件开发、项目管理、方法论研究、形式化分析、概念构思。Dail Kim:数据整理。Joon-Hyuk Chang:撰写与编辑、监督。Jeonghwan Choi:项目管理、资金筹集。Han-Gil Moon:撰写与编辑、监督。
利益冲突声明
作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。