在具有挑战性的声学环境中捕获的现实世界语音经常受到多种同时发生的退化的影响,例如交通和风产生的强烈非平稳噪声[1]、由于采集链限制导致的带宽截断[2],以及高频内容被噪声丢失或掩盖的部分频谱掩蔽[2]。这些失真会降低人类的语音感知质量以及自动语音技术的下游处理性能,它们在户外麦克风、电话前端和资源有限的传感设备等实际应用中经常同时出现。传统的单一任务增强方法难以有效处理这种复合失真;同样,许多时频掩蔽或端到端的卷积神经网络(CNN)解决方案倾向于保留和平滑连续的受损频谱模式,而不是显式重建缺失的高频或截断的频段。
语音恢复和增强的一种广泛采用的范式是编码器-解码器框架,其中分析网络从退化的输入中提取潜在表示,然后合成或重建网络预测干净的语音信号。早期的深度模型,如SEGAN [3] 和 DCCRN [4],建立了直接在波形或频谱图上操作的完全卷积编码器-解码器架构,实现了强大的去噪性能,但往往难以恢复丢失的高频信息。后续的时域模型,如Conv-TasNet [5],进一步证明了端到端波形映射的可行性,而更近期的架构如MetricGAN+ [6] 则集成了对抗性目标以提高感知质量。
采用交叉注意力进行语音增强(SE)的方法也被证明非常有效,先前的研究已经证明了这一点[7],并且注意力增强的循环框架在复杂的频谱域中也显示出更优越的噪声抑制性能[8]
同样,将自注意力和多头上下文建模集成到Transformer架构中,使网络能够更好地捕捉传统或循环架构通常无法表示的全局频谱-时间相关性。一系列研究已经证明了这些优势。
例如,混合卷积-Transformer架构已被用于提高语音可懂度恢复[9],并通过交叉注意力机制进行单通道增强[10]。同时,基于Conformer的模型,如GD-Conformer,利用门控密集编码器-解码器设计在单声道增强方面实现了最先进的性能[11]。除此之外,各种基于Transformer的方法——包括那些专注于高效长上下文建模[12]、多域特征融合[13],以及专为离线和实时处理设计的架构[14]、[15]、[16]——进一步推动了该领域的发展。
受到这些发现的启发,我们旨在构建一个将输入波形映射为标记序列的标记器,然后将其转换为嵌入以供后续建模使用的框架。基于这一概念,我们采用基于Transformer的音频编码器来处理这些标记化表示,利用注意力机制在时间和频率上整合上下文线索。这种设计为鲁棒的语音恢复和带宽扩展(BWE)提供了一个统一且灵活的框架。
与此同时,基于扩散[17]和Flow Matching(FM)[18]的生成增强方法通过学习迭代去噪轨迹展示了令人印象深刻的能力,尽管通常伴随着较高的计算成本。例如,StoRM [19]采用了一种随机再生策略,其中预测模型输出指导进一步的扩散,以减少扩散步骤的数量同时保持输出的质量。
最近,一种预训练特征引导的扩散模型[20]将频谱嵌入集成到受VAE启发的潜在空间中,并使用确定性采样器来加速收敛,减轻了与扩散模型通常相关的一些计算负担。
尽管有这些进步,大多数编码器-解码器或端到端系统仍然依赖于连续频谱或波形域中的直接回归。这种设计选择往往会导致频谱平滑,并限制了重建截断或严重失真的频段的能力。这激发了我们设计一种简洁高效的标记化编码器与基于FM的合成方法。
而最近的统一生成解决方案,如基于掩码的生成模型[21]、[22]、[23]、扩散系统[19]、[20]、[24],或混合生成-预测框架,虽然功能强大,但通常会带来相当大的计算和数据需求。
像AnyEnhance [23] 或 SEMamba [25] 这样的现代语音恢复系统可能具有令人印象深刻的通用性,能够处理去噪、去混响、削波、带宽扩展等任务,但它们通常依赖于大规模的预训练、复杂的提示或条件架构,或者密集的潜在建模,这阻碍了在设备上或资源受限环境中的轻量级部署。
一种有前景的设计[26]用于鲁棒语音恢复,将问题分为两个阶段:一个去噪阶段,将退化的波形映射为去噪后的频谱图表示;另一个合成阶段,根据这些表示生成高保真波形。这种分析-合成范式可以避免迫使模型直接在严重失真的频谱图上学习可逆映射,而是专注于从受损输入中提取与说话者和内容相关的显著标记,并从连续或低维表示中渲染干净波形。遵循这种两阶段哲学的著名先前工作包括VoiceFixer,它使用分析网络预测中间特征,并使用神经声码器合成恢复的波形,展示了分离恢复和波形生成的实际价值。
受到上述分析的启发,我们提出了一种新的语音恢复框架,该框架以标记化编码器和余弦重新参数化的FM合成器为中心。我们的方法旨在通过同时解决现实世界应用中的三个关键失败模式来广泛适用:采样率/带宽截断、部分频段被噪声掩蔽/衰减以及强烈的环境失真。
具体来说,该框架采用了一个编码器-标记器-嵌入流程。一个紧凑的标记编码器将退化的波形映射为连续的潜在嵌入,保留了关键的频谱线索——即使是从截断或掩蔽的频段中获得的——从而避免了使用CNN进行直接回归时典型的平滑伪影。随后,一个卷积余弦重新参数化的FM合成器将这些嵌入解码为高保真波形,能够在不需要大规模外部预训练的情况下实现联合带宽扩展(BWE)和去噪。这种设计有效地结合了基于标记的建模的表示鲁棒性和现代生成声码器的高合成质量,同时保持了适度的计算成本。
本工作的主要贡献总结如下:
•我们引入了一种专门设计的标记编码器,用于保留和表示来自实际采集的截断或噪声掩蔽的频谱证据,避免了连续域回归中常见的高频线索丢失。
•我们设计了一个卷积余弦重新参数化的FM合成器,作为一个高效的神经声码器,将处理后的嵌入映射为高质量波形,并实现联合去噪和带宽扩展(BWE),而无需广泛的预训练。
•我们在多种退化情况下进行了全面的评估(例如,带宽受限的输入、高噪声掩蔽)。结果显示,在与强基线的比较中,我们的框架在感知和客观指标上都有了一致的改进,同时与最近的大规模生成恢复模型相比,我们的框架明显更轻量级。