通过连续令牌建模结合归一化流匹配合成技术实现语音联合修复与带宽扩展：一种简化的分析-合成流程

【字体：大中小】 时间：2026年03月11日 来源：Digital Signal Processing 3

编辑推荐：

　　语音修复与带宽扩展的流线化分析-合成框架，采用Transformer编码器实现退化波形到连续标记的映射，结合Flow Matching合成器重建高保真波形，有效处理非平稳噪声、带宽截断和频谱掩蔽等多重退化问题，模型轻量且性能接近大型生成模型。

Miaomiao Gao|Xiaojuan Zhang|Xiaoxiao Xiang

中国科学院航空航天信息研究所，中国科学院电磁辐射与传感技术重点实验室，北京，100190，中国

摘要

现实世界中的语音信号经常受到非平稳噪声、带宽截断和频谱掩蔽等同时发生的退化的影响，这些因素会降低语音的感知质量以及后续处理的效果。传统的单一任务方法无法解决这类复合失真问题，而最近的生成式方法通常需要较高的计算资源。本文提出了一种简化的分析-合成流程，用于语音恢复和带宽扩展。我们的框架采用基于Transformer的音频编码器，将退化的波形映射为连续的标记化表示，通过在将波形输入Transformer模块之前将其频谱分割成标记来实现这一点，从而提供了一种比传统的基于频谱图的编码方法更紧凑且抗伪影的替代方案。随后，重新参数化的Flow Matching合成器通过稳定的学习轨迹重建高保真波形。实验结果表明，所提出的方法在多个指标上都具有竞争力。值得注意的是，该方法在VCTK-Simulated数据集上的NISQA-MOS得分为4.40，超过了SEMamba的3.91分，并且与AnyEnhance的4.18分非常接近，尽管其模型架构要紧凑得多。该方法在盲带宽扩展方面也表现出色，能够在没有大规模外部预训练的情况下恢复高频内容。消融研究验证了Flow Matching公式和辅助损失设计的贡献。这项工作为多退化语音恢复提供了一种高效且具有竞争力的替代方案。

引言

在具有挑战性的声学环境中捕获的现实世界语音经常受到多种同时发生的退化的影响，例如交通和风产生的强烈非平稳噪声[1]、由于采集链限制导致的带宽截断[2]，以及高频内容被噪声丢失或掩盖的部分频谱掩蔽[2]。这些失真会降低人类的语音感知质量以及自动语音技术的下游处理性能，它们在户外麦克风、电话前端和资源有限的传感设备等实际应用中经常同时出现。传统的单一任务增强方法难以有效处理这种复合失真；同样，许多时频掩蔽或端到端的卷积神经网络（CNN）解决方案倾向于保留和平滑连续的受损频谱模式，而不是显式重建缺失的高频或截断的频段。

语音恢复和增强的一种广泛采用的范式是编码器-解码器框架，其中分析网络从退化的输入中提取潜在表示，然后合成或重建网络预测干净的语音信号。早期的深度模型，如SEGAN [3] 和 DCCRN [4]，建立了直接在波形或频谱图上操作的完全卷积编码器-解码器架构，实现了强大的去噪性能，但往往难以恢复丢失的高频信息。后续的时域模型，如Conv-TasNet [5]，进一步证明了端到端波形映射的可行性，而更近期的架构如MetricGAN+ [6] 则集成了对抗性目标以提高感知质量。

采用交叉注意力进行语音增强（SE）的方法也被证明非常有效，先前的研究已经证明了这一点[7]，并且注意力增强的循环框架在复杂的频谱域中也显示出更优越的噪声抑制性能[8]

同样，将自注意力和多头上下文建模集成到Transformer架构中，使网络能够更好地捕捉传统或循环架构通常无法表示的全局频谱-时间相关性。一系列研究已经证明了这些优势。

例如，混合卷积-Transformer架构已被用于提高语音可懂度恢复[9]，并通过交叉注意力机制进行单通道增强[10]。同时，基于Conformer的模型，如GD-Conformer，利用门控密集编码器-解码器设计在单声道增强方面实现了最先进的性能[11]。除此之外，各种基于Transformer的方法——包括那些专注于高效长上下文建模[12]、多域特征融合[13]，以及专为离线和实时处理设计的架构[14]、[15]、[16]——进一步推动了该领域的发展。

受到这些发现的启发，我们旨在构建一个将输入波形映射为标记序列的标记器，然后将其转换为嵌入以供后续建模使用的框架。基于这一概念，我们采用基于Transformer的音频编码器来处理这些标记化表示，利用注意力机制在时间和频率上整合上下文线索。这种设计为鲁棒的语音恢复和带宽扩展（BWE）提供了一个统一且灵活的框架。

与此同时，基于扩散[17]和Flow Matching（FM）[18]的生成增强方法通过学习迭代去噪轨迹展示了令人印象深刻的能力，尽管通常伴随着较高的计算成本。例如，StoRM [19]采用了一种随机再生策略，其中预测模型输出指导进一步的扩散，以减少扩散步骤的数量同时保持输出的质量。

最近，一种预训练特征引导的扩散模型[20]将频谱嵌入集成到受VAE启发的潜在空间中，并使用确定性采样器来加速收敛，减轻了与扩散模型通常相关的一些计算负担。

尽管有这些进步，大多数编码器-解码器或端到端系统仍然依赖于连续频谱或波形域中的直接回归。这种设计选择往往会导致频谱平滑，并限制了重建截断或严重失真的频段的能力。这激发了我们设计一种简洁高效的标记化编码器与基于FM的合成方法。

而最近的统一生成解决方案，如基于掩码的生成模型[21]、[22]、[23]、扩散系统[19]、[20]、[24]，或混合生成-预测框架，虽然功能强大，但通常会带来相当大的计算和数据需求。

像AnyEnhance [23] 或 SEMamba [25] 这样的现代语音恢复系统可能具有令人印象深刻的通用性，能够处理去噪、去混响、削波、带宽扩展等任务，但它们通常依赖于大规模的预训练、复杂的提示或条件架构，或者密集的潜在建模，这阻碍了在设备上或资源受限环境中的轻量级部署。

一种有前景的设计[26]用于鲁棒语音恢复，将问题分为两个阶段：一个去噪阶段，将退化的波形映射为去噪后的频谱图表示；另一个合成阶段，根据这些表示生成高保真波形。这种分析-合成范式可以避免迫使模型直接在严重失真的频谱图上学习可逆映射，而是专注于从受损输入中提取与说话者和内容相关的显著标记，并从连续或低维表示中渲染干净波形。遵循这种两阶段哲学的著名先前工作包括VoiceFixer，它使用分析网络预测中间特征，并使用神经声码器合成恢复的波形，展示了分离恢复和波形生成的实际价值。

受到上述分析的启发，我们提出了一种新的语音恢复框架，该框架以标记化编码器和余弦重新参数化的FM合成器为中心。我们的方法旨在通过同时解决现实世界应用中的三个关键失败模式来广泛适用：采样率/带宽截断、部分频段被噪声掩蔽/衰减以及强烈的环境失真。

具体来说，该框架采用了一个编码器-标记器-嵌入流程。一个紧凑的标记编码器将退化的波形映射为连续的潜在嵌入，保留了关键的频谱线索——即使是从截断或掩蔽的频段中获得的——从而避免了使用CNN进行直接回归时典型的平滑伪影。随后，一个卷积余弦重新参数化的FM合成器将这些嵌入解码为高保真波形，能够在不需要大规模外部预训练的情况下实现联合带宽扩展（BWE）和去噪。这种设计有效地结合了基于标记的建模的表示鲁棒性和现代生成声码器的高合成质量，同时保持了适度的计算成本。

本工作的主要贡献总结如下：•

我们引入了一种专门设计的标记编码器，用于保留和表示来自实际采集的截断或噪声掩蔽的频谱证据，避免了连续域回归中常见的高频线索丢失。

•

我们设计了一个卷积余弦重新参数化的FM合成器，作为一个高效的神经声码器，将处理后的嵌入映射为高质量波形，并实现联合去噪和带宽扩展（BWE），而无需广泛的预训练。

•

我们在多种退化情况下进行了全面的评估（例如，带宽受限的输入、高噪声掩蔽）。结果显示，在与强基线的比较中，我们的框架在感知和客观指标上都有了一致的改进，同时与最近的大规模生成恢复模型相比，我们的框架明显更轻量级。

方法片段

提出的方法

在本节中，我们提出了一个统一的轻量级编码器-合成框架，如图1所示，用于解决任意带宽语音恢复和扩展的问题。基于卷积的模型在应用于任意BWE时，经常由于输入频谱图中的突然截断而产生边界伪影，这会破坏学习到的特征表示的连续性。之前的研究试图通过复杂的方法来减轻这些伪影

数据集

所有实验方法都遵循统一的数据集构建协议。基线模型使用其原始实现中的确切数据配置。我们的方法仅在VCTK语料库[37]上进行训练，该语料库包含110名英语说话者，分为：8名用于标准测试，2名用于去噪评估，其余用于训练。增强包括：通过频谱减法从VCTK-Demand [38]获取的噪声轮廓，以及来自40,000个合成房间混响（22,050个）的混响

基线系统比较

我们对比评估了几种代表性的SE方法，包括WaveUNet [41]、TFNet [42]、SEANet [43]、2Stage-GAN和2Stage-DM。这些架构进一步进行了调整以确保可控的比较。为了进一步评估生成性能，我们重新实现了两阶段GAN基线，称为2Stage-GAN，通过集成DeepFilterGAN [44]、[45]的过滤架构。

讨论

实验结果表明，我们的简化分析-合成流程在各种条件下都能有效提升语音质量，但也暴露出某些局限性；虽然在多噪声和截断环境中表现稳健，但在极端高信噪比（SNR）条件下表现不佳，信号损失较大，这与AnyEnhance类似，可能是由于Transformer编码在保留细微声学特征方面的局限性。

结论

我们提出了一个高效的分析-合成框架用于语音恢复。通过将基于Transformer的编码与非线性FM结合，我们的模型有效地缓解了现实世界中的退化问题，包括噪声、带宽限制和频谱掩蔽，实现了与最先进方法相当的性能。该框架通过鲁棒的盲带宽扩展（BWE）和去噪得到了验证，提供了一个在性能和计算效率之间取得平衡的实际解决方案。

未引用的浮点数

图2。

CRediT作者贡献声明

Miaomiao Gao：概念化、方法论、软件、验证、形式分析、调查、数据管理、写作——原始草稿、可视化、项目管理。Xiaojuan Zhang：概念化、形式分析、调查、可视化、写作——审阅与编辑。Xiaoxiao Xiang：概念化、形式分析、资源管理、数据管理、写作——审阅与编辑。

利益冲突声明

作者声明没有利益冲突。

摘要

引言