基于频率感知的选择性状态空间建模在音视频语音增强中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：Frequency-Aware Selective State-Space Modeling for Audio-Visual Speech Enhancement

【字体：大中小】 时间：2026年02月10日 来源：Digital Signal Processing 3

编辑推荐：

　　音频视觉语音增强通过整合频率感知的Mamba模块与轻量级多模态查询Transformer，实现高效跨模态特征融合与噪声抑制。摘要：提出FA-Mamba-AVSE架构，结合Frequency-Aware Mamba（FAM）处理频率敏感的时序建模，Multimodal Query Transformer（MQT）实现高效全局上下文建模，并引入交叉注意力门控融合机制动态调整多模态贡献，在保证性能的同时降低计算复杂度。

Nasir Saleem|Fazal E. Wahab|Sami Bourouis|Amir Hussain

巴基斯坦戈马尔大学工程与技术学院电气工程系，D.I.Khan-29050

摘要

视听语音增强通过利用听觉和视觉模式来提高语音的可懂度，尤其是在仅有音频的语音增强效果较差的嘈杂环境中。视觉线索提供了补充信息，有助于消除声学降级的语音信号中的歧义。变压器在实现强大的长距离依赖性建模的同时，其计算复杂度为二次方，这对实时应用来说是一个挑战。为了解决这一限制，本研究提出了一种新的架构，该架构将频率感知的Mamba（FAM）模块与多模态查询变压器（MQT）相结合作为瓶颈。FAM通过引入频率感知功能扩展了Mamba选择性状态空间模型（SSM），使其能够以线性复杂度高效地建模复杂的频谱-时间动态。MQT使用基于查询的注意力机制来选择性关注显著的跨模态特征，确保跨模态对齐。为了改进跨模态特征融合，本研究提出了一种跨注意力门控融合模块，取代了简单的串联方式。这种融合机制通过门控机制学习跨模态相关性，并动态调整视听线索的贡献，从而产生更具区分性和抗噪声能力的潜在特征。所提出的模型在质量和计算效率之间取得了有效的平衡。在基准数据集上的实验结果表明，在保持较低计算成本的同时，性能得到了显著提升。

引言

视听语音增强（AVSE）旨在通过联合利用听觉和视觉信息，从嘈杂的混合信号中恢复清晰可懂的语音。虽然仅基于音频的语音增强（AOSE）系统在适度噪声条件下表现良好[1]，[2]，[3]，[4]，但在实际低信噪比（SNR）环境中，例如存在多个说话者的情况下，它们常常面临挑战，因为声学证据会被严重掩盖和混淆。相比之下，诸如嘴唇动作和发音手势等视觉线索在这些情况下仍然具有信息价值，使得AVSE更加鲁棒。然而，大多数高性能的AVSE系统依赖于基于变压器的跨模态注意力[5]，其计算复杂度随序列长度呈二次方增长，对于长语音和实时应用来说成本较高。尽管像选择性状态空间模型（例如Mamba）这样的高效序列模型提供了线性时间建模能力，但它们缺乏明确的频率感知语音表示以及在视听对齐困难时的查询驱动全局跨模态细化功能。这些限制促使我们开发了一个在严重噪声下鲁棒、计算效率高、对频率敏感且能够选择性强调可靠线索同时抑制噪声的AVSE框架[6]，[7]，[8]，[9]。

卷积神经网络（CNN）被广泛用于AVSE中，以处理和转换音频和视觉特征[10]，[11]，因为它们的编码器能够提取捕捉关键空间和时间模式的高维表示，并通过分层结构支持多尺度特征学习和逐步细化[12]，[13]。特征提取后，音频和视觉流通常通过简单的串联[14]或更先进的基于注意力的融合机制[5]进行融合，然后将得到的多模态表示解码以重建增强后的语音。这些基于CNN的架构在学习和高效处理高维数据方面非常有效[15]，[16]，但在建模长距离时间依赖性方面往往存在困难，这对于同步音频和视觉线索在较长的语音片段中是必要的[17]。为了解决这个问题，通常在CNN编码器和解码器之间集成循环神经网络（RNN），包括LSTM[18]和GRU变体[19]，[20]，以捕捉帧间的时间相关性，使系统能够跟踪语音动态并保持上下文连续性[16]，[21]，[22]，[23]。最近，变压器作为强大的AVSE模型出现[5]，[24]，[25]，[26]，它们利用自注意力在整个序列中捕捉全局上下文，并将视觉线索（如嘴唇动作）与相应的音频帧对齐，从而在具有挑战性的噪声条件下显著提高性能。然而，尽管变压器在建模全局依赖性方面表现出色，但它们在捕捉与语音韵律相关的小时间动态方面可能存在困难，而且它们的二次方自注意力复杂度引入了显著的计算开销，这对实时和资源受限的AVSE应用构成了限制[27]。

早期的AVSE系统主要使用卷积和循环架构从音频和视频流中提取空间和时间特征[10]，[11]，[16]。尽管这些模型有效，但它们通常依赖于简单的串联或有限的跨模态交互，这限制了它们在长时间跨度内对齐视觉和声学结构的能力。最近的变压器在AVSE中表现出色，通过建模长距离依赖性和学习细粒度的跨模态相关性[5]，[24]。然而，它们相对于序列长度的二次方复杂度（

O (T^{2} < />

）带来了显著的计算负担，限制了它们在实时或资源受限环境中的适用性[27]。Mamba选择性状态空间模型（SSM）[28]原则上可以以线性复杂度捕捉局部和长距离依赖性，并在仅基于音频的语音处理中显示出良好的结果[29]。然而，在我们的初步实验中，我们发现仅使用Mamba处理融合的视听特征不足以充分利用全局跨模态关系。特别是，虽然Mamba在序列建模方面表现出色，但它没有明确实现基于查询的机制来根据多模态上下文重新加权特定时间片段。因此，我们将Mamba与一个轻量级的多查询变压器结合使用，后者以较低的代价提供了明确的全局上下文建模和选择性跨模态细化。

尽管有大量的研究[30]，但仍存在三个关键挑战尚未解决：(i) 基于变压器的AVSE架构虽然强大，但由于其二次方注意力机制而计算成本高昂，这限制了它们在嵌入式或实时系统中的应用。(ii) 现有系统通常使用串联或浅层注意力来融合音频和视觉特征，这无法完全捕捉模态之间的动态和上下文依赖关系。(iii) 语音高度依赖于频率——共振峰、谐波和噪声在不同频率带上的变化不同。大多数时间模型，包括标准的Mamba和变压器，都统一处理所有通道，未能将频谱动态明确纳入时间建模过程。这些限制表明需要一种在严重噪声下鲁棒、计算效率高、对频率敏感且能够选择性地强调可靠线索同时抑制噪声的AVSE架构[6]，[7]，[8]，[9]。

尽管卷积神经网络（CNN）在AVSE中广泛用于处理和转换音频和视觉特征[10]，[11]，因为它们的编码器能够提取捕捉关键空间和时间模式的高维表示，并通过分层结构支持多尺度特征学习和逐步细化[12]，[13]，但在特征提取后，音频和视觉流通常使用简单的串联[14]或更先进的基于注意力的融合机制[5]进行融合，然后将得到的多模态表示解码以重建增强后的语音。这些基于CNN的架构在学习和高效处理高维数据方面非常有效[15]，[16]，但在建模长时间依赖性方面往往存在困难，这对于同步音频和视觉线索在较长的语音片段中是必要的[17]。为了解决这个问题，通常在CNN编码器和解码器之间集成循环神经网络（RNN），包括LSTM[18]和GRU变体[19]，[20]，以捕捉帧间的时间相关性，使系统能够跟踪语音动态并保持上下文连续性[16]，[21]，[22]，[23]。最近，变压器作为强大的AVSE模型出现[5]，[24]，[25]，[26]，它们利用自注意力捕捉整个序列的全局上下文，并将视觉线索（如嘴唇动作）与相应的音频帧对齐，从而在具有挑战性的噪声条件下显著提高性能。然而，尽管变压器在建模全局依赖性方面表现出色，但它们在捕捉与语音韵律相关的小时间动态方面可能存在困难，而且它们的二次方自注意力复杂度引入了显著的计算开销，这对实时和资源受限的AVSE应用构成了限制[27]。

早期的AVSE系统主要使用卷积和循环架构从音频和视频流中提取空间和时间特征[10]，[11]，[16]。尽管这些模型有效，但它们通常依赖于简单的串联或有限的跨模态交互，这限制了它们在长时间跨度内对齐视觉和声学结构的能力。最近的变压器在AVSE中表现出色，通过建模长距离依赖性和学习细粒度的跨模态相关性[5]，[24]。然而，它们相对于序列长度的二次方复杂度（

O (T^{2} < />

）带来了显著的计算负担，限制了它们在实时或资源受限环境中的适用性[27]。Mamba选择性状态空间模型（SSM）[28]原则上可以以线性复杂度捕捉局部和长距离依赖性，并在仅基于音频的语音处理中显示出良好的结果[29]。然而，在我们的初步实验中，我们发现仅使用Mamba处理融合的视听特征不足以充分利用全局跨模态关系。特别是，虽然Mamba在序列建模方面表现出色，但它没有明确实现基于查询的机制来根据多模态上下文重新加权特定时间片段。因此，我们将Mamba与一个轻量级的多查询变压器结合使用，后者以较低的代价提供了明确的全局上下文建模和选择性跨模态细化。

尽管有大量的研究[30]，但仍存在三个关键挑战尚未解决：(i) 基于变压器的AVSE架构虽然强大，但由于其二次方注意力机制而计算成本高昂，这限制了它们在嵌入式或实时系统中的应用。(ii) 现有系统经常使用串联或浅层注意力来融合音频和视觉特征，这无法完全捕捉模态之间的动态和上下文依赖关系。(iii) 语音高度依赖于频率——共振峰、谐波和噪声在不同频率带上的变化不同。大多数时间模型，包括标准的Mamba和变压器，都统一处理所有通道，未能将频谱动态明确纳入时间建模过程。这些限制表明需要一种在计算效率、模态感知和频率敏感性方面都出色的AVSE架构。为了解决这些限制，我们提出了一种新的AVSE框架，该框架整合了三个协同工作的组件。所提出的AVSE框架整合了三个关键组件，旨在实现鲁棒性和效率。首先，跨注意力门控融合（CAGF）模块在音频和视觉特征之间执行双向跨注意力，并动态地控制它们的贡献，允许模型在一种模态变得不可靠时进行适应。其次，我们引入了频率感知的Mamba（FAM），这是选择性状态空间模型的扩展，其中状态动态基于瞬时频谱特征进行条件化，实现了强调语音主导频带的同时抑制噪声的频率敏感时间建模。最后，使用了一个轻量级的多查询变压器（MQT）作为紧凑的全局细化模块，提供了基于查询的长距离上下文建模，同时减少了计算开销。这些组件共同构成了一个在骨干部分保持线性时间效率（通过FAM）、改进全局上下文建模（通过MQT）并增强跨模态交互（通过CAGF）的AVSE架构。贡献总结如下：•

我们提出了一种架构，该架构将频率感知的Mamba模块与多查询变压器结合使用，通过频谱敏感性提高了状态空间模型的时间建模能力。该架构以线性复杂度捕捉局部时间-频谱依赖性，而共享的键值注意力机制则用于实现有效的跨模态对齐。

•

为了改进跨模态特征融合，该架构引入了一种跨注意力门控融合机制，取代了简单的串联方式。这种融合方案通过门控学习跨模态相关性，并动态调整音频和视觉线索的贡献，从而产生更具区分性和抗噪声能力的潜在特征。

•

所提出的架构作为潜在空间中的时间瓶颈，对融合特征进行细化。它选择性地建模短期和长距离依赖性，同时最小化计算成本。

本文的其余部分组织如下：第2节阐述了问题。第3节解释了所提出的AVSE。第4节介绍了实验。第5节讨论了结果。第6节总结了研究。

问题表述

设

Y ? R^{L}

表示长度为L的时域噪声音频空间，设

V ? R^{T_{v} \times H \times W \times C}

表示视觉输入，其中T_v是视频帧数，H和W是空间维度，C是通道数。给定一个噪声语音信号

y \in Y

及其对应的视频帧

v \in V

，AVSE学习一个函数

f : Y \times V \to S (y,v)

，其中

S ? R^{L}

是清晰语音的空间，s^是增强后的语音预测。为了获得频谱特征，音频信号通过短时傅里叶变换进行处理

提出的模型架构

图1展示了所提出的AVSE架构，该架构基于基线[5]。最小实现代码可在GitHub仓库[1]获取。

训练数据集

本研究使用GRID [31]、NTCD-TIMIT [32]和AVSEC3 [33]数据集来评估所提出的AVSE模型。GRID AV-Corpus是一个广泛使用的视听数据集，包含34位说话者（18位男性和16位女性）的录音，每位说话者大约说了1000个六个词的句子，总共约33,000条语音。音频以25 kHz的高质量采样率录制，而视频录制以每秒25帧的速率进行，确保了音频和视觉的同步

消融研究

表2展示了消融研究，展示了每个架构组件对性能和效率的贡献。仅基于音频的基线模型的PESQ为1.67，STOI为0.735，SI-SDR为0.35 dB，参数量为14.8 M，MACs为28.5 G/s，这代表了在没有视觉上下文的情况下的单模态下限。添加视觉输入后，PESQ提高到1.83，STOI提高到0.765，SI-SDR提高到1.94 dB（参数量为18.5 M，MACs为32.2 G/s），因为视觉特征

结论

本研究成功解决了在视听语音增强（AVSE）中平衡高性能和计算效率的关键挑战。我们提出了一种新的架构FA-Mamba-AVSE，有效地替换了计算成本高昂的变压器自注意力机制。我们的核心贡献在于频率感知的Mamba（FAM）和多查询变压器（MQT）的协同集成。

CRediT作者贡献声明

Nasir Saleem：概念化、方法论、软件、验证。Fazal E. Wahab：数据管理、撰写——原始草稿、形式分析。Sami Bourouis：软件、形式分析、撰写——审阅与编辑。Amir Hussain：监督、撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

作者声明以下财务利益/个人关系可能被视为潜在的竞争性利益：

Nasir Saleem于2008年从巴基斯坦佩沙瓦工程技术大学（UET）获得电信工程学士学位，2012年获得CECOS大学电气工程硕士学位，2021年获得电气工程博士学位，专攻数字语音处理和深度学习。他目前担任英国爱丁堡纳皮尔大学（ENU）的高级研究员，此前曾在

联系信箱：

粤ICP备09063491号

摘要

引言

问题表述

问题表述

提出的模型架构

训练数据集

消融研究

结论

CRediT作者贡献声明

利益冲突声明

热点排行