《Digital Signal Processing》:Sound event localization and detection based on multi-scale attentional feature fusion
编辑推荐:
本文针对CRNN模型特征提取不足及忽略特征重要性差异的问题,提出多尺度注意力特征融合网络(MSAFFN),结合多尺度卷积、注意力机制与Conformer模块,增强特征表示能力并建模长距离时序依赖,实验表明在TNSSE2021和STARSS23数据集上,MSAFFN在检测与定位指标上均显著优于基线模型。
Juan Wei|Tianyu Gao|Fangli Ning
西安电子科技大学通信工程学院,中国西安710071
摘要
作为声音事件定位与检测(SELD)中最流行的模型之一,卷积循环神经网络(CRNN)通过结合卷积神经网络的局部平移不变性和循环神经网络的上下文建模能力,展现了良好的性能。然而,它存在特征提取不足和忽略特征重要性差异的问题。在本文中,我们基于CRNN模型提出了一种多尺度注意力特征融合网络(MSAFFN),该网络结合了多尺度卷积和注意力特征融合,并利用了Conformer模块。该模型在关注重要信息的同时捕获了更丰富的特征,从而提高了SELD的性能。在TNSSE2021数据集和STARSS23数据集上的实验结果表明,与CRNN模型相比,所提出的模型在检测和定位指标上都有显著提升,联合SELD误差也显著降低,充分证明了所提模型在特征增强方面的优越性。
引言
声音事件定位与检测(SELD)旨在检测声音事件的类别和活动时间,以及估计它们的到达方向(DOA)。SELD由两个子任务组成:声音事件检测(SED)和声源定位(SSL)[1]。SELD在许多领域具有广泛的应用前景,如自动驾驶[2]、智能家居[3]和生物多样性监测[4],使得交互和决策更加智能和人性化。因此,研究高效的SELD具有重要的实际意义。然而,在现实世界场景中,声学环境往往非常复杂,存在强烈的混响、非平稳的背景噪声、移动的声源以及多个重叠的声音事件。一个有效的SELD系统不仅需要识别和定位多个同时发生的事件,还需要在多样化和恶劣的声学条件下保持鲁棒性,这对学习到的特征的丰富性和鲁棒性提出了严格要求。
传统上,SED和SSL是分开处理的。SED通常使用监督分类方法来预测声音事件的类别,例如高斯混合模型(GMM)[5]和隐马尔可夫模型(HMM)[6]。然而,这些方法在处理声音事件重叠问题时存在困难。为了解决这个问题,提出了非负矩阵分解(NMF)[7],但该方法忽略了声音事件的时间相关性,导致检测性能不令人满意。SSL方法可以分为波束成形[8]、高分辨率谱估计[9]和TDOA[11]。然而,这些方法在噪声环境中表现不佳,表现为特征表示差、准确率低和误差大。
随着神经网络(NN)在各个领域的快速发展,基于NN的方法在SELD中也展现了优越的性能。2018年,Adavanne等人[12]提出了基于卷积循环神经网络(CRNN)的SELDNet模型。该模型首次实现了多个重叠声音事件的同时定位、识别和跟踪。CRNN利用卷积神经网络(CNN)提取局部特征,利用循环神经网络(RNN)整合时间上下文信息,并已广泛应用于多个领域,如SED[13]、SSL[14]、文本识别[15]和情感识别[16]。自2019年以来,声音场景与事件检测与分类(DCASE)竞赛将SELD作为任务之一,吸引了全球学者的关注和参与。Cao等人[17]提出了一种两阶段方法,其中SED网络和DOA估计网络分别训练后进行交互。这种方法优于联合训练的CRNN。Sudarsanam等人[18]提出了一种用多头自注意力(MHSA)模块替换CRNN中的RNN的模型,性能显著提升。Shul等人[19]提出了分裂谱时域(DST)注意力机制,在MHSA之前引入了独立的谱注意力层,提前聚合频率特征,从而减轻了SELD中对时间建模的过度依赖问题。Huang等人[20]提出了Swg-former,将音频转换为图表示,并结合图卷积网络和MHSA共同捕获时空信息,以提高SELD性能。Shimada等人[21]提出了Sph-Cap函数,用于音频数据中目标声音事件的方向校正,增强了输入特征的空间信息,有效提高了定位性能。Bai等人[22]用ResNet替换了CRNN模型中的CNN,使模型能够学习更深层次的特征信息。尽管上述方法通过CNN获得了良好的特征提取能力,但在音频片段中,由于声音事件的复杂性和随机性,它们的持续时间和频率特征是独特的,也可能存在相同类型的声音事件。传统的固定大小卷积核的特征提取能力有限[23],难以在单一尺度上全面描述特征的内在属性,这显然限制了SELD模型的性能。
为了充分捕获声音事件的时间-频率特性,多尺度特征融合可以增强深度嵌入表示的分辨率[24],从而加强声音特征的表现和模型在复杂声学环境中的性能。多尺度特征融合方法整合了不同层次或分支的特征,丰富了局部特征与全局特征之间的关系,并广泛应用于许多领域。Szegegy等人[25]提出的GoogleNet使用不同大小的多个卷积核在不同感受野下获取特征信息。特征金字塔网络(FPN)[26]和U-Net[27]通过跳跃连接将低级特征与高级特征融合,以获得高分辨率特征。Lee等人[28]结合了多级和多尺度特征,有效应用于自动音乐标注。Sun等人[29]通过结合DenseNet的密集连接和膨胀卷积提出了多尺度特征提取器,并通过连接实现了不同尺度的特征融合。然而,这些方法通过简单的操作(如连接或固定权重求和)实现多尺度特征融合,导致信息冗余和忽略特征重要性差异,这可能影响复杂声学场景中的SELD性能。
最近,基于Transformer[30]的模型在SELD任务中展示了令人印象深刻的能力。Park等人[31]提出了Many-to-Many音频频谱Transformer(M2M-AST),这是一种纯Transformer-based的SELD模型,引入了多个分类令牌以实现灵活的输出分辨率。Shul等人[32]提出了Channel-Spectro-Temporal Transformer(CST-former),这是一种应用于SELD的Transformer框架,对通道、谱和时间域应用独立的注意力,并通过展开的局部嵌入增强特征建模。然而,纯Transformer由于自注意力机制导致计算和内存成本迅速增加,并且在捕获局部时间-频率特征方面效果较差。因此,增强局部时间-频率模式的建模可以进一步提高SELD的整体性能。
因此,现有的基于CRNN的SELD方法仍然难以处理现实且高度动态的声学场景,这激励我们设计一种新的架构,该架构能够学习更丰富的时频表示,自适应地强调信息特征,并更有效地建模长距离时间依赖性。为了应对这些挑战,我们提出了一种基于CRNN模型的多尺度注意力特征融合网络(MSAFFN)。该模型由三个主要部分组成:用于提取更丰富和有用特征的特征提取部分、用于整合时间上下文信息的Conformer模块以及预测输出部分。本文的主要贡献如下。
(1)我们设计了一个多尺度特征提取(MSFE)模块,该模块结合了多尺度卷积和残差连接,以在不同感受野下获取局部特征。这种设计实现了特征信息的跨层传输和丰富性,缓解了深度网络中梯度消失或爆炸的问题。
(2)我们建议在MSFE模块中添加注意力特征融合(AFF)模块,以动态融合不同尺度的特征。这样,模型可以关注关键的时间-频率区域,同时抑制冗余或不太相关的信息,从而增强在复杂声学场景中区分目标声音事件和干扰的能力。
(3)我们构建了一个多尺度注意力特征融合网络(MSAFFN),能够提取高级特征并建模长距离的上下文依赖性。通过对TNSSE2021数据集和SRARSS23数据集的评估,实验结果表明,该模型能够充分描述声音事件的时间-频率特性,专注于特征的重要部分。
本文的其余部分结构如下。第2.2节介绍了提出的MSAFFN模型及其组成部分。第2.3节描述了实验设置和评估指标。第2.4节报告并讨论了实验结果,包括与现有方法的比较、消融研究和可视化分析。最后,第2.5节总结了本文并概述了未来的工作。
部分摘录
总体框架
由于CRNN模型是SELD中最广泛使用的网络结构之一[12],因此被选为基线模型。CRNN模型由两个主要部分组成:CNN和RNN。CNN包括三个连续的卷积块和最大池化层,每个块中都有一个3×3大小的卷积核用于特征提取。RNN使用两层双向门控循环单元(Bi-GRU)来整合特征信息。最后,预测结果通过两个
数据集
我们在DCASE2021提供的TNSSE2021数据集上进行了实验,并选择了FOA空间记录格式。该数据集的开发集包括400个、100个和100个60秒的音频文件,分别用于训练、验证和测试。声音事件样本总共包含14个类别,其中12个被标记为目标声音事件,其余的未标记,被视为干扰。特别是,TNSSE2021数据集涵盖了13个不同的房间
比较实验
为了分析所提出的MSAFFN模型在声音事件检测和定位方面的效果,我们与CRNN[38]、CNN-MHSA[18]、Sph-Cap[21]、ResNet-GRU[22]、M2M-AST[31]、CST-former[32]和DST Attention[19]进行了比较实验。表3显示了实验结果。
如表3所示,ResNet-GRU模型使用ResNet作为骨干网络,并引入了残差块来缓解梯度消失的问题,实现了SELD
结论
针对CRNN模型中特征提取能力不足和忽略特征重要性差异的问题,我们提出了MSAFFN模型,该模型可以利用MSFF模块和Conformer模块来增强特征表示并捕获长距离的全局上下文,并动态融合不同层次和尺度的特征以关注重要特征。实验结果验证了所提出的MSAFFN的有效性,并证明了
CRediT作者贡献声明
Juan Wei:概念化、数据整理、验证、撰写 – 审稿与编辑。Tianyu Gao:方法论、软件、形式分析。Fangli Ning:可视化、撰写 – 审稿与编辑。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
Juan Wei分别于1999年和2002年在中国的西安西北工业大学获得硕士和博士学位。她目前是西安电子科技大学通信工程学院的教授,她的研究兴趣包括宽带无线通信和通信信号处理。