MER-CAPF：通过交叉注意力机制和多粒度池化策略实现音频-文本情感识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：MER-CAPF: Audio-Text Emotion Recognition through Cross-Attention Mechanism and Multi-Granularity Pooling Strategy

【字体：大中小】 时间：2026年01月16日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　多模态情感识别框架MER-CAPF融合BERT与DSCNN+Bi-LSTM，采用交叉注意力机制与多粒度池化策略实现跨模态特征对齐与深度交互，在IEMOCAP、MELD和CMU-MOSEI上分别达到74.73%、63.26%和67.38%的准确率，优于多数现有方法。

陈成明|刘鹏远|董志成|何卓|李志坚

上海海洋大学，中国上海市浦东新区沪城环路999号，200127

摘要

在人机交互（HCI）领域，情感识别被认为是一项关键且具有挑战性的任务，这主要是由于其多模态特性以及数据采集的局限性。为了准确识别语音和文本等多模态情感信息，本文提出了一种新颖的多模态情感识别框架MER-CAPF（基于跨注意力与池化融合的多模态情感识别）。该框架采用了一个分层冻结的BERT模型和一个深度可分离卷积神经网络（DSCNN），并结合了双向LSTM（Bi-LSTM）分别从文本和音频模态中提取特征。在特征融合阶段，引入了多头跨注意力机制和多粒度池化策略，以充分捕捉跨模态的语义和声学关联。此外，模型还结合了并行模态编码器以及渐进式模态对齐机制，以实现语音和文本特征之间的协同对齐和深度交互。在三个公开基准数据集—IEMOCAP、MELD和CMU-MOSEI上进行的实验表明，MER-CAPF在IEMOCAP、MELD和CMU-MOSEI上的准确率分别为74.73%、63.26%和67.38%，优于大多数现有方法，并达到了与最新先进模型相当的水平，从而验证了所提出框架的有效性和鲁棒性。

引言

情感识别是人机交互（HCI）中的关键技术[1]，它使智能系统能够理解用户的情感状态。传统的单模态方法——无论是基于文本、语音还是面部表情——都受到语义模糊性和缺乏上下文信息的限制。情感是主观且复杂的，通常受到性格、态度和文化等因素的影响[2]。为了克服这些挑战，多模态情感识别（MER）整合了来自多个模态的数据，提高了识别准确性和系统的鲁棒性。

语音作为一种自然且高效的情感信号，在多模态情感识别中起着至关重要的作用。语音情感识别（SER）模型可以从语音信号中分类情感状态，被认为是人机交互中的核心技术[3]。情感特征的选择直接影响识别性能。近年来，深度学习推动了SER向混合建模方法的发展。例如，Andayani等人[4]结合了LSTM和Transformer来提取基于MFCC的时频特征。Zhang等人[5]使用预训练的AlexNet获取三通道对数梅尔频谱特征，并应用DTPM进行全局融合。Chen等人[6]整合了CNN、BiLSTM和多头注意力来捕捉多层次的帧特征，从而提高了情感表示的精确度和区分度。

基于文本的情感识别（TER）对于揭示用户的语义意图至关重要，在自然语言处理（NLP）领域受到了越来越多的关注[1]。得益于预训练的语言模型，TER取得了显著进展。Devlin等人[7]引入了BERT，通过双向上下文学习超越了传统模型。Cai等人[8]进一步将BERT与Bi-LSTM结合，以捕捉时间动态。在此基础上，Makhmudov等人[9]提出了一个多模态框架，整合了基于CNN的音频特征、BERT衍生的文本特征和基于注意力的融合，从而提高了准确性和鲁棒性。

然而，情感是通过多种感知渠道传达的，单模态信息往往不足以进行全面识别。Priyasad等人[10]使用SincNet和DCNN对原始音频进行建模，同时为文本设计了DCNN和Bi-RNN+DCNN分支，并在Bi-RNN中加入跨注意力来捕捉n-gram依赖性。Krishna等人[11]结合了CNN-BiLSTM和GloVe-CNN处理音频和文本，并通过跨模态注意力进行对齐。这些工作共同表明，多模态整合对于推进情感识别至关重要。

为了解决单模态情感识别的局限性，本研究提出了一种双模态融合模型，该模型提高了建模效率和准确性。通过结合多头跨注意力机制和多尺度池化策略，模型从音频和文本输入中捕获互补特征。它独立地对每个模态进行编码，通过跨注意力对特征进行对齐，并对情感进行分类。主要贡献如下：

•

双模态识别模型的构建：所提出的模型以语音和文本作为输入，分别使用特定于模态的编码器提取语义和声学特征。采用多头跨注意力机制实现跨模态对齐。结合多尺度池化策略进行特征压缩和增强，然后应用双路径分类器来预测情感状态。

•

渐进式模态对齐（PMA）：为了提高多模态对齐的鲁棒性，我们引入了PMA机制，该机制逐步限制跨模态表示的分布，引导模型学习模态不变的共享特征。这有效地缓解了模态偏移并提高了跨模态适应性。

•

模型评估：在IEMOCAP、MELD和CMU-MOSEI上的实验表明，所提出的模型比现有的融合方法具有更高的准确率，验证了其有效性。

本文的其余部分组织如下：第2节回顾了相关研究；第3节详细描述了所提出的双模态情感识别算法；第4节介绍了数据集、实验结果和讨论；第5节总结了本文并指出了未来工作的方向。

方法论

在本文中，我们提出了一种新颖的多模态情感识别框架MER-CAPF，其中MER表示多模态情感识别（Multimodal Emotion Recognition），CA代表跨注意力（Cross-Attention），PF表示池化融合（Pooling Fusion）。整体架构如图1所示。在音视频融合实验中，特征是并行提取的：音频分支使用CNN+Bi-LSTM捕捉时间声学模式，而文本分支使用BERT获取上下文语义。多头跨注意力机制

数据集

为了评估所提出的模型，我们使用了三个基准数据集。IEMOCAP[25]提供了带有九种标注情感的音频、视频和文本记录，从中选择了六种常见类别（愤怒、快乐、兴奋、悲伤、沮丧、中立）。MELD[26]包含约13,000条带有七种基本情感标注的语音记录，广泛用于多模态识别。MOSEI[27]从YouTube收集了超过1,000位说话者的数据，包括情感极性和情感类别的标注

结论

本文提出了一种音视频多模态情感识别框架，该框架将深度可分离卷积网络与分层冻结的BERT编码器相结合。通过利用非对称跨模态注意力机制和渐进式梯度调节策略，所提出的框架实现了稳定且鲁棒的特征融合。在IEMOCAP、MELD和CMU-MOSEI数据集上的实验结果表明，该方法表现出强大的有效性和泛化能力

CRediT作者贡献声明

陈成明：撰写——原始草稿，资源获取，方法论，概念化。刘鹏远：撰写——原始草稿，资源获取，概念化。董志成：撰写——原始草稿，数据管理，概念化。何卓：撰写——审稿与编辑，撰写——原始草稿，资源获取，项目管理。李志坚：撰写——审稿与编辑，撰写——原始草稿，资金获取，概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金的重大研究仪器开发项目（62027810）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法论

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题