基于共享变压器的跨注意力融合方法在音视频情感识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Speech Communication》：Cross-attention fusion for audio-visual emotion recognition with shared transformer

【字体：大中小】 时间：2026年01月27日 来源：Speech Communication 3

编辑推荐：

　　针对传统多模态情感识别方法融合不足的问题，本文提出CAMS框架，集成跨注意力机制、辅助网络、多头注意力与共享Transformer，通过跨模态交互融合和单模态特征增强机制提升识别精度，并设计噪声注入与特征丢弃策略增强鲁棒性。实验表明在RAVDESS和CREMA-D数据集上准确率达89.78%和80.23%，显著优于现有方法。

雷建军|叶凯|王颖

重庆邮电大学计算机科学与技术学院，中国重庆400065

摘要

准确识别情绪状态有助于实现自然的人机交互。然而，传统的多模态情感识别方法由于未能充分整合多种模态特征，通常识别精度较低。本文提出了一种创新的多模态情感识别框架，包含四个关键要素：跨注意力（Cross-attention）、辅助网络（Auxiliary network）、多头注意力（Multi-head attention）和共享Transformer（Shared Transformer），简称CAMS。共享Transformer利用辅助网络中的单模态特征在特征融合过程中优化注意力机制，从而防止模型忽略重要的情感信息并提升特征交互效果。此外，我们引入了跨注意力机制来连接音频和视频编码器的多模态特征。在训练过程中，我们还采用了噪声注入和特征丢弃技术，模拟现实世界中的挑战，如噪声干扰和模态缺失。我们在RAVDESS和CREMA-D数据集上的实证评估表明，CAMS的性能优于现有方法，平均准确率分别为89.78%和80.23%。

引言

人工智能（AI）的快速发展正在革新人机交互，其中情感智能成为这一领域的重要因素（Wani等人，2021年）。准确理解用户情绪有助于制定更细致的交互策略，并显著提升用户对AI系统的满意度。除了改善用户体验外，情感识别技术在医疗、教育和娱乐等多个领域具有深远意义（Ma等人，2022年；Li等人，2021年；Kumar等人，2022年）。目前，大多数情感识别研究主要依赖于单模态表示，如面部表情、语音或文本（Zhang等人，2019年；Mustaqeem和Kwon，2019年；Badshah等人，2019年；Sun等人，2019年；Batbaatar等人，2019年）。尽管这些方法在特定场景和条件下表现出有效性，但人类情绪的复杂性常常对准确性、鲁棒性和泛化能力构成挑战（Wang等人，2022年）。人类情感表达中面部表情、语音和肢体语言的同步使用需要更复杂的多模态方法来捕捉多样化的特征，从而提升情感识别系统的有效性和适用性。

近年来，由于深度神经网络（DNN）在特征提取和数据建模方面的卓越能力，各种深度神经网络架构在推进多模态情感识别方法方面发挥了重要作用（Hossain和Muhammad，2019年；Santoso等人，2021年）。然而，现有方法往往忽视了不同模态之间的复杂情感线索。此外，跨模态特征的简单拼接常常掩盖了这些特征之间的内在依赖性，这可能显著影响模型性能。此外，大多数当前的多模态情感识别方法基于理想化条件，忽略了噪声干扰和数据丢失问题。在获取真实世界的音视频数据时，这些挑战普遍存在。因此，将这些复杂性纳入模型中也至关重要。

在本文中，我们提出了一种端到端的多模态情感识别模型CAMS，该模型利用音频和视频数据，包含四个关键要素：跨注意力、辅助网络、多头注意力和共享Transformer。为了实现多模态特征的深度整合，我们引入了一种新颖的跨模态交互融合技术。此外，我们提出了共享Transformer，它通过利用辅助网络中的单模态特征来丰富特征表示，从而增强特征的表现力和区分度。为了提升模型的鲁棒性和实际应用能力，我们提出了一种创新的训练策略，包括噪声注入和特征丢弃，以模拟环境噪声和模态缺失的场景。我们的主要贡献如下：

我们提出了一种新颖的跨模态交互框架，采用混合注意力-Transformer架构实现音频和视频模态之间的深度双向特征交互。具体而言，我们引入了跨注意力机制，动态融合多模态特征，捕捉了传统拼接或加性融合方法常忽略的复杂跨模态依赖性。
我们设计了共享Transformer模块，通过辅助网络整合单模态特征。这种设计在跨模态交互过程中平衡了注意力分布，防止模型过度拟合交互信息，同时保留关键的单模态情感线索，从而增强特征的鲁棒性和区分度。
我们提出了一种结合随机噪声注入和模态丢弃的新型联合训练策略，以模拟现实世界中的不完美条件。这种方法显著提高了模型对噪声输入和模态缺失的鲁棒性，增强了其在复杂场景中的实用性。

本文的其余部分安排如下：第2节回顾相关文献，第3节详细阐述我们的方法论，第4节介绍实验设置和结果，第5节总结本文。

多模态情感识别方法主要致力于整合不同模态的信息，以提高情感识别的准确性和鲁棒性。同时，不同模态特征的有效交互和融合无疑是这些方法的核心问题（Praveen等人，2022年）。接下来，我们将介绍特征交互和特征融合的最新研究进展。

方法论

本节概述了CAMS的整体架构，并详细介绍了其核心模块，包括特征提取、跨注意力、辅助网络、多头注意力和共享Transformer。

实验与结果

在本节中，我们首先介绍了两个广泛使用的多模态情感识别数据集：RAVDESS（Livingstone和Russo，2018年）和CREMA-D（Cao等人，2014年）。随后，我们通过与其他最新方法进行比较来验证CAMS的性能。此外，我们报告了每个情感类别的F1分数（F1），以提供更细致的分析。最后，我们通过消融实验和可视化实验进一步验证了我们方法的有效性。

结论

本文提出了一种新颖的端到端多模态情感识别模型，该模型直接从原始音频和视频数据中提取特征。我们的模型利用多头注意力、Transformer和跨注意力机制来交互和融合音频和视频特征。一个关键贡献是共享Transformer，它整合了辅助网络中的单模态信息，平衡了Transformer在特征交互和融合网络中的关注点，从而提升了模型的性能。

CRediT作者贡献声明

雷建军：撰写 – 审稿与编辑、项目管理、方法论、概念构建。叶凯：撰写 – 初稿撰写、软件开发、方法论、概念构建。王颖：撰写 – 审稿与编辑、可视化处理、方法论、概念构建。

数据和代码获取

本研究生成或分析的数据集可在以下链接获取：https://paperswithcode.com/dataset/ravdess和https://github.com/CheyneyComputerScience/CREMA-D。所有实验的源代码可在https://github.com/lisunshine1/CAMS获取。

资助

本研究得到了重庆市教育委员会重点合作项目（项目编号：HZ2021008）和重庆市教育委员会研究生教育与教学改革研究项目（项目编号：yjg223087）的支持。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

方法论

实验与结果

结论

CRediT作者贡献声明

数据和代码获取

资助

利益冲突声明

热点排行