一种用于语音-视觉情感识别的有效两阶段关键帧提取方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：An effective two-stage key frame extraction method for speech-visual emotion recognition

【字体：大中小】 时间：2026年05月04日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要语音-视觉情感识别在人机交互应用中起着至关重要的作用。然而，这一领域通常面临若干挑战：（1）传统的语音-视觉关键帧（SVKF）提取方法容易产生冗余并丢失情感信息；（2）广泛采用的基于注意力的语音-视觉特征融合方法计算出的权重往往难以解释。为了解决这些挑战，本文提出了一种有效的

摘要

语音-视觉情感识别在人机交互应用中起着至关重要的作用。然而，这一领域通常面临若干挑战：（1）传统的语音-视觉关键帧（SVKF）提取方法容易产生冗余并丢失情感信息；（2）广泛采用的基于注意力的语音-视觉特征融合方法计算出的权重往往难以解释。为了解决这些挑战，本文提出了一种有效的两阶段关键帧提取方法用于语音-视觉情感识别。具体而言，在第一阶段，通过利用信息熵（IE）来模拟情感生成的连续过程，从而减少视觉帧的冗余，并同时提取相应的语音关键帧（SKFs），以消除语音模态中的冗余部分。随后，利用语音和视觉模态的互补特性，将第一阶段提取的SKFs和VKFs对齐，得到最终的第二阶段SVKFs，以保留重要的情感信息。此外，本文还提出了一种简单且易于解释的加权融合方法，用于处理关键的情感信息。在RML、eNTERFACE05、MEAD和BAUM-1s数据集上的实验结果表明，所提出的两阶段关键帧提取方法在推理和泛化性能方面表现更优。

联系信箱：

粤ICP备09063491号

摘要

热点排行