
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于语音-视觉情感识别的有效两阶段关键帧提取方法
《Scientific Reports》:An effective two-stage key frame extraction method for speech-visual emotion recognition
【字体: 大 中 小 】 时间:2026年05月04日 来源:Scientific Reports 3.9
编辑推荐:
摘要语音-视觉情感识别在人机交互应用中起着至关重要的作用。然而,这一领域通常面临若干挑战:(1)传统的语音-视觉关键帧(SVKF)提取方法容易产生冗余并丢失情感信息;(2)广泛采用的基于注意力的语音-视觉特征融合方法计算出的权重往往难以解释。为了解决这些挑战,本文提出了一种有效的
语音-视觉情感识别在人机交互应用中起着至关重要的作用。然而,这一领域通常面临若干挑战:(1)传统的语音-视觉关键帧(SVKF)提取方法容易产生冗余并丢失情感信息;(2)广泛采用的基于注意力的语音-视觉特征融合方法计算出的权重往往难以解释。为了解决这些挑战,本文提出了一种有效的两阶段关键帧提取方法用于语音-视觉情感识别。具体而言,在第一阶段,通过利用信息熵(IE)来模拟情感生成的连续过程,从而减少视觉帧的冗余,并同时提取相应的语音关键帧(SKFs),以消除语音模态中的冗余部分。随后,利用语音和视觉模态的互补特性,将第一阶段提取的SKFs和VKFs对齐,得到最终的第二阶段SVKFs,以保留重要的情感信息。此外,本文还提出了一种简单且易于解释的加权融合方法,用于处理关键的情感信息。在RML、eNTERFACE05、MEAD和BAUM-1s数据集上的实验结果表明,所提出的两阶段关键帧提取方法在推理和泛化性能方面表现更优。