Emo-STCapsNet：一种结合时空建模与改进版CapsNet的语音情感识别方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Emo-STCapsNet: A spatio-temporal modeling approach with enhanced CapsNet for speech emotion recognition

【字体：大中小】 时间：2026年02月04日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　语音情感识别中时空特征提取与胶囊网络融合的研究，提出Emo-STCapsNet模型，通过动态激活块捕捉多尺度时序特征，双流注意力融合时空信息，注意力增强胶囊网络建模情感特征空间层次关系。实验在IEMOCAP、EMODB和CASIA数据集上验证，准确率分别达71.86%、93.46%、87.92%，显著优于传统方法。

范永红|黄海明|张慧云|周子琪

青海师范大学计算机学院，中国西宁，810008

摘要

语音情感识别（SER）旨在使计算机能够准确识别嵌入在语音信号中的情感状态，这是人机交互中的一个关键领域。有效的时空特征提取对于SER至关重要，它能够捕捉一致的情感模式，同时最小化不同情感之间的差异。然而，现有方法在学习全面的时空特征方面往往存在不足。为了解决这个问题，提出了一种基于增强型胶囊网络（CapsNet）的时空建模方法Emo-STCapsNet。该方法整合了四个组件：一个时间动态激活模块（TDAB），用于捕捉多尺度的时间变化；一个双流注意力融合模块（TsAF），用于整合过去和未来的上下文以建立全局情感表示；一个卷积模块，用于从双向时间表示中提取高级特征；以及一个增强注意力的CapsNet，它利用向量化实体表示和动态路由机制，比传统的CNN方法更有效地捕捉情感特征之间的层次空间关系。在IEMOCAP、EMODB和CASIA等基准SER数据集上的实验结果表明，Emo-STCapsNet的性能更为优越，分别达到了71.86%、93.46%和87.92%的准确率。比较实验结果突显了Emo-STCapsNet方法相对于其他方法的优越性。广泛的消融研究进一步验证了Emo-STCapsNet架构的有效性，并强调了在SER中学习全面时空特征的必要性。

引言

在语音技术领域，准确理解用户的语音命令和意图是构建高效人机交互（HCI）系统的基础。高质量的语音交互系统需要理解语言内容，并捕捉说话者语音中嵌入的情感信息。语音情感识别（SER）技术通过分析语音中的语调、节奏和强度等副语言特征来解决这一挑战[1]。它试图确定说话者的情感状态，从而更真实自然地理解人类的意图[2]。

语音在情感表达上具有内在的主观性和复杂性。这可能导致同一情感类别内的隐含情感属性，增加类别内的变异性，从而影响识别性能[3]。因此，SER的主要挑战在于揭示不受说话者身份和性别等因素影响的相同情感的通用表示。这些表示对于开发能够准确预测人类语音情感的强大模型至关重要。为了解决这一挑战，提出了各种特征提取方法。传统方法[4]、[5]侧重于提取手工制作的特征，这些特征随后被用作支持向量机（SVM）等经典机器学习算法的输入。然而，这些手工制作的特征在情感识别任务中往往不够理想，因为它们的性能高度依赖于特定的评估集，从而限制了其泛化能力和鲁棒性。

近年来，随着深度学习的进步，手工特征工程逐渐被深度神经网络（DNNs）[6]、[7]所取代。大多数此类模型基于卷积神经网络（CNNs）[8]、循环神经网络（RNNs）[9]以及CNNs和RNNs的组合[10]开发。这些网络提取的时空特征可以表示同一类别情感的共性特征，减少相似情感之间的差异，显著提高情感分类的性能和鲁棒性。

然而，这些传统方法存在一些局限性：（1）RNNs缺乏足够的容量来动态捕捉长期依赖性，这对于SER尤为重要，因为情感表达通常是上下文依赖的；（2）基于核的CNNs在保留和解释情感特征中的空间关系方面存在固有局限性；（3）CNNs中的池化操作可能导致空间信息的丢失，例如音高在时间和频率轴上的精确位置信息，这对于准确的情感识别至关重要。为了解决这些挑战，提出了一个增强的时空建模框架Emo-STCapsNet。它利用了改进版的胶囊网络（CapsNet）来有效建模时间和空间情感表示。其主要贡献有三个方面：

(1) 引入了时间动态激活模块（TDAB），以捕捉动态的多尺度时间表示，从而增强对情感波动的适应性。设计了双流注意力融合（TsAF），用于整合不同尺度的时间特征，同时选择性地关注表示中嵌入的关键情感线索。

(2) 设计了一个结合TDAB的双向架构，通过历史和未来上下文信息的协同融合有效建模长期时间依赖性。这种设计使模型能够构建全局情感表示，显著提高其对复杂情感特征的全面分析能力。

(3) 提出了一个增强注意力的胶囊网络（AttCapsNet）。与传统CNN的粗略空间编码相比，该网络采用动态路由机制精确捕捉情感特征之间的内在层次关系，同时利用注意力机制优先处理关键特征。

方法论

在本节中，我们将介绍我们的框架Emo-STCapsNet。如图1(a)所示，整个框架由两个主要部分组成：特征提取部分和建模部分。建模部分进一步分为两个关键模块：时间感知表示学习模块（TaRLM）和增强注意力的胶囊网络（AttCapsNet）。

TaRLM模块能够有效捕捉双向多尺度动态时间表示。

实验结果与分析

为了验证所提出的Emo-STCapsNet方法的有效性，我们在IEMOCAP [42]、EMODB [43]和CASIA [44]数据集上进行了实验。

讨论

实验结果表明，Emo-STCapsNet在多个基准数据集上的性能优于现有的基线方法。这一改进主要归功于其全面的时空特征学习能力。TaRLM成功捕捉了语音信号中的长期上下文依赖性，这对于跟踪情感的动态演变至关重要。同时，AttCapsNet有效地建模了层次关系。

结论与未来工作

总之，Emo-STCapsNet是一种用于语音情感识别的新型时空特征表示模型。通过协同结合时间关系学习模块（TaRLM）和注意力胶囊网络（AttCapsNet），我们的模型有效地捕捉了语音中的长期依赖性和层次空间关系，从而在标准SER基准测试中取得了优异的性能。

展望未来，我们的工作将直接解决这些局限性。

CRediT作者贡献声明

范永红：撰写——原始草案、可视化、软件、方法论、调查、形式分析、概念化。黄海明：撰写——审稿与编辑、监督、资源获取、概念化。张慧云：撰写——审稿与编辑、形式分析、概念化。周子琪：撰写——审稿与编辑、监督、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了青海省自然科学基金（项目编号：2022-ZJ-925）、国家自然科学基金（项目编号：62066039）和“111”项目（项目编号：D20035）的支持。我们衷心感谢编辑和匿名审稿人提供的宝贵反馈。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法论

实验结果与分析

讨论

结论与未来工作

CRediT作者贡献声明

利益冲突声明

致谢

热点排行