《Computer Speech & Language》:HRDF-MER: Hierarchical feature refinement and cascaded dynamic fusion for multimodal emotion recognition
编辑推荐:
多模态情感识别中提出HRDF-MER框架,通过分层跨模态对齐和级联动态融合解决模态对齐、时序建模与融合效率问题,结合对比损失与交叉熵损失的多目标训练,显著提升IEMOCAP和MELD数据集性能。
雷建军|穆珍梅|王颖
重庆邮电大学计算机科学与技术学院,中国重庆,400065
摘要
多模态情感识别(MER)面临模式不对齐、时间线索建模不足以及融合效率低等问题。本文提出了HRDF-MER框架,该框架结合了分层细化和级联动态融合技术,以实现更鲁棒的情感识别。为了提高跨模态对齐性和单模态表示能力,HRDF-MER引入了一种新的分层跨模态特征细化(HCFR)策略,该策略融合了跨模态自适应对齐(CAA)和分层特征增强(HFE)技术。CAA模块使用多头交叉注意力构建分层相关矩阵,以实现精确的声学-文本对齐;HFE模块则利用带有跨模态残差连接的Transformer来进一步增强单模态表示,从而实现鲁棒的特征学习。此外,我们还提出了一种级联多模态动态融合(CMDF)策略,其中交叉注意力编码器捕捉细粒度的模态间依赖性,而门控融合单元则根据上下文动态调整各模态的权重,逐步生成具有高区分度的多模态表示。同时,我们提出了一种多目标训练方案,通过结合跨模态标签对比损失(CLC Loss)和交叉熵损失来共同优化特征对齐性和分类性能。在IEMOCAP和MELD数据集上的广泛实验表明,HRDF-MER显著优于现有最先进模型,而消融研究进一步验证了每个组件的有效性和必要性。
引言
情感识别对于人机交互至关重要,因为它能够实现细腻的沟通、情感理解以及在复杂社会系统中的适应性响应(Zhang等人,2024年;Kalateh等人,2024年;Hazmoune和Bougamouza,2024年)。尽管基于语音的单模态方法已经取得了显著进展,但它们仍然容易受到环境噪声、个体表达差异和上下文歧义的影响,这些因素会大幅降低性能(Geetha等人,2024年;Makhmudov等人,2024年;Wu等人,2025年)。为了解决这些问题,多模态情感识别(MER)应运而生,它利用音频、文本和视觉等多种模态的互补信息,实现更准确、更鲁棒且具有上下文意识的情感分析(H. Liu等人,2024年;Pillalamarri和Shanmugam,2025年)。通过整合不同模态的互补信息,MER能够捕捉到单模态系统中经常被忽略的情感线索,从而更全面地理解人类的情感状态(Tu等人,2025年)。
然而,由于模态之间的固有异质性,开发有效的MER系统仍然具有挑战性。音频和文本数据在时间分辨率、特征表示和语义抽象方面存在显著差异(Ramaswamy和Palaniswamy,2024年;Qi等人,2025年)。现有方法通常依赖于简单的对齐机制(如单层注意力),这些机制无法建模从低级韵律到高级语义的分层情感线索(Du等人,2024年)。此外,大多数融合策略采用静态或手动设计的权重方案,缺乏根据上下文特定区分能力动态调整模态贡献的能力(Zhao等人,2024年;Salas-Cáceres等人,2024年;Khan等人,2024年)。这些限制阻碍了有效的跨模态整合,降低了系统利用互补情感信息的能力,尤其是在模态提供不对称或冲突线索时(Jagadeesh等人,2024年)。此外,浅层的模态间交互机制限制了特征合作的深度,使得模型无法充分利用时间和语义层次中的多级情感表示(Zou等人,2025年)。
本文提出的HRDF-MER框架结合了分层特征细化和级联动态融合技术。该框架解决了三个关键问题:跨模态对齐、模内表示学习和多模态融合。具体而言,HRDF-MER包含一个分层跨模态特征细化(HCFR)模块,该模块通过多头交叉注意力建立声学和文本特征之间的细粒度对应关系;以及一个分层特征增强(HFE)模块,该模块使用带有跨模态残差连接的Transformer层来细化单模态表示。此外,还设计了一个级联多模态动态融合(CMDF)模块,通过迭代交叉注意力捕捉丰富的模态间依赖性,并通过门控机制动态整合特定模态的特征。为了共同优化跨模态一致性和分类性能,采用了多目标损失进行端到端训练,结合了跨模态标签对比损失(CLC Loss)和交叉熵损失。本文的主要贡献如下:
- •
我们设计了HCFR策略,结合了两个核心模块:(1)CAA模块,利用多头交叉注意力实现分层跨模态对齐;(2)HFE模块,通过层间残差减轻模内噪声、抑制特征冗余并增强单模态的可区分性。
- •
我们提出了一个级联多模态融合模块CMDF,该模块使用迭代交叉注意力和基于门控的适应机制,解决复杂的模态间依赖性建模问题,并逐步整合多级情感信息,生成鲁棒且具有高区分度的多模态表示。
- •
我们开发了一个多目标分层训练框架,共同优化CLC损失和交叉熵损失。该训练框架通过结构化的对齐约束解决了模态间潜在语义一致性不足的问题,从而提高了识别的鲁棒性和整体分类性能。
- •
在IEMOCAP和MELD基准测试上的广泛评估表明,我们的HRDF-MER相比现有强基线模型取得了显著的性能提升,而消融研究进一步验证了每个组件的独立和集体贡献。
本文的其余部分结构如下:第2节回顾相关研究;第3节详细介绍了HRDF-MER架构;第4节展示了实验结果;第4.4节总结了本文并提出了未来研究方向。
相关研究
早期关于单模态情感识别的研究往往受到单一数据来源的限制(Lei等人,2022年)。为了解决这一问题,MER作为整合音频和文本等多模态互补信息的关键框架应运而生(Li等人,2025年;Hu等人,2023年)。最近的研究进一步证实,文本信息是声学特征的有效语义补充,从而提高了识别准确性和完整性(Sun等人,2023年;Zhang等人
方法
本节描述了HRDF-MER的总体框架,并对其两个核心组件(HCFR模块和CMDF模块)进行了详细说明。HCFR模块负责音频和文本特征的跨模态对齐,以实现语义一致性;CMDF模块则对对齐后的特征进行动态融合。
实验
本节描述了实验设置、结果、消融研究和可视化分析。
结论
本文提出了HRDF-MER,这是一个分层框架,旨在解决MER任务中的关键挑战,包括模式不对齐、时间线索建模不足以及融合效率低等问题。具体而言,HCFR模块有效结合了CAA和HFE机制,实现了精确的跨模态对齐,并逐步细化单模态表示,从而实现更鲁棒的特征学习。此外,CMDF策略通过迭代交叉注意力捕捉细粒度的模态间依赖性,并通过门控机制动态整合特定模态的特征。
CRediT作者贡献声明
雷建军:撰写 – 审稿与编辑、方法论、资金获取、概念化。穆珍梅:撰写 – 原始草稿、可视化、验证、方法论、研究、概念化。王颖:撰写 – 审稿与编辑、方法论、研究、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本项工作得到了重庆市教育委员会重点合作项目(资助编号:HZ2021008)和重庆市教育委员会研究生教育与教学改革研究项目(资助编号:yjg223087)的支持。
雷建军于2012年在韩国INHA大学获得信息工程博士学位。目前他是重庆邮电大学的教授,研究兴趣包括自然语言处理、语音情感识别和大型语言模型。