跨模态多频段差分条件扩散算法在对话中的多模态情感识别应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Cross-Modality Multiband Differential Conditional Diffusion for Multimodal Emotion Recognition in Conversation

【字体：大中小】 时间：2026年02月28日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多模态情绪识别中提出CMDCD框架，通过不对称融合增强缓解跨模态干扰，结合小波变换的多频带条件扩散去噪抑制utterance-specific噪声，并采用置信度自适应融合策略提升性能，实验验证优于SOTA方法。

朱晓菲|姜阳|刘晓阳|张一豪

重庆理工大学计算机科学与工程学院，重庆，400054，中国

摘要

“对话中的多模态情感识别”（MERC）旨在通过利用文本、音频和视觉模态的互补线索来识别每个话语的情感类别。尽管最近取得了进展，但现有的多模态融合方法往往存在跨模态干扰和对话语特定噪声处理不当的问题。为了解决这些限制，我们提出了一种新的跨模态多频带差分条件扩散（CMDCD）框架。具体来说，我们的方法引入了一种非对称融合增强（AFE）机制来增强每种模态的表示学习。它交替地将每种模态视为主要模态，利用其他模态作为辅助信息来提供互补信息并减少跨模态干扰。此外，我们开发了一种小波差分条件扩散（WDCD）模块用于多频带去噪。该模块首先通过小波变换将特征分解为频率子带，然后构建差分表示以捕获话语特定特征，这些特征被输入到由跨频带信号引导的条件扩散过程中，以抑制话语特定噪声，同时保留细粒度的情感线索。最后，我们采用基于置信度的融合（CBF）策略，根据它们的预测置信度进一步整合非对称融合增强特征和多频带去噪特征。在两个广泛使用的基准测试上的大量实验表明，CMDCD的表现始终优于现有方法。我们已在以下链接提供了所提出的CMDCD模型的源代码：https://github.com/madaler/CMDCD。

引言

“对话中的多模态情感识别”（MERC）旨在通过分析对话内容来识别话语中的情感，这为智能人机交互[1]、课程质量评估[2]和社交媒体意见挖掘[3]带来了显著的好处。早期方法使用循环神经网络（RNN）和图卷积网络（GCN）来识别文本模态中的情感[4]、[5]、[6]。由于情感是通过多种模态传递的，包括文本、音频和视频，仅依赖文本不足以全面理解对话情感[1]。

最近的方法利用序列结构和图结构来整合文本、音频和视频模态以增强情感检测[7]。例如，CTNet[8]使用单模态和跨模态变换器来捕获模内和模间依赖性。MPT-HCL[9]采用多模态提示变换器与混合对比学习相结合，以融合过滤后的多模态线索并处理资源较少的情感类别。AdaIGN[10]利用GCN融合多模态特征，并应用Gumbel-Softmax来动态选择节点和边，从而增强模态交互的效果。HAUCL[11]引入了超图自动编码器来学习多模态信息和长距离上下文依赖性，同时减轻传统图模型中的冗余和过度平滑问题。此外，SEDC[12]引入了双通道架构来分离语义信息和情感信息的处理。该模型利用对比学习从每个话语中提取情感特征，同时利用外部知识库来丰富对话的语义表示。

尽管这些方法取得了有希望的结果，但它们仍然存在以下限制：（1）跨模态干扰。现有的多模态融合方法通常依赖于对称融合策略，所有模态都被平等对待[8]、[11]。这种策略常常导致模态之间的信息相互干扰，从而降低融合效果[13]。（2）对话语特定噪声处理不当。现有的多模态融合方法主要关注捕获模间依赖性以提高融合性能，而在融合过程中对单个话语中的噪声影响关注较少。这可能导致融合过程中负面效应的放大，因为每个话语中的噪声会传播到其他模态，最终降低最终的融合结果。尽管最近的研究工作（如扩散模型）在模态去噪方面取得了有希望的结果，但这些方法主要处理原始的纠缠特征，其中显著信息和噪声交织在一起[14]。具体来说，每个话语本质上包含两种类型的成分：话语共同特征，代表同一类别中共享的核心情感语义；以及话语特定特征，包含特定于个别话语的独特细微差别和噪声。值得注意的是，这些话语特定特征通常是噪声的主要来源。现有方法直接在原始特征上进行去噪，而没有区分它们，这限制了去噪的效果

为了解决上述问题，我们提出了一种新的跨模态多频带差分条件扩散（CMDCD）框架，用于对话中的多模态情感识别。该框架由三个关键模块组成：（1）非对称融合增强（AFE）。为了减轻对称融合机制引起的跨模态干扰，我们提出了一种非对称融合增强模块，它交替地将每种模态视为主要模态，而其他模态作为辅助信息来指导整合。这种设计使模型能够为主模态学习更具区分性和表现力的表示，同时保留跨模态的互补线索。（2）小波差分条件扩散（WDCD）。与传统方法不同，我们提出进行细粒度的多频带去噪。具体来说，我们通过小波变换将原始特征空间分解为频率子带，从而更细致地处理不同频率域中的噪声。此外，我们引入情感语义原型来表示话语共同特征，并构建差分表示来表征话语特定特征，然后将其输入到条件扩散过程中以抑制话语特定噪声。为了增强每个子带空间的去噪过程，我们进一步利用其他子带的信号来指导去噪过程。（3）基于置信度的融合（CBF）。为了利用上述两个模块（AFE和WDCD）的互补优势，我们根据它们的预测置信度采用自适应融合机制，结合非对称融合增强特征和多频带去噪特征以获得最佳性能。

总结来说，我们的贡献如下：

•

我们提出了一种非对称融合增强机制，以减轻跨模态干扰，它交替地将每种模态视为主要来源，并利用辅助模态来增强主要模态的表示。

•

我们提出了一种小波差分条件扩散模型，用于细粒度的多频带去噪。它通过小波变换将特征空间分解为频率子带，并通过构建差分表示和利用跨频带条件扩散指导来选择性地抑制话语特定特征中的噪声。

•

我们采用基于置信度的融合策略，根据它们的互补优势动态整合非对称融合增强特征和多频带去噪特征，以提高模型的有效性和鲁棒性。

•

在两个基准数据集上的大量实验表明，我们的方法在准确率和加权F1分数方面均优于现有最佳方法。

部分片段

对话中的多模态情感识别

由于其在各个领域的广泛应用，对话中的情感识别受到了越来越多的关注。现有研究大致可以分为基于序列和基于图的方法，这两种方法都旨在建模上下文依赖性和多模态交互。基于序列的方法主要依赖于循环或变换器架构来捕获时间和上下文依赖性。DialogueRNN[4]首次提出了一种基于RNN的方法，用于跟踪

任务定义和符号

“对话中的多模态情感识别”（MERC）定义如下：给定一个包含

U = {u_{1}, u_{2},, u_{N}}

个话语的对话

u_{i} = {u_{i}^{t}, u_{i}^{a}, i, N}

。每个话语u_i与其对应的说话者

s_{u_{i}}

数据集

为了评估所提出的CMDCD方法的有效性，我们在两个广泛使用的MERC数据集上进行了实验，包括IEMOCAP [39]和MELD [40]。数据集统计信息总结在表2中。

•

IEMOCAP：该数据集包含10名演员（5名男性，5名女性）进行的双人对话的视频记录。它包括151个对话和7433个话语。情感标签被手动分类为六种情感：快乐、悲伤、中性、愤怒、兴奋和沮丧。

•

MELD：这是一个

结论

在本文中，我们提出了一种跨模态多频带差分条件扩散（CMDCD）框架，用于对话中的多模态情感识别。该框架有效地结合了非对称融合增强和小波基多频带去噪，实现了跨模态互补性和细粒度频率域噪声抑制。此外，我们采用基于置信度的自适应融合策略来动态调整增强特征和

作者声明

我们签署人声明本手稿是原创的，之前未发表过，目前也没有被其他地方考虑发表。

我们确认所有列出的作者都已阅读并批准了该手稿，且没有其他符合作者资格但未列出的人。我们进一步确认手稿中列出的作者顺序已得到所有人的批准。

我们理解通讯作者是唯一的联系人

未引用引用

缺少引用图1

CRediT作者贡献声明

朱晓菲：撰写 – 审稿与编辑，撰写 – 原始草稿，监督，资源获取，概念化，方法论。姜阳：撰写 – 原始草稿，软件，方法论，调查，概念化。刘晓阳：撰写 – 审稿与编辑，监督。张一豪：撰写 – 审稿与编辑，监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（62472059）、重庆市科技创新研发计划（CSTB2024TIAD-STX0027）和重庆市人才计划项目（CSTC2024YCJH-BGZXM0022）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号