基于关系图谱的差分去噪与扩散注意力融合方法在多模态对话情感识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Neurocomputing 6.5

编辑推荐：

　　针对多模态对话情感识别中音频视频噪声干扰及模态信息不平衡问题，本文提出了一种关系图驱动的微分去噪与扩散注意力融合模型。通过微分Transformer抑制时间无关噪声，构建关系子图捕捉跨模态交互，并设计文本引导的扩散注意力机制动态分配模态权重，有效缓解噪声影响与模态不平衡，在IEMOCAP和MELD数据集上显著优于基线方法。

刘颖|周云涛|艾伟|孟涛|李克勤

中国湖南长沙，中南林业科技大学计算机与数学学院，410004

摘要

多模态对话情感识别（MCER）旨在通过利用文本、声学和视觉特征来对话语的情感状态进行分类。然而，在现实世界场景中，音频和视频信号常常受到环境噪声的影响，并且采集条件有限，导致提取的特征包含过多的噪声。此外，不同模态之间的数据质量和信息承载能力存在不平衡。这两个问题共同导致在融合阶段出现信息失真和权重偏差，从而影响整体识别性能。大多数现有方法忽略了噪声模态的影响，依赖于隐式权重来模拟模态的重要性，因此未能明确考虑文本模态在情感理解中的主导作用。为了解决这些问题，我们提出了一种基于关系感知的去噪和扩散注意力融合模型用于MCER。具体来说，我们首先设计了一个差分Transformer，它能够明确计算两个注意力图之间的差异，从而增强时间上一致的信息，同时抑制与时间无关的噪声，从而在音频和视频模态中实现有效的去噪。其次，我们构建了特定于模态和跨模态的关系子图，以捕捉说话者依赖的情感依赖性，实现细粒度的模内和模间关系建模。最后，我们引入了一种文本引导的跨模态扩散机制，利用自注意力来模拟模内依赖性，并将音视频信息自适应地融合到文本流中，确保更健壮和语义对齐的多模态融合。在多个真实世界数据集上的实验表明，与现有的最先进方法相比，我们的模型取得了更好的性能。

引言

随着人工智能和人机交互技术的快速发展，多模态对话情感识别（MCER）已成为人工智能领域的一个关键研究焦点。MCER使计算系统能够更深入地理解交互情境并感知对话中的情感状态[1]。由于其在智能客户服务[2]、虚拟助手[3]、在线教育[4]和心理健康监测[5]等领域的广泛应用前景，MCER受到了越来越多的研究关注。

MCER任务的关键在于模拟跨多个模态的语义依赖性，以实现互补的特征融合，从而提高情感识别的准确性。近年来，研究人员提出了各种融合策略来应对这一挑战。早期的基于连接的融合方法沿特征维度组合不同模态的特征向量，形成统一的表示，然后将其输入到RNN或LSTM等序列模型中以学习情感识别的上下文依赖性。例如，Subbaiah等人[6]提出了EMRA-Net模型，该模型使用多尺度残差注意力网络增强连接的特征，随后使用LSTM进行时间建模。然而，这种方法受到模态特征简单堆叠的限制，无法有效捕捉模态之间的情感交互。随后，基于Transformer的融合方法成为研究热点。例如，Waligora等人[7]提出的JMT模型采用了跨模态自注意力机制来模拟模态之间的相关权重。然后将加权融合的特征通过前馈神经网络进行处理。然而，自注意力机制在捕捉全局依赖性时可能会引入冗余信息，从而妨碍细粒度情感的识别。此外，模态之间的语义差距可能导致注意力权重偏差，从而抑制次要模态的信息。由于其在建模非欧几里得空间中的关系方面的优势，GCN逐渐被应用于MCER。Ai等人[8]提出的DER-GCN模型构建了一个加权多关系图，同时捕捉说话者和事件之间的交互。与基于Transformer的模型相比，GCN在处理非结构化多模态交互时表现更好，特别是在模态分布不均匀的情景中。尽管现有方法在MCER方面取得了显著进展，但它们仍然面临以下挑战：

(i) 忽视了音视频模态中的噪声干扰。 在现实世界场景中，音频和视频模态中的噪声干扰通常比文本模态更为严重。例如，音频信号经常受到环境噪声的干扰，导致语调模糊，而视觉输入容易受到光照变化和运动伪影的影响，降低了面部表情的清晰度。直接融合这些模态而不进行噪声抑制会引入干扰，使得模型难以准确捕捉真实的情感变化。然而，现有模型通常缺乏处理音频和视频模态中噪声的明确机制[9]、[10]、[11]。例如，Jin等人[12]提出了一种多模态图Transformer，它直接使用原始音频频谱图和视觉帧数据构建图谱，而没有进行去噪，这导致节点特征来自噪声输入。这种噪声的存在可能导致计算出的邻接矩阵中出现虚假连接，扭曲模间依赖性，从而降低识别性能。由于噪声对音视频特征的影响不可避免，且当前模型缺乏有效的噪声处理机制，不同模态在情感识别中的性能差异通常很大。此外，许多实证研究证实了这一问题[13]、[14]。例如，如图1所示，在Chudasama等人[15]提出的M2FNet模型中，基于文本的单模态情感识别的准确率达到66.20%，而视觉和音频模态的准确率分别降至13.10%和21.79%。因此，有效处理音频和视频模态中的噪声仍然是提高多模态系统整体情感识别性能的关键挑战。

(ii) 忽视了文本模态的主导作用。 大多数现有的多模态融合方法通过注意力权重隐式地模拟每个模态的重要性，往往忽略了文本模态在情感分析中的主导作用。例如，Cai等人[16]提出了一种多模态情感分析方法，通过参数共享来调整每个模态的贡献，但这种方法仍然依赖于隐式建模。然而，研究表明模态不平衡是多模态学习中的固有现象[17]、[18]、[19]。作为情感语义的核心载体，文本模态可以在融合过程中起到引导作用。明确利用文本来指导其他模态的融合有助于减轻噪声干扰并提高整体性能。例如，在多模态图像融合中，Zhang等人[20]提出了一种文本调制的扩散框架，其中文本指导图像融合，显著提高了图像质量并减少了噪声。在多模态虚假评论检测领域，Du等人[21]引入了一种基于共注意力的模型，强调了文本的主导作用，从而提高了检测性能。这些研究表明，明确建模文本模态的主导作用对于优化多模态融合至关重要。因此，如何将明确的文本指导纳入融合过程仍然是MCER中的另一个主要挑战。

基于上述分析，本文提出了一种基于关系图的差分去噪和扩散注意力融合模型，用于对话中的多模态情感识别。我们的模型有效地对音频和视频模态进行了去噪，同时允许文本模态明确指导跨模态融合，从而提高了情感识别性能。具体来说，我们设计了一个差分Transformer模块，它能够明确计算两个注意力图之间的差异，有效增强时间上一致的信息，从而抑制与时间无关的噪声，实现对音频和视频模态的有效去噪。对于文本模态，我们将对话表示为两个子图，捕捉说话者间和说话者内的情感依赖性，并为关系边分配可学习的嵌入。通过增量交互学习，模型首先捕捉说话者间的情感交互，然后捕捉说话者内的情感动态，从而实现精确的情感波动建模。在融合阶段，我们引入了一种文本主导的扩散注意力融合机制。首先，通过自注意力捕捉模内依赖性；然后，基于模态相似性的跨模态扩散注意力机制允许文本单向吸收来自视觉和音频模态的信息，从而缓解模态差距。融合后的表示通过前馈网络和残差连接进行细化，最终用于情感分类。实验结果表明，我们的模型始终优于现有方法。本研究的主要贡献包括以下几点：•

我们提出了一种差分去噪机制，它在有效抑制噪声的同时增强了动态建模，显著提高了识别准确性。

•

为了解决多模态融合中的模态不平衡问题，我们设计了一种文本主导的扩散注意力融合机制。通过明确建模文本模态的主导作用，我们的方法缓解了不平衡问题，并取得了显著的性能提升。

•

在IEMOCAP和MELD数据集上的广泛实验表明，我们的方法始终优于最先进的基线模型。

方法论

MCER的核心目标是为对话中包含的每个单独的话语分配适当的情感标签。为了解决音频和视频模态中的噪声干扰以及由模态不平衡引起的信息融合偏差问题，本文提出了一种新的框架：关系图驱动的差分去噪和扩散注意力融合。具体来说，采用差分Transformer动态建模音频和视觉模态

实验设置

在本节中，我们首先全面描述了实验中使用的两个公共数据集和用于评估模型性能的两个关键指标。接下来，我们介绍了基线模型和技术细节。最后，我们详细介绍了实验的实施细节。

实验结果

在本节中，我们展示了比较实验和消融研究的结果。

结论

在这项研究中，我们提出了一个多模态情感识别框架，该框架集成了差分Transformer、关系子图和跨模态扩散注意力融合，以解决对话场景中的关键挑战，包括动态情感跟踪、音视频模态中的噪声干扰和模态不平衡。所提出的框架采用差分机制有效抑制音频和视觉特征中的噪声，利用关系子图对两者进行建模

CRediT作者贡献声明

刘颖：资源提供。周云涛：概念化。艾伟：数据整理。孟涛：形式分析。李克勤：项目管理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

作者衷心感谢匿名审稿人和AE的细致工作和深思熟虑的建议，这些工作极大地帮助改进了本文。本工作得到了中国国家自然科学基金（项目编号69189338）、湖南省优秀青年学者计划（项目编号22B0275）以及复杂网络中局部社区结构检测算法研究项目（项目编号2020YJ009）的支持。

刘颖目前在中国长沙的中南林业科技大学计算机与数学学院攻读本科学位。她的研究兴趣是情感识别

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法论

实验设置

实验结果

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行