《Pattern Recognition》:Emotional Conflict Adaptation for Multimodal Sentiment Analysis
编辑推荐:
多模态情感分析旨在整合文本、听觉和视觉信息以更精准地推断用户情感。然而,现有模型难以区分情感一致与冲突的情况,尤其在复杂场景中效果受限。本文通过统计分析发现,大部分样本(80.05%)呈现跨模态情感一致性,而少数(19.94%)存在冲突。为此,提出ECA框架,包含Unimodal Network量化冲突强度,以及双分支融合网络:易分支处理一致样本,难分支利用解耦注意力与对比学习解决冲突。实验表明ECA在CH-SIMS和CMU-MOSEI数据集上显著优于基线,尤其在情感冲突场景中。
韩婷婷|余凌云|谭敏|周宇|姚洪迅
中国浙江省杭州市杭州电子科技大学计算机学院
摘要
多模态情感分析(MSA)旨在通过整合文本、音频和视觉线索来推断用户情感,从而提供比单模态方法更丰富、更细致的情感理解。然而,现有模型往往难以区分情感一致和冲突的情况,这限制了它们在复杂场景中的有效性。实证证据表明,大多数多模态样本表现出模态间的情感一致性,而少数样本存在情感冲突。为了解决这个问题,我们提出了情感冲突适应(ECA)框架,该框架通过定制策略来处理这两种情况。ECA包括一个单模态网络,用于提取特定模态的表示并量化情感冲突强度;以及一个双分支多模态融合网络,根据量化出的强度自适应地整合来自不同分支的预测。其中,困难分支进一步结合了解耦注意力机制和模内/模间对比学习,以分离特征并增强冲突解决能力。在CH-SIMS和CMU-MOSEI数据集上的广泛实验表明,ECA在情感复杂的条件下实现了最先进的性能,这突显了在MSA中明确建模情感一致性和冲突的重要性。
引言
情感分析(SA)是自然语言处理(NLP)中的一个基本任务,传统上专注于从文本中提取情感。然而,仅凭文本往往无法捕捉到人类情感的完整谱系。随着以视频为中心的社交媒体的兴起,用户越来越多地通过结合文本、视觉和音频的多模态内容进行交流,这导致了多模态情感分析(MSA)的出现[1]。MSA利用了不同模态的互补优势[2]:文本传达明确的意见,视觉展示面部表情和手势,音频捕捉语调和韵律——从而实现更准确、更细致的情感识别。这种能力在多个领域都证明了其价值,包括社交媒体监控、市场情绪分析、公众意见跟踪,甚至心理健康评估,在这些领域中,对复杂情感线索的深入理解对于准确解读和决策至关重要。
多模态情感分析的核心挑战在于学习能够同时捕捉跨模态一致性和特定模态特征的有效多模态表示。尽管不同模态之间的情感表达通常是一致的,但由于人类情感的复杂性,例如个体在某些模态中故意掩盖或抑制情感,仍可能出现差异。一个典型的例子是讽刺,其中积极的语言内容可能与消极的语调相矛盾,导致跨模态的矛盾。这些情感不一致的情况对MSA系统构成了重大挑战,系统必须对这些不一致性进行推理以准确推断出潜在的情感。
为了解决这一挑战,先前的方法如MISA[3]和FDMER[4]采用了双空间表示学习范式,将多模态特征分解为共享(模态不变)和私有(模态特定)成分。共享空间旨在通过捕捉跨模态共性来减少模间差异,而私有空间则保留了模态特有的信息。这些互补的表示共同提供了多模态数据的整体视图,并用于下游预测。在此框架的基础上,ConFEDE[5]进一步结合了对比学习,通过特征分解来明确建模一致和不一致的跨模态关系。
然而,一个关键限制仍然存在:这些方法对所有输入都采用统一处理,无论情感一致性如何,都应用复杂的分解。这种方法隐含地假设了频繁的跨模态冲突,这与大多数情感表达是直接且一致的经验现实相矛盾。因此,强制性的分解引入了模型偏差,并削弱了泛化能力。此外,缺乏量化模间情感冲突强度的机制,阻碍了表示能力的自适应分配,限制了实际效果。
为了验证这一观点,我们对CH-SIMS数据集进行了统计分析。如图1(左)所示,相关性矩阵显示多模态和单模态注释之间存在强烈的正相关(r > 0.6),表明跨模态的情感一致性占主导。此外,如图1(右)所示,标签极性分布显示了两种主导模式:(1)在无中性标签的样本中(62.92%),47.39%的样本在所有三个单模态标签上完全一致,而14.99%的样本存在注释冲突;(2)在包含一个中性单模态标签的25.16%的样本中,20.21%的样本在其余两个非中性标签上一致,相比之下,4.95%的样本显示了冲突的非中性标签对。这些发现表明,在大多数情况下(80.05%),跨模态情感表达表现出显著的一致性,其中浅层情感对应于真实情感,可以使用标准建模框架进行有效分析。相反,在较小但统计上显著的子集中(19.94%)观察到的跨模态情感不一致性表明了更大的复杂性,需要专门的分析框架来进行深度情感挖掘。总体而言,这些结果强调了在处理复杂、冲突的情况时优先考虑情感一致性的重要性,并采用定制方法的重要性。
受这些观察的启发,我们提出了情感冲突适应(ECA)框架,这是一个通过双路径架构自适应处理一致和冲突情感表达的MSA模型。ECA包括两个关键组件:(1)一个单模态网络,用于提取特定模态的特征并量化模间情感冲突强度;(2)一个多模态融合网络,用于实现跨模态特征交互,然后通过双路径预测同时处理情感一致和冲突的情况。具体来说,简单路径专注于识别具有跨模态情感一致性的浅层情感,而困难路径利用特征分解(分离一致/不一致的成分)和对比学习来解决复杂的情感冲突并挖掘深层情感。通过基于冲突强度加权的融合动态整合预测,该架构在主要共识模式和少数冲突场景中实现了精确的情感分析,与传统方法相比,在冲突解决方面表现出显著的性能提升。
我们的主要贡献总结如下:
•我们提出了一种新的情感冲突适应(ECA)框架,该框架量化了模间情感冲突强度,以自适应地融合一致性的浅层情感和冲突的深层情感,显著提高了情感分析的鲁棒性和准确性。
•我们提出了一种新的解耦注意力机制,该机制明确地将多模态表示分为相似和不同的成分,并利用模内和模间对比学习更有效地建模和解决跨模态情感冲突。
•ECA在CH-SIMS数据集上实现了最先进的性能,准确率(Acc-2)提高了2.72%,F1分数提高了3.0%,准确率(Acc-3)提高了7.17%;即使在缺乏单模态标签监督的情况下,在CMU-MOSEI数据集上也展示了强大的泛化能力。
本文的其余部分组织如下。第二节回顾相关工作。第三节详细介绍了提出的ECA框架。第四节介绍了实验设置、结果和分析。第五节总结了本文。
部分片段
多模态情感分析
基准数据集的发展极大地推动了多模态情感分析(MSA)的研究。Zadeh等人引入了第一个多模态情感强度数据集CMU-MOSI[6],后来扩展为CMU-MOSEI[7],提供了更广泛和更多样化的数据。在此基础上,Yu等人[8]提出了CH-SIMS数据集,该数据集创新地包含了单模态注释,使得针对特定模态的子任务可以进行更细粒度的监督学习。
方法
多模态情感分析通过整合异构数据流(包括文本转录、时间音视频信号和副语言音频特征)来量化情感状态,通过融合跨模态特征来估计综合情感强度。一个关键挑战来自于不同模态之间信息密度的固有差异:文本构成了具有高信息密度的语义结构化人工信号,而视频和
数据集
我们在CH-SIMS[8]数据集上进行了主要评估,因为其特定模态的注释与我们的模型设计目标非常吻合。为了进一步评估在不完整单模态监督条件下的泛化能力,我们还在CMU-MOSEI[7]数据集上进行了额外的实验。
CH-SIMS是一个专门为中文多模态情感分析设计的基准数据集。它包含了2,281个精心策划的视频片段,涵盖了多样化的范围
结论
在这项研究中,我们提出了情感冲突适应(ECA)框架,用于多模态情感分析,旨在解决多模态数据中的情感一致性和模间冲突双重挑战。通过对CH-SIMS数据集的分析,我们确认情感一致性在大多数真实世界案例中占主导地位,而情感冲突虽然较少见,但更为复杂。受这些见解的启发,ECA采用了双路径架构:一个简单路径高效处理
CRediT作者贡献声明
韩婷婷:撰写——原始草稿、方法论、调查、概念化。余凌云:撰写——原始草稿、可视化、验证、方法论、数据整理。谭敏:监督、资金获取、正式分析。周宇:撰写——审阅与编辑、监督、项目管理。姚洪迅:监督、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
这项工作部分得到了浙江省自然科学基金(编号LMS26F020018)和中国国家自然科学基金(编号62422204、62472133)的支持。