用于多模态情感分析的解耦超图建模

《Neurocomputing》:Decoupled hypergraph modeling for multimodal sentiment analysis

【字体: 时间:2026年03月01日 来源:Neurocomputing 6.5

编辑推荐:

  多模态情感分析提出解耦超图建模方法,通过分离模态无关特征与模态特定特征,动态加权融合机制平衡跨模态交互与intra-模态表示,显著提升CMU数据集性能。

  
黄彦平|邓家文|庄妍|尤家莉|刘倩|任富士
中国电子科技大学计算机科学与工程学院,成都,611731,四川,中国

摘要

多模态情感分析(MSA)任务旨在通过整合文本、音频和视频模式的信息来识别情感。超图作为一种突破性方法,因其在建模高阶依赖关系方面的优势而受到关注。然而,现有方法通常直接将特征输入超图,这使得在消息传递过程中难以平衡跨模态交互的增强和模态内特征表示。这种不平衡进一步加剧了模态异质性和贡献不均的问题。为了解决这些挑战,我们提出了一种新颖的解耦超图建模(DHM)方法用于多模态情感分析。具体而言,解耦特征通过超图进行建模,其中跨模态和模态内超边被用来捕捉多层次的依赖关系。这有效地学习了共享表示,并减轻了共享信息中的贡献不均问题。同时,我们设计了一个基于Transformer的专家混合(TMoEs)网络来增强模态特定的表示并减少模态异质性。动态加权融合机制能够自适应地平衡超图和TMoEs网络的输出,从而增强跨模态协同作用。实验结果在CMU-MOSI和CMU-MOSEI数据集上展示了先进的性能,验证了解耦驱动的超图建模在增强模态内和跨模态特征表示能力方面的有效性。

引言

情感在人类交流中起着至关重要的作用,深刻影响着个人的决策和行为[1]。传统的情感分析主要依赖于单一模态(例如文本或视频)来识别情绪。然而,由于情感信号的复杂性,单一模态方法往往无法准确捕捉所有情绪。随着社交网络、视频平台和智能设备的普及,产生了大量的多模态数据。这些多样化的数据为情感分析提供了宝贵的信息。为了有效利用这些异构来源,多模态情感分析(MSA)成为一项关键的研究任务,旨在整合来自多种模态(例如文本、音频、视频等)的信息以理解人类的情感状态[2]。目前,MSA在多个领域展示了显著的潜力,包括医学诊断[3]、智能系统[4]和人机交互[5]。
MSA任务中的主要挑战在于处理模态异质性和不平衡[6]、[7]。现有研究提出了各种融合方法[8]、[9]、[10]、基于注意力的对齐策略[11]、[12]以及特征解耦[13]、[14]来减少模态异质性。此外,还采用了自适应模态权重学习[15]、模态不平衡正则化[16]和多模态对比学习[17]等方法来平衡不同模态的贡献。虽然这些方法推进了跨模态相关性建模,但它们主要关注成对交互,限制了捕捉高阶语义依赖关系的能力。图神经网络(GNNs)已被引入MSA任务中,以提供结构化的建模方法。然而,传统图依赖于成对边,这限制了它们建模复杂多模态交互的能力。相比之下,超图可以同时捕捉多个节点之间的高阶依赖关系,使其成为MSA中的一个有前景的研究方向,如图1所示。
最近基于超图的方法通过构建不同的超边[18]或采用动态超图机制[19]来适应样本之间的关系,从而实现特征交互。尽管这些方法可以捕捉更丰富的多模态交互,但它们仍然有两个局限性:(1)它们通常直接通过超图处理编码特征,将异构信息嵌入到统一的特征空间中。这使得超图难以平衡跨模态关系建模和模态内特征表示。(2)在超图中传递消息时,模态之间的融合倾向于过分强调不变特征[20],这减少了模态特定信息的表达,并导致模态特化的丧失。
为了解决这些局限性,我们提出了解耦超图建模(DHM)方法,如图2所示。DHM框架首先采用特征解耦步骤,将多模态特征分为与模态无关和与模态相关的组件。只有与模态无关的特征被输入超图,以专注于跨模态共享信息的高阶建模,从根本上缓解了统一空间中异构特征引起的耦合冲突。我们在超图中设计了跨模态和模态内超边,前者捕捉跨模态的协同依赖关系,后者在浅层强化模态内一致性,为跨模态信息对齐提供语义稳定性。特征解耦显著减少了模态之间的分布差异,使超图能够在表示空间内更直接地建模语义相关性。其次,为了保留模态特定的表示,我们开发了一个基于Transformer专家混合(TMoEs)架构的独立建模网络,其中三个专家网络专注于学习不同的模态特征。与传统MoEs架构相比,TMoEs在样本层面动态分配模态权重,从而加强模态特定的特征表示并通过上下文建模增强模态内区分度。TMoEs网络有效地减轻了超图消息传递过程中模态特定信息的减弱,从而增强了特征层面的模态表示。最后,我们提出了一种动态加权融合机制,以自适应地整合超图学习到的跨模态共享表示和TMoEs增强的模态特定特征,提高模型中的跨模态协同作用。这种解耦和并行的建模策略在保持跨模态语义一致性的同时,有效保留了模态特定的区别,显著提高了模型的区分度和泛化性能。
本工作的主要贡献总结如下:
  • (1)
    我们提出了一种用于多模态情感分析的解耦超图建模(DHM)框架,通过将跨模态共享表示分配给超图来分离特征建模,从而缓解了由模态异质性引起的结构冲突。设计了两种类型的超边来捕捉语义依赖关系。
  • (2)
    我们开发了一个基于Transformer的专家混合(TMoEs)网络来加强模态特定的特征表示,在跨模态聚合过程中保留模态特异性。提出了动态加权融合策略,以自适应地整合这些增强的表示与跨模态共享信息。
  • (3)
    在CMU-MOSI和CMU-MOSEI基准测试上的广泛实验表明,所提出的DHM在对齐和未对齐设置下均显著优于现有方法,验证了解耦驱动的超图建模策略的有效性。
  • 本文的其余部分结构如下:第2节回顾相关工作。第3节讨论所提出模型的细节。第4节展示实验结果和分析。第5节讨论结论。

    部分摘录

    多模态情感分析

    多模态情感分析旨在通过整合异构模态数据来捕捉人类情感状态[2]。现有研究通常基于循环神经网络来建模多模态数据中的序列关系[21]、[22]。BC-LSTM[21]采用基于LSTM的框架从话语序列中提取上下文特征,用于话语级情感分类。MTSA[22]利用GRU构建序列到序列框架来转换视频和音频

    方法论

    在本节中,我们详细描述了所提出的DHM模型。图2展示了所提出的DHM模型的架构。它由四个主要部分组成:特征解耦、超图学习、模态特定的TMoEs网络和动态加权融合。

    实验

    在本节中,我们在两个公开的多模态情感分析(MSA)数据集上评估了所提出的DHM模型,并解决了以下研究问题:
  • 提出的DHM方法是否提高了MSA任务的总体性能?
  • DHM中每个组件的具体贡献是什么?
  • DHM对不同超参数设置的敏感度如何?
  • DHM是否学习了更具区分性的多模态特征表示?
  • RQ5:所提出的DHM中的特征解耦组件是否有效?
  • RQ6:
  • 结论

    在这项研究中,我们提出了解耦超图建模(DHM)框架,以解决基于超图的MSA任务中的模态异质性和不平衡问题。通过将特征分为与模态无关和与模态相关的组件,并仅将前者输入超图,DHM能够更有效地建模跨模态共享信息,同时减轻由异构特征引起的冲突。为了保留模态特定的表示,我们提出了

    CRediT作者贡献声明

    黄彦平:写作——审稿与编辑,撰写——原始草稿,软件,方法论,概念化。邓家文:写作——原始草稿。庄妍:写作——审稿与编辑,方法论,概念化。尤家莉:写作——审稿与编辑。刘倩:软件,方法论。任富士:监督。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了中国国家自然科学基金(项目编号U24A20250)、四川省自然科学基金(项目编号2025ZNSFSC1487)和中央高校基本科研业务费(编号ZYGX2024J022和ZYGX2024Z005)的支持。
    黄彦平于2024年在中国成都的西华大学获得硕士学位。她目前在中国成都的电子科技大学计算机科学与工程学院攻读博士学位。她的研究兴趣包括多模态情感分析、多模态学习和大型语言模型。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号