基于视觉标签增强驱动的多模态情感识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于视觉标签增强驱动的多模态情感识别

《Pattern Recognition》：Visual Label Augmentation-Driven Multimodal Emotion Recognition

【字体：大中小】 时间：2026年05月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　魏青兰|周亚琪|周俊哲|叶龙|张源中国传媒大学数据科学与智能媒体学院，北京，中国摘要多模态大型语言模型（MLLMs）在跨模态理解方面的进步为情感识别带来了新的机遇。然而，通用MLLM训练与细粒度情感分析之间存在显著的语义差距，这使得推理能力的直接迁移变得具有挑

　　魏青兰|周亚琪|周俊哲|叶龙|张源
中国传媒大学数据科学与智能媒体学院，北京，中国

摘要
多模态大型语言模型（MLLMs）在跨模态理解方面的进步为情感识别带来了新的机遇。然而，通用MLLM训练与细粒度情感分析之间存在显著的语义差距，这使得推理能力的直接迁移变得具有挑战性。此外，高质量情感标注数据的稀缺性和高昂的标注成本限制了MLLMs在这一领域的潜力。为了解决这些问题，我们提出了LAMER（视觉标签增强驱动的多模态情感识别）这一新颖框架，该框架利用MLLMs自动生成详细的视觉情感线索，如面部表情、身体姿态和上下文线索，作为增强的监督信号。这些线索通过协同的多任务学习方案进行整合，在跨模态对齐约束下共同优化情感分类和视觉问答（VQA），从而提高了视觉特征的区分能力和模型的可解释性。在CMU-MOSEI、ElderReact和EmoReact数据集上的实验表明，当LAMER集成到最先进的融合网络中时，准确率提高了2.23%，微F1分数提高了3.72%，并且表现出显著的跨数据集和跨年龄组的泛化能力，在F1分数和汉明损失方面优于仅在目标数据上训练的模型。通过有效结合MLLMs的泛化能力和任务特定的监督，LAMER提供了一种可扩展且可解释的解决方案，推动了多模态多标签情感识别的发展。

引言
多模态多标签情感识别（MMER）的任务是从多种模态（如文本、视觉和音频）中识别说话者话语或视频所表达的多种情感[1]。在过去的几十年里，MMER数据集主要依赖于互联网媒体平台的评论视频或电影和电视剧的片段[2]。MMER具有广泛的应用，从在线聊天和新闻分析到评估短视频的参与度以及构建对话系统。它是理解人类情感行为和预测内容传播趋势的关键工具。现有研究表明，多模态情感识别中不同模态的贡献是不平衡的[3][4]，其中视觉模态的贡献通常较低且难以改进。然而，视觉数据包含丰富的信息并具有一定程度的可解释性。随着MLLMs的发展，一个关键挑战在于有效利用MLLMs的推理和泛化能力，以克服传统深度学习方法中情感标注数据稀缺和高标注成本带来的限制，从而提高情感识别的准确性和可解释性。表1清楚地展示了多模态情感识别研究中不同模态之间的贡献差异（其中V、A和T分别代表视觉、音频和文本模态）。这直观地表明，视觉模态的贡献一直较低，其性能明显落后于文本和音频模态。这种差距是模态性能层面语义差距的具体体现。目前处理视觉模态的方法主要分为两类：一方面，使用VGG网络或ViT进行端到端模型训练[3][5][6]；这些方法严重依赖数据，并受到情感语义隐式建模机制的限制，难以有效提高视觉模态的贡献；另一方面，使用预训练模型（如OpenFace[7][10]、DenseNet[9]或CLIP[4][8]进行特征提取。由于表示偏差和信息损失，这些方法也无法弥补视觉模态的性能不足。上述方法的局限性导致了表1中显示的视觉模态贡献较低的结果。因此，有必要研究更有效的视觉表示学习方法来应对这一挑战。

早期的情感识别通常假设情感彼此独立。但在现实场景中，多种情感往往以相互交织的状态共存。为了有效建模这种复杂状态，最近的研究采用了多标签分类框架[1]，以克服单标签限制并直接表示情感的共存。鉴于埃克曼的六种基本情感（愤怒、恐惧、悲伤、愉悦、厌恶、惊讶）[11]被最广泛使用，许多情感识别数据集都是基于这六种类别构建的。然而，从同一数据中分离出多种情感线索对视觉模态提出了更高的要求，而视觉模态的贡献本来就较低：它不仅需要完成基本特征提取，还需要精确捕捉对应于多标签情感的细粒度视觉线索。

随着MLLMs的快速发展，它们的跨模态理解能力得到了提升，能够在视觉内容和语义空间之间建立深刻的关联。为了评估它们的情感分析潜力，我们评估了几种代表性的开源模型[12][13]，如图1所示。结果表明，当前的MLLMs能够相对准确地捕捉视觉细节（主要人物的面部表情和身体姿势以及环境），补充了视觉模态捕捉细粒度情感线索的能力。然而，性能更好的模型通常需要70亿（7B）或更多的参数规模，显著增加了计算开销。因此，仍然迫切需要一个框架，能够利用MLLMs的生成能力来增强视觉监督，同时以数据高效的方式将生成的表示与情感语义对齐。大多数先前的工作要么直接微调MLLMs，但这在计算上代价高昂且往往无法弥合语义差距；要么依赖缺乏可解释性的隐式融合机制。没有一种方法系统地利用MLLM生成的视觉情感线索作为显式的监督信号来同时提高准确性和可解释性。为了解决这些差距，我们提出了LAMER，一种视觉标签增强驱动的多模态情感识别方法。LAMER引入了一种新范式，通过MLLMs自动生成多粒度视觉情感线索，在跨模态对齐约束下通过轻量级的视觉问答（VQA）模块对其进行提炼，并通过多任务协作学习将增强的视觉特征整合到多模态融合网络中。这种方法不仅加强了视觉与情感之间的关联，还提供了自然语言解释，有效地将MLLMs的泛化能力与任务特定的区分能力相结合。如图2所示，LAMER框架包括三个阶段：首先，利用MLLMs和LLMs为代表性关键帧生成细粒度的视觉情感线索，增强视觉模态在多标签语义空间中的表达能力；接下来，我们结合一个轻量级的视觉问答（VQA）模型对生成的情感线索进行数据提炼，建立跨模态对齐约束以提高模型对情感语义的理解和可解释性；随后，我们将该框架应用于多模态融合网络，实现同步范式下的多任务协作训练或级联范式下的分阶段优化。我们进一步引入了一种生成任务机制，这在之前的MMER研究中尚未系统研究过，通过生成细粒度情感线索来深化情感理解。结合监督网络的优势，这种方法共同提高了特征的可区分性和可解释性。

本文的贡献如下：
• 我们通过视觉线索生成模块提出了一个以数据为中心的创新，将重点从架构复杂性转移到视觉标签增强上。通过利用MLLMs生成明确的、多粒度的情绪线索（面部、身体和场景），我们引入了一种新的监督信号，直接解决了传统情感数据集中语义稀缺的问题。
• 我们设计了跨模态视觉蒸馏和对齐约束模块（CMV-DAC）以实现深度视觉语义对齐。通过构建视觉问答任务，我们确保视觉特征与生成的情感线索在语义上保持一致，从而提高了视觉表示的区分能力和模型层面的可解释性。
• 我们提出了LAMER方法，构建了一种融合生成机制与多任务协作的视觉标签增强范式。在CMU-MOSEI数据集上，我们的方法在准确率上提高了2.23%，在微F1分数上提高了3.72%，同时保持了生成直观可解释的视觉情感分析结果的能力。该方法在跨数据集上表现出强大的泛化能力，优于仅在目标数据集上训练的监督模型。

相关工作
本节回顾了多模态情感识别中的核心挑战（见表2）。我们回顾了专注于多模态情感识别任务的代表性研究，然后总结了基于MLLMs的情感语义信息提取和融合方法。此外，在现实世界应用场景中存在的数据偏见问题背景下，我们概述了该领域的最新进展。

方法论
我们提出了一个视觉标签增强驱动的多模态情感识别（LAMER）框架（如图2所示）。该框架包括三个核心模块：视觉线索生成、跨模态视觉蒸馏和对齐约束（CMV-DAC）以及多模态特征提取和融合。为了解决视觉模态在多模态情感识别中的表现不佳问题以及通用MLLM与特定情感任务之间的语义差距，我们专注于加强情感...

数据集和模型设置
为了验证LAMER框架的有效性，我们采用了注意力融合网络[4]作为多模态特征融合方法进行消融和泛化实验。此外，我们对各种现有的多模态情感识别方法进行了公平的消融实验。消融和比较实验主要使用了通用的CMU-MOSEI数据集[2]，而泛化实验则关注不同年龄段的视频情感识别。

结论
在本文中，我们提出了LAMER，一种视觉标签增强驱动的多模态情感识别方法。该方法利用MLLMs生成细粒度的视觉情感线索，并使用跨模态视觉蒸馏和对齐约束（CMV-DAC）模块有效增强视觉特征的情感识别能力。通过多任务协作机制，在细粒度数据的共同监督下，情感识别的准确率得到了有效提高。

CRediT作者贡献声明
魏青兰：研究、资金获取。
周亚琪：数据整理、概念化。
周俊哲：形式分析、数据整理。
叶龙：软件、概念化。
张源：方法论、研究。

利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢
本工作部分得到了国家自然科学基金（项目编号62301510、72474198）的支持，部分得到了中国传媒大学公共计算云的支持。
魏青兰目前是中国传媒大学数据科学与智能媒体学院的副教授。她曾在美国宾夕法尼亚州匹兹堡卡内基梅隆大学语言技术研究所担任访问学者。她在中国北京师范大学人工智能学院获得了计算机科学博士学位。她在学术期刊上发表了一系列文章。

联系信箱：

粤ICP备09063491号

热点排行