利用自监督知识增强网络实现多模态情感分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Toward Multimodal Sentiment Analysis with a Self-Supervised Knowledge-Augmented Network

【字体：大中小】 时间：2026年02月15日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态情感分析存在跨模态对齐与情感交互分析不足、标注数据有限导致过拟合问题。本文提出SKAN框架，通过大语言模型生成情感描述并融合跨模态信息，结合情感词典引导的自监督预训练，有效提升模型对情感语义的敏感性和泛化能力。

刘云|张晓明|彭天豪|周凯|李周军

贵州省仁怀市茅台研究院自动化工程学院，智能信息处理实验室，564501，中国

摘要

多模态情感分析（MSA）因其能够利用来自多种模态的互补情感线索而受到越来越多的关注。然而，现有方法仍然存在两个关键限制：（1）过度强调跨模态对齐，而忽视了对特定情感的跨模态交互线索的深入分析；（2）依赖于有限的标注数据，导致监督模型过拟合。为了解决这些问题，本文提出了SKAN：一种用于多模态情感分析的自监督知识增强网络。首先，将多模态信息输入到一个大型视觉-语言模型中，以生成明确的跨模态情感描述。这些情感描述作为外部知识，通过以文本为中心的多模态融合模块与相应的文本-图像对集成。这增强了模型发现潜在情感关联的能力，并提高了多模态情感表达的能力。其次，为了减轻数据稀缺的影响，设计了一种自监督预训练策略，利用情感强度词典对未标注的多模态数据进行情感掩码和强度估计。这种设计使模型能够从大量的未标注样本中获取跨模态情感表示，从而提高其语义敏感性和泛化能力。在三个基准数据集上的广泛实验验证了SKAN相较于现有最佳方法的优越性能。所提出的框架提供了一种新的范式，它将外部知识和自监督相结合，推动了多模态情感分析领域的发展。

引言

多模态情感分析（MSA）（Wang, Wang, Lin, Xu, & Guo (2023a); Xu, Li, Huang, Li, & Philip (2020a); Yu et al. (2020); Yuan, Li, Xu, & Yu (2021)）是情感计算中的一个关键任务，旨在通过协同分析来自文本和图像等异构模态的互补信息来推断人类情感（Baltru?aitis, Ahuja, & Morency (2018)）。随着社交平台上用户生成的多模态内容的指数级增长，MSA在从心理健康监测到个性化推荐系统等各种应用中变得不可或缺（Cai, Cai, & Wan (2019)）。与单模态分析不同，MSA可以利用跨模态交互来解码在单个模态中通常表达模糊的复杂情感线索。例如，用户可能会将中性图像与讽刺性文本配对，以传达隐含的负面情感，这种现象在社交媒体交流中非常普遍。准确建模这种多模态情感具有重要的社会价值，能够更细致地理解现实世界场景中的用户生成内容。

尽管现有方法在MSA领域取得了显著进展，但它们仍然存在以下两个阻碍其发展的缺点：（1）过度强调跨模态对齐，而忽视了对特定情感的跨模态交互线索的深入分析。现有方法主要关注利用注意力机制和对比学习等策略来实现跨模态对齐，旨在弥合跨模态表示之间的差距。然而，虽然有效建立了跨模态特征关联，但它们未能充分解决跨模态交互线索的情感驱动本质，也没有系统地探索多模态内容中固有的情感特征。（2）由于标注训练数据有限，尤其是对于细粒度情感类别，导致过拟合。大多数最先进的模型严重依赖于完全标注的数据集，但由于标注的复杂性和主观性，获取高质量的多模态情感标签面临实际瓶颈。这种数据限制不仅增加了过拟合的风险，还限制了模型学习全面跨模态情感模式的能力，特别是对于罕见或复杂的情感状态。

近年来，大型视觉-语言模型（LVLMs）（Bai et al. (2023); Liu, Li, Li, & Lee (2024)）展示了出色的跨模态推理能力，而预训练范式（Devlin (2018); Su et al. (2020) 在多个领域展示了强大的语义表示能力。受到这些进展的启发，我们提出了两个关键见解来解决上述两个挑战：（1）LVLM可以为图像-文本对生成明确的跨模态情感描述。与通用的多模态内容表示不同，这些以情感为中心的描述专注于情感信息和模态之间的交互线索，从而将学习范式从隐式特征挖掘转变为显式的情感感知推理。这使得模型能够捕捉到细微的跨模态情感依赖性。这些生成的情感描述作为外部知识，可以系统地整合到跨模态联合特征表示中，以增强情感表达力。（2）大量的未标注图像-文本对本质上包含了丰富的情绪信息，这些信息在规模上表现出潜在的情感模式。自监督预训练策略可以有效地挖掘这些潜在的情感关联和表达规律。通过在未标注数据上进行预训练，然后用标注样本对模型进行微调，我们可以提高其对情感语义的敏感性，并提高其识别和解释复杂情感表达的能力。

在本文中，我们提出了一种新颖的模型SKAN：一种用于多模态情感分析的自监督知识增强网络。SKAN模型的流程如图1所示。具体来说，我们的框架包括以下结构化阶段：（1）跨模态情感描述生成：我们首先使用特定任务的提示将图像-文本对输入到LVLM中，以提取以情感为导向的描述。这些描述反映了从两种模态中系统分析情感线索得出的跨模态情感交互。（2）情感词典引导的掩码：其次，我们使用情感词典（Hutto & Gilbert (2014）来识别文本中的情感词汇。极性最强的词汇被掩码，以支持模型后续的自监督学习。（3）以文本为中心的多模态融合：随后，建立了一个以文本为中心的多模态融合模型，情感描述知识和图像被视为文本的辅助信息，以增强被掩码文本的情感表示。融合后的多模态表示用于预测被掩码词汇的情感强度。（4）自监督预训练和监督微调：最后，模型在大量未标注数据上进行自监督预训练，以提高其对情感语义的敏感性。在此基础上，通过在标注样本上进行微调，使其能够更准确和有效地预测情感极性。

我们工作的贡献总结如下：

•

我们使用LVLM显式构建了以情感驱动的跨模态交互线索，即跨模态情感描述。通过系统地将情感描述知识整合到MSA中，显著提高了模型的多模态理解能力。

•

我们率先在图像-文本情感分析中引入了自监督情感预训练机制，旨在利用大量未标注数据来捕捉隐含的情感模式。该框架显著提高了模型对情感语义的敏感性，同时减少了对外部手动标注的依赖。

•

我们在三个基准数据集上进行了广泛的实验，证明了SKAN相较于现有最佳方法的有效性和优越性。

本文的其余部分组织如下：首先回顾相关工作，然后介绍我们模型的详细信息，接着介绍实验和结果分析，最后对本文进行总结。

部分片段

跨模态融合

跨模态特征融合是多模态学习的基础，通过整合异构模态特征实现全面分析。当前针对这一关键技术的方法可以系统地分为三种不同的范式。第一类包括早期融合技术，这些技术使用向量求和或连接等基本操作来整合来自不同模态的特征。其特点是实现简单

方法论

我们提出的SKAN模型用于MSA的详细操作流程如图2所示。该架构包括四个连续阶段：（1）情感描述生成：使用特定任务的提示将图像-文本对输入到LVLM中，以系统分析图像-文本对，生成捕捉跨模态情感关联的文本描述；（2）情感词典引导的掩码：我们使用情感词典

实验

本节首先详细介绍了准备实验数据的步骤和具体的实施策略。随后，我们提出了SKAN模型与各种基准方法之间的全面比较。最后，进行了一系列结构良好的实验，以严格评估所提出方法的有效性。

结论

在本文中，我们介绍了SKAN，一种用于多模态情感分析的自监督知识增强网络。SKAN通过一个结构化的四阶段流程整合了跨模态情感信息。首先，利用外部的大型视觉-语言模型（LVLM）生成捕捉视觉和文本模态之间交互的情感描述；然后，情感词典引导的掩码策略通过隐藏和预测来实现自监督学习

CRediT作者贡献声明

刘云：概念化、方法论、验证、研究、资源、撰写——原始草稿。张晓明：方法论、撰写——审阅与编辑、资金获取。彭天豪：软件、验证、可视化。周凯：资源、数据管理。李周军：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号