多模态情感分析(MSA)(Wang, Wang, Lin, Xu, & Guo (2023a); Xu, Li, Huang, Li, & Philip (2020a); Yu et al. (2020); Yuan, Li, Xu, & Yu (2021))是情感计算中的一个关键任务,旨在通过协同分析来自文本和图像等异构模态的互补信息来推断人类情感(Baltru?aitis, Ahuja, & Morency (2018))。随着社交平台上用户生成的多模态内容的指数级增长,MSA在从心理健康监测到个性化推荐系统等各种应用中变得不可或缺(Cai, Cai, & Wan (2019))。与单模态分析不同,MSA可以利用跨模态交互来解码在单个模态中通常表达模糊的复杂情感线索。例如,用户可能会将中性图像与讽刺性文本配对,以传达隐含的负面情感,这种现象在社交媒体交流中非常普遍。准确建模这种多模态情感具有重要的社会价值,能够更细致地理解现实世界场景中的用户生成内容。
尽管现有方法在MSA领域取得了显著进展,但它们仍然存在以下两个阻碍其发展的缺点:(1)过度强调跨模态对齐,而忽视了对特定情感的跨模态交互线索的深入分析。现有方法主要关注利用注意力机制和对比学习等策略来实现跨模态对齐,旨在弥合跨模态表示之间的差距。然而,虽然有效建立了跨模态特征关联,但它们未能充分解决跨模态交互线索的情感驱动本质,也没有系统地探索多模态内容中固有的情感特征。(2)由于标注训练数据有限,尤其是对于细粒度情感类别,导致过拟合。大多数最先进的模型严重依赖于完全标注的数据集,但由于标注的复杂性和主观性,获取高质量的多模态情感标签面临实际瓶颈。这种数据限制不仅增加了过拟合的风险,还限制了模型学习全面跨模态情感模式的能力,特别是对于罕见或复杂的情感状态。
近年来,大型视觉-语言模型(LVLMs)(Bai et al. (2023); Liu, Li, Li, & Lee (2024))展示了出色的跨模态推理能力,而预训练范式(Devlin (2018); Su et al. (2020) 在多个领域展示了强大的语义表示能力。受到这些进展的启发,我们提出了两个关键见解来解决上述两个挑战:(1)LVLM可以为图像-文本对生成明确的跨模态情感描述。与通用的多模态内容表示不同,这些以情感为中心的描述专注于情感信息和模态之间的交互线索,从而将学习范式从隐式特征挖掘转变为显式的情感感知推理。这使得模型能够捕捉到细微的跨模态情感依赖性。这些生成的情感描述作为外部知识,可以系统地整合到跨模态联合特征表示中,以增强情感表达力。(2)大量的未标注图像-文本对本质上包含了丰富的情绪信息,这些信息在规模上表现出潜在的情感模式。自监督预训练策略可以有效地挖掘这些潜在的情感关联和表达规律。通过在未标注数据上进行预训练,然后用标注样本对模型进行微调,我们可以提高其对情感语义的敏感性,并提高其识别和解释复杂情感表达的能力。
在本文中,我们提出了一种新颖的模型SKAN:一种用于多模态情感分析的自监督知识增强网络。SKAN模型的流程如图1所示。具体来说,我们的框架包括以下结构化阶段:(1)跨模态情感描述生成:我们首先使用特定任务的提示将图像-文本对输入到LVLM中,以提取以情感为导向的描述。这些描述反映了从两种模态中系统分析情感线索得出的跨模态情感交互。(2)情感词典引导的掩码:其次,我们使用情感词典(Hutto & Gilbert (2014)来识别文本中的情感词汇。极性最强的词汇被掩码,以支持模型后续的自监督学习。(3)以文本为中心的多模态融合:随后,建立了一个以文本为中心的多模态融合模型,情感描述知识和图像被视为文本的辅助信息,以增强被掩码文本的情感表示。融合后的多模态表示用于预测被掩码词汇的情感强度。(4)自监督预训练和监督微调:最后,模型在大量未标注数据上进行自监督预训练,以提高其对情感语义的敏感性。在此基础上,通过在标注样本上进行微调,使其能够更准确和有效地预测情感极性。
我们工作的贡献总结如下:
•我们使用LVLM显式构建了以情感驱动的跨模态交互线索,即跨模态情感描述。通过系统地将情感描述知识整合到MSA中,显著提高了模型的多模态理解能力。
•我们率先在图像-文本情感分析中引入了自监督情感预训练机制,旨在利用大量未标注数据来捕捉隐含的情感模式。该框架显著提高了模型对情感语义的敏感性,同时减少了对外部手动标注的依赖。
•我们在三个基准数据集上进行了广泛的实验,证明了SKAN相较于现有最佳方法的有效性和优越性。