作为一种独特的交流形式,讽刺常常表现为对比、夸张、隐含意义等技巧。通过将真实意图和外在表达对立起来,这些形式实现了讽刺的效果。例如,对表现糟糕的人说“你做得太棒了!”实际上是为了贬低或批评他们。以往的讽刺检测研究主要集中在文本数据上。然而,随着社交媒体的飞速发展,现在情感丰富的内容经常以多模态形式共享,结合了文本、图像和其他模态[1]。这种转变使得多模态讽刺表达(文本内容与视觉或其他媒体形式交织在一起)成为了研究焦点。
为了说明这一点,图1展示了两个对比鲜明的例子,突出了跨模态关系如何影响讽刺的感知。在图1(a)中,文本“交通自拍。多么美好的事情啊。”与一张在车内拍摄的愉快自拍配对。这两种模态都传达了积极且一致的情感基调,导致了一种直接的非讽刺性解读。相比之下,图1(b)中的标题“嘿,大促销!”与一张显示价格从129美元降至128美元的图片配对。这里,过于热情的文本和令人失望的视觉信息产生了语义冲突,引发了讽刺效果。这个例子表明,讽刺往往不是来自单一模态,而是来自它们之间的不一致。
这种多模态讽刺常常带来复杂的挑战,传统的以文本为中心的讽刺检测方法难以应对。因此,探索在多模态环境中有效检测讽刺的方法越来越受到研究人员的关注。
最近的研究探索了多种多模态讽刺检测(MSD)方法。早期的工作尝试通过连接[2]或注意力机制[3]来融合文本和图像特征来检测讽刺。尽管这些技术显示出了有希望的结果,但它们往往无法捕捉到局限于特定单词或图像区域的细微语义不一致。为了解决这个问题,最近的研究开始使用图神经网络(GNNs)来发现文本和视觉模态之间的解释性关系[4]、[5]、[6]、[7]。同时,大型语言模型(LLMs)的兴起激发了它们在讽刺相关任务中的应用,因为它们具有强大的语义能力和在分布外(OOD)数据上的零样本性能[8]、[9]
尽管取得了这些进展,现有的MSD模型仍然面临关键挑战。首先,大多数模型作为黑盒运行,可解释性有限[10]。其次,它们通常忽略了每个模态内部以及模态之间的微妙语义冲突[11]。此外,尽管LLMs在捕捉一般语义方面表现出色,但它们的预测常常会出现幻觉,包含不可靠或伪造的线索[12]。
根据《剑桥英语词典》的定义,讽刺被定义为“使用明显与所说内容相反的言论,目的是伤害某人的感情或以幽默的方式批评某事物。” [13] 这一定义强调了字面表达和实际意图之间的基本语义对立,这为我们的建模方法提供了概念基础。
尽管目前还没有多模态讽刺的正式定义,但先前的研究[1]、[4]、[5]、[14]已经表明,讽刺意图不仅可以来自文本线索,还可以来自单个模态内的语义不一致(如讽刺性的视觉内容或矛盾的文本情感),以及模态之间的不一致(如与令人失望的图片配对的愉快标题)。
受这一理论洞察的启发,我们提出了一个新颖的MSD框架,旨在明确建模模态内和模态间的语义冲突——这是现有工作中经常被忽视的方面。我们的方法基于讽刺的语言本质,并通过双空间语义建模策略来体现这一点。在模态内语义空间中,我们利用大型语言模型(LLMs)的知识来增强文本模态,不是为了直接预测(这可能会导致幻觉),而是作为语义增强器。在视觉方面,我们引入了一个空间特征增强模块来提取细微的讽刺线索。虽然这些单模态特征有助于检测潜在的冲突,但它们不足以捕捉跨模态讽刺。为了解决这个问题,我们提出了一个跨模态变换器层,将模态内语义与模态间表示整合在一起。这使得模型能够感知和推理跨模态的语义差异。我们方法的核心是讽刺属性张量的概念,这些张量作为捕获局部和全局不一致的语义容器。这些张量输入到冲突对齐模块中,该模块模拟了模态内和模态间表示的空间和语义差异。通过这种方式,我们使模型能够将讽刺表示为一种结构化、基于语义的矛盾——而不仅仅是一个情感信号。
与依赖启发式注意力或融合策略的现有MSD方法相比,我们的模型提供了一个更具解释性、理论依据更强的解决方案。通过明确编码模态级别的矛盾,它提高了准确性和透明度。我们的主要贡献总结如下:
•我们利用多模态大型语言模型和语义空间信息为多种模态提供知识支持,同时构建模态内和模态间语义建模来表示讽刺特征的空间。
•我们引入了一个新颖的冲突对齐模块,用于测量局部和全局表示之间的空间距离,从而实现细粒度的映射和语义不一致的解决。
•我们在两个广泛使用的讽刺数据集上展示了最先进的性能,并在DMSD-OOD测试集上取得了最佳结果[15],验证了我们模型的鲁棒性和泛化能力。
本文的其余部分组织如下。第2节回顾了讽刺检测、语义空间信息和多模态大型语言相关的工作。第3节详细介绍了我们提出的方法,包括任务构建、模态内语义建模、模态间语义建模、冲突对齐模块和讽刺检测策略。第4节介绍了实验设置和结果。最后,第5节总结了本文,讨论了其局限性,并提出了未来研究的方向。