讽刺：具有冲突对齐和语义建模的讽刺属性表示

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出基于冲突对齐和双语义空间建模的多模态讽刺检测框架SARCASM，通过LLM增强文本语义、引入空间特征增强模块提取视觉细粒度特征，并设计跨模态语义建模和冲突对齐模块解决多模态语义不一致问题，在DMSD-OOD数据集上F1值提升2.56%。

吴琼宇|唐学松|郝光荣|李玉冰

中国上海东华大学信息科学与技术学院

摘要

讽刺通常被认为是一种具有挑战性且难以捉摸的交流形式，因为其字面意义往往与实际意图相悖。检测微妙的讽刺线索一直是一项艰巨的任务，尤其是在多模态环境中。在本文中，我们提出了一种创新的讽刺检测方法，称为具有冲突对齐和语义建模的讽刺属性表示（SARCASM）。受讽刺理论的启发，我们的模型旨在通过利用多模态数据中固有的冲突来检测讽刺。我们利用多模态大型语言模型和深度可分离卷积来解决模态内差异，而模态间不一致特征则通过残差跨模态注意力融合网络构建。从两个子空间（模态间语义空间和模态内语义空间）中提取的属性通过测量它们之间的距离来进行对齐，以捕捉冲突。实验表明，我们的模型不仅在两个流行的讽刺检测数据集上取得了优异的性能，而且在分布外场景中也展示了强大的泛化能力，在DMSD-OOD基准测试中提升了2.56%的F1分数。我们的代码可在此处获取：https://github.com/loliVessalius/SARCASM。

引言

作为一种独特的交流形式，讽刺常常表现为对比、夸张、隐含意义等技巧。通过将真实意图和外在表达对立起来，这些形式实现了讽刺的效果。例如，对表现糟糕的人说“你做得太棒了！”实际上是为了贬低或批评他们。以往的讽刺检测研究主要集中在文本数据上。然而，随着社交媒体的飞速发展，现在情感丰富的内容经常以多模态形式共享，结合了文本、图像和其他模态[1]。这种转变使得多模态讽刺表达（文本内容与视觉或其他媒体形式交织在一起）成为了研究焦点。

为了说明这一点，图1展示了两个对比鲜明的例子，突出了跨模态关系如何影响讽刺的感知。在图1(a)中，文本“交通自拍。多么美好的事情啊。”与一张在车内拍摄的愉快自拍配对。这两种模态都传达了积极且一致的情感基调，导致了一种直接的非讽刺性解读。相比之下，图1(b)中的标题“嘿，大促销！”与一张显示价格从129美元降至128美元的图片配对。这里，过于热情的文本和令人失望的视觉信息产生了语义冲突，引发了讽刺效果。这个例子表明，讽刺往往不是来自单一模态，而是来自它们之间的不一致。

这种多模态讽刺常常带来复杂的挑战，传统的以文本为中心的讽刺检测方法难以应对。因此，探索在多模态环境中有效检测讽刺的方法越来越受到研究人员的关注。

最近的研究探索了多种多模态讽刺检测（MSD）方法。早期的工作尝试通过连接[2]或注意力机制[3]来融合文本和图像特征来检测讽刺。尽管这些技术显示出了有希望的结果，但它们往往无法捕捉到局限于特定单词或图像区域的细微语义不一致。为了解决这个问题，最近的研究开始使用图神经网络（GNNs）来发现文本和视觉模态之间的解释性关系[4]、[5]、[6]、[7]。同时，大型语言模型（LLMs）的兴起激发了它们在讽刺相关任务中的应用，因为它们具有强大的语义能力和在分布外（OOD）数据上的零样本性能[8]、[9]

尽管取得了这些进展，现有的MSD模型仍然面临关键挑战。首先，大多数模型作为黑盒运行，可解释性有限[10]。其次，它们通常忽略了每个模态内部以及模态之间的微妙语义冲突[11]。此外，尽管LLMs在捕捉一般语义方面表现出色，但它们的预测常常会出现幻觉，包含不可靠或伪造的线索[12]。

根据《剑桥英语词典》的定义，讽刺被定义为“使用明显与所说内容相反的言论，目的是伤害某人的感情或以幽默的方式批评某事物。” [13] 这一定义强调了字面表达和实际意图之间的基本语义对立，这为我们的建模方法提供了概念基础。

尽管目前还没有多模态讽刺的正式定义，但先前的研究[1]、[4]、[5]、[14]已经表明，讽刺意图不仅可以来自文本线索，还可以来自单个模态内的语义不一致（如讽刺性的视觉内容或矛盾的文本情感），以及模态之间的不一致（如与令人失望的图片配对的愉快标题）。

受这一理论洞察的启发，我们提出了一个新颖的MSD框架，旨在明确建模模态内和模态间的语义冲突——这是现有工作中经常被忽视的方面。我们的方法基于讽刺的语言本质，并通过双空间语义建模策略来体现这一点。在模态内语义空间中，我们利用大型语言模型（LLMs）的知识来增强文本模态，不是为了直接预测（这可能会导致幻觉），而是作为语义增强器。在视觉方面，我们引入了一个空间特征增强模块来提取细微的讽刺线索。虽然这些单模态特征有助于检测潜在的冲突，但它们不足以捕捉跨模态讽刺。为了解决这个问题，我们提出了一个跨模态变换器层，将模态内语义与模态间表示整合在一起。这使得模型能够感知和推理跨模态的语义差异。我们方法的核心是讽刺属性张量的概念，这些张量作为捕获局部和全局不一致的语义容器。这些张量输入到冲突对齐模块中，该模块模拟了模态内和模态间表示的空间和语义差异。通过这种方式，我们使模型能够将讽刺表示为一种结构化、基于语义的矛盾——而不仅仅是一个情感信号。

与依赖启发式注意力或融合策略的现有MSD方法相比，我们的模型提供了一个更具解释性、理论依据更强的解决方案。通过明确编码模态级别的矛盾，它提高了准确性和透明度。我们的主要贡献总结如下：

•

我们利用多模态大型语言模型和语义空间信息为多种模态提供知识支持，同时构建模态内和模态间语义建模来表示讽刺特征的空间。

•

我们引入了一个新颖的冲突对齐模块，用于测量局部和全局表示之间的空间距离，从而实现细粒度的映射和语义不一致的解决。

•

我们在两个广泛使用的讽刺数据集上展示了最先进的性能，并在DMSD-OOD测试集上取得了最佳结果[15]，验证了我们模型的鲁棒性和泛化能力。

本文的其余部分组织如下。第2节回顾了讽刺检测、语义空间信息和多模态大型语言相关的工作。第3节详细介绍了我们提出的方法，包括任务构建、模态内语义建模、模态间语义建模、冲突对齐模块和讽刺检测策略。第4节介绍了实验设置和结果。最后，第5节总结了本文，讨论了其局限性，并提出了未来研究的方向。

部分摘录

讽刺检测

由于讽刺是一种独特的语言现象，早期的讽刺检测研究主要集中在文本模态[16]、[17]。然而，随着通信技术和社交媒体的快速发展，公众态度越来越多地以多模态讽刺的形式表达。Schifanella等人[18]是探索多模态讽刺检测的先驱，他们提出了一个基于手工特征的模型来处理文本和视觉中的讽刺

方法论

在本节中，将详细描述所提出的SARCASM框架。SARCASM的总体架构主要包括六个组成部分，如图2所示：(a) 特征提取模块。(b) 增强知识的注意力机制模块。(c) 空间特征增强模块。(d) 模态内语义建模模块。(e) 模态间语义建模模块。(f) 讽刺检测模块。

每个组件都旨在捕获特定层次的语义信息

实验

本节首先介绍第4.1节中的三个实验数据集，然后第4.2节详细描述了实现细节。第4.3节提供了用于比较的基线模型概述。第4.4节涵盖了实验结果，将模型与基线方法进行了比较。第4.5节进行了消融实验，以评估每个组件的单独贡献。最后，第4.6节可视化了效果

结论与讨论

结论

在本文中，我们提出了一个多模态讽刺检测框架，该框架整合了冲突对齐和语义建模。该方法通过空间特征增强来增强模态内图像表示，并通过多模态大型语言模型引导的知识增强来加强文本理解。为了捕捉图像和文本之间的跨模态不一致，我们设计了一个模态间语义建模模块，将多模态特征投影到不同的

CRediT作者贡献声明

吴琼宇：撰写——原始草稿，软件，数据整理。唐学松：撰写——审稿与编辑，监督，项目管理，方法论，调查，资金获取。郝光荣：监督。李玉冰：验证。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了中国国家自然科学基金（项目编号62176052）、中央高校基本科研业务费、东华大学杰出青年教授计划以及上海市教委AI增强研究计划（SMEC-AI-DHUZ-05）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

讽刺检测

方法论

实验

结论与讨论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行