ViSP：一种基于PPO框架的多模态讽刺生成系统，采用对比学习技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：ViSP: A PPO-enhanced framework for multimodal sarcasm generation with contrastive learning

【字体：大中小】 时间：2026年03月01日 来源：Neurocomputing 6.5

编辑推荐：

　　多模态讽刺生成研究提出M2SaG数据集与ViSP框架，融合PPO强化学习与对比学习提升生成质量，实验显示其优于文本模型、VLM及LLMs，Sarcasm Score达0.898，事实不匹配度0.768。

王长利|尹芳|刘家锋|吴睿

哈尔滨工业大学计算机学院，哈尔滨，150001，中国

摘要

人类情感本质上是复杂的，讽刺是一种最为微妙且独特的表达形式。尽管在讽刺理解方面取得了显著进展，但讽刺生成的研究仍然不足，这主要是由于过度依赖文本信息、忽视视觉线索，以及现有数据集中图像与讽刺意图之间的语义不匹配。在这项工作中，我们提出了M2SaG，这是一个包含4970个样本的多模态讽刺生成数据集，每个样本都包含一张图片、一段讽刺文本及其对应的讽刺目标。为了评估M2SaG，我们提出了ViSP，这是一个基于ViLT的讽刺生成框架，它将近端策略优化（PPO）与对比学习相结合。PPO利用从DIP获得的奖励分数来指导生成过程，而对比学习则鼓励模型偏好获得更高奖励的输出。这些策略共同提高了生成质量，并增强了输出中的讽刺意图。通过对五个指标集的全面评估，我们发现ViSP始终优于所有基线模型（包括大型语言模型），突显了它们在讽刺生成方面的局限性。此外，对M2SaG和ViSP输出中的讽刺分数及事实不一致性分布的分析表明，ViSP获得了更高的平均讽刺分数（0.898 vs 0.770）和事实不一致性（0.768 vs 0.739），证明了其生成更高质量、更具语境讽刺性的文本的能力。我们的数据集可在https://github.com/wclapply/ViSP获取。

引言

人类情感本质上是复杂且多方面的，讽刺是一种独特的表达方式。讽刺是一种文学形式，它运用夸张和讽刺等修辞手法来揭示矛盾或缺陷，通常会产生幽默效果。心理证据表明，虽然使用和理解讽刺需要大量的认知资源[1]，但这些能力与接收者推断和理解他人心理状态的能力（称为心智理论[2]）呈正相关。虽然人类能够轻松解读多模态线索来推断他人的心理状态，但AI系统在这方面面临巨大困难。它们缺乏与生俱来的社会推理能力，这限制了它们理解讽刺的能力，而这对自然且具上下文敏感的人机交互至关重要。

动机。现有的讽刺生成方法[3]、[4]、[5]、[6]主要关注文本，对多模态情境的探索有限。迄今为止，[7]在这一领域进行了初步研究。多模态讽刺通常源于图像和文本之间的强烈语义不一致性，这种现象称为事实不一致性[8]，这需要比标准情感文本生成更细致的跨模态语义理解。我们将多模态讽刺生成进展有限的原因归结为两个主要因素。首先，大多数现有方法严重依赖文本输入，而忽视了视觉线索，限制了模型捕捉讽刺表达全范围的能力。其次，可用数据集的质量仍然不足。MuSG数据集[7]中图像和讽刺文本之间存在显著不匹配（见图1(a)）。使用DIP[8]计算讽刺分数，我们发现大约三分之一的样本得分低于0.5，表明讽刺程度较弱或隐含。此外，不精确的标签（如#impressive）对识别讽刺目标帮助甚微，进一步阻碍了有效多模态讽刺生成模型的发展。

新数据集和基线。为了解决上述问题，我们提出了一个新的数据集M2SaG，包含4970个样本。每个样本包括一张图片、一段讽刺文本和一个明确标注的讽刺目标，如图1(b)左侧所示。与MuSG相比，我们的M2SaG数据集的平均讽刺分数为0.7700，标准差为0.1817，表明其中包含更强烈、更一致的讽刺内容。我们引入了ViSP，这是一个基于预训练的视觉与语言Transformer（ViLT）[9]的基准模型来评估M2SaG。具体来说，我们的方法首先使用ViLT模型从图像和文本中提取联合多模态嵌入，然后将其输入BART[10]生成讽刺文本。受InstructGPT[11]的启发，我们开发了一个基于近端策略优化（PPO）[12]的框架，该框架结合了分数引导的生成策略。在这个框架中，BART首先生成多个候选讽刺文本，然后通过DIP[8]进行评估，以分配反映讽刺意图强度的分数。这些分数作为PPO损失中的奖励信号，迭代改进生成过程，引导模型产生更具讽刺意图的输出。同时，在训练过程中，BART生成多个候选文本，将得分最高的文本视为正样本，其余的视为负样本进行对比学习，进一步增强模型生成高质量讽刺文本的能力。

为了验证ViSP的有效性，我们与各种基线进行了全面比较，包括仅文本模型（如GPT-2 [13]和T5 [14]）、视觉语言模型（VLMs）如GIT [15]，以及大型语言模型（LLMs）如LLaVA [16]和DeepSeek [17]。ViSP在所有评估指标上均表现优异，展示了其在讽刺生成方面的优势。此外，我们分析了M2SaG和ViSP生成文本的讽刺分数及事实不一致性分布，发现ViSP的平均讽刺分数（0.898 vs 0.770）和事实不一致性（0.768 vs 0.739）更高，证明了其生成更高质量、更具语境讽刺性的文本的能力。详细实验和分析见第5节。

本文的主要贡献总结如下：

•

我们开发了M2SaG，一个包含4970个样本的新数据集，专门用于多模态讽刺生成任务。

•

我们使用基于ViLT构建的新型编码器-解码器模型对M2SaG进行了基准测试，作为多模态讽刺生成的强大基线。

•

据我们所知，我们是第一个将PPO损失引入讽刺生成领域的强化学习方法。实验结果证明了其在提高生成讽刺文本质量方面的强大效果。

•

我们对仅文本模型、VLMs和LLMs进行了全面比较，发现LLMs在讽刺生成方面的表现不佳。这些实验结果进一步突显了ViSP的有效性和鲁棒性。

数据集

本节详细介绍了我们开发的多模态讽刺生成（M2SaG）数据集。图1(b)提供了一个示例。鉴于MuSG[7]中图像-文本对齐较弱且讽刺目标模糊，我们构建了一个新的数据集，确保了讽刺目标的清晰标注和强化的视觉-文本对齐。我们探索了两个现有数据集MSTI [37]和MORE+ [34]以获取讽刺目标。

方法论

为了生成讽刺文本，我们提出了ViSP，这是一个基于ViLT的编码器-解码器框架。本节详细描述了ViSP的整体架构及其各个组成部分。

实验设置

所有实验都在单个NVIDIA A100-PCIE-40G GPU上进行。我们训练模型20个周期，批量大小为16，初始学习率为1e-4，包括前100步的暖启动。我们使用BART分词器，最大令牌长度为256。对比损失权重

固定为0.5，而PPO损失权重

在训练过程中动态变化。温度参数

设置为0.07。此外，模型在训练过程中生成top-

个候选文本（其中

个得分最高）。

讨论与结论

在这项工作中，我们提出了一个包含4970个样本的新数据集M2SaG。此外，我们提出了一个强大的基线模型ViSP来评估M2SaG数据集。据我们所知，这是第一个将PPO强化学习引入讽刺生成领域的研究。我们的实验在五个评估指标上均表现出最佳性能。我们还发现，大型语言模型（LLMs）在讽刺生成方面的表现不佳。此外，我们还进行了...

CRediT作者贡献声明

王长利：撰写——原始草稿、验证、方法论、调查、形式分析。尹芳：撰写——审阅与编辑、方法论。刘家锋：撰写——审阅与编辑、形式分析、概念化。吴睿：撰写——审阅与编辑、监督、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

本研究得到了中国国家重点研发计划（编号2023YFC3305003）和中国国家自然科学基金（编号61440025）的支持。

王长利在中国哈尔滨工业大学获得了保密管理硕士学位。他目前正在哈尔滨工业大学攻读博士学位。他的研究兴趣包括多模态学习和情感分析。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

数据集

方法论

实验设置

讨论与结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行