SD-GKOT:通过Kuzmin-Logistic Hunter Prey优化算法,在社交网络中利用自夸(Humblebrag)和矛盾修辞(Oxymoron)来检测由情感引发的讽刺言论

《Knowledge-Based Systems》:SD-GKOT: Sentiment Induced Sarcasm Detection with Humblebrag and Oxymoron via Kuzmin-Logistic Hunter Prey Optimization in Social Web

【字体: 时间:2026年02月25日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  讽刺检测中融合了数学优化(Gauss-Kuzmin和Tsallis机制)与讽刺标记分类(humblebrag和oxymoron)的新方法SD-GKOT,通过四步流程实现高精度检测并验证其优越性。

  
希玛尼·波赫里亚尔(Himani Pokhriyal)|阿梅兰德·库马尔·米什拉(Amarendra Kumar Mishra)|古恩詹·贾恩(Goonjan Jain)
印度比拉管理学院(Birla Institute of Management Technology)信息技术系

摘要

讽刺是一种修辞手法,通过嘲笑来表达轻蔑,通常在社交媒体话语中通过独特的语调线索体现出来。虽然之前的研究已经使用了机器学习和深度学习来进行讽刺检测,但它们很少利用数学优化来捕捉隐含的语调意图。特别是,诸如“谦虚自夸”(humblebrag)和“矛盾修辞”(oxymorons)等情感形式作为讽刺的内在标志仍然未被充分探索。现有的方法往往关注文本与语调之间的不匹配,但存在几个局限性。首先,语调编码器可能无法充分处理多种不匹配情况。其次,上下文特征提取可能会引入噪声和负相关性。第三,长距离的文本依赖性经常被忽视。为了解决这些挑战,我们提出了一个统一的框架——结合高斯-库兹明优化(Gauss-Kuzmin Optimization)和塔利斯机制(Tsallis mechanism)的讽刺检测方法,用于检测讽刺及其特定类型。该方法首先使用基于词典的模型计算平均情感分数,然后通过非线性优化得出最优句子分数。接着应用高斯-库兹明优化进行讽刺检测,最终将得到的最优分数插值到逻辑分布中。这种整合使得讽刺指标的分类更加准确。实验结果表明,SD-GKOT在准确性、精确度、召回率和F1分数方面优于现有的方法。

引言

讽刺是一种用字面意义表达的言语形式,用于嘲笑和模仿他人[1]。它通常表现出正面词汇,但其实际含义却传达出负面意图。例如:“我喜欢被甩,被人踩在脚下感觉真好 WOOW #我讨厌所有人”。在这个句子中,说话者的讽刺语气体现在上下文中表达的负面情感上。这个句子中出现了正面词汇“喜欢”,但实际上表示的是负面含义“被甩感觉很棒”。讽刺检测涉及分析语言以理解说话者的真实意图[2]。这需要理解上下文,包括说话者的语调和整个对话的背景[3]。借助讽刺检测,可以更有效地分析社交媒体上的互动、对话和趋势[4]。讽刺检测对于在线平台上的有效意见挖掘和产品评论至关重要[5]。它有助于更准确地感知社交媒体上公众评论的情感语调[5]。
我们提出的方法旨在利用数学优化技术进行讽刺检测,并结合对“谦虚自夸”和“矛盾修辞”作为讽刺指标的分类认识。我们的研究特别关注这两种形式,因为它们在语言学和计算研究中都未得到充分探索。虽然常见的讽刺类型(如夸张讽刺或修辞讽刺)已经被广泛建模,但“谦虚自夸”和“矛盾修辞”涉及更微妙的语用线索,这对自动化检测提出了更大的挑战。下面我们将简要解释本研究中使用的“谦虚自夸”和“矛盾修辞”的标记。
“谦虚自夸”是一种以自贬的方式抱怨事物,但表达方式却是积极的[6]。这种讽刺发生在一个人假装抱怨或谦虚地说话,但实际上是在炫耀的时候。例如:“哎呀,我的新手机太旧了!我在和拥有安卓手机的朋友们一起上大学时都不好意思带它”。在这个例子中,说话者以抱怨的方式描述了他的手机,但实际上是在炫耀。而“矛盾修辞”是一种修辞手法,将两个对立的词结合在一起形成一个新的概念,带有令人困惑的意义[7]。这种讽刺使用两个相反或矛盾的词来创造一种嘲讽效果。例如:“丽塔充满各种习惯,她的房间却充满了有序的混乱”。在这个例子中,“有序的混乱”就是一个矛盾修辞,其中对立的词“有序”和“混乱”结合在一起。为了更清楚地了解讽刺标记,图1和图2展示了从社交媒体中提取的两条评论示例。
在图1中,这句话表现出“谦虚自夸”的讽刺特征,因为说话者淡化了个人的不便(手机屏幕破裂),同时将注意力转移到了一个敏感的问题(离婚)上。而在图2中,说话者的评论体现了矛盾修辞的讽刺特征,使用了矛盾的表达方式,如“关掉我”和“off”同时出现。
“谦虚自夸”和“矛盾修辞”利用了语言成分,但具有不同的功能,并在不同的语言层面上发挥作用。上述讨论表明,“谦虚自夸”通过伪装成谦逊来实现自我推广,而“矛盾修辞”则通过对比对立的词来产生修辞效果。这表明讽刺表达的预期效果与其实际含义在语调上通常是不同的[8]。
随着社交媒体上讽刺内容的增加,准确理解带有隐含语调的讽刺评论变得更加困难。由于讽刺的强度、精确度和书面信息中的语调,讽刺检测变得至关重要且具有挑战性[9]。同时,基于监督学习方法的注意力模型[10,11]能够捕捉讽刺的上下文知识,但忽略了具有不同语调特征的讽刺暗示的隐含意图。一些神经网络模型,如BERT-GRU-FFD[12]和MTL-DNN[13]用于讽刺检测,忽略了“谦虚自夸”和“矛盾修辞”作为讽刺指标的知识。一些过去的研究[14]虽然能够理解非字面意义的手势来检测讽刺,但无法区分微妙的讽刺。这些研究忽略了使用数学优化技术来处理带有讽刺语调特征的字面意义。
为了解决1.1小节中提到的所有问题,我们提出了一种新的讽刺检测方法,该方法结合了数学优化技术和讽刺指标的分类。所提出的方法包括四个核心步骤。第一步,通过应用基于词典的情感模型(即情感感知词典和情感推理器VADER)来评估句子的平均情感分数。借助这个模型,我们描述了文本的情感。第二步,通过非线性优化技术对平均情感分数进行处理,得到单个句子的分数。第三步,使用非线性的高斯-库兹明(GK)[15]优化技术得到最优讽刺分数。然后基于这个最优讽刺分数进行讽刺检测。最后一步,使用快速自动关键词提取(RAKE)模型对所有讽刺句子进行关键词提取,得到最高的关键词值。将最优讽刺分数和最高关键词值的平均值纳入逻辑函数[16]。接着,应用猎物-捕食者优化(HPO)技术对逻辑分布进行处理,得到最优讽刺指标分数。
根据最优讽刺指标分数,对讽刺指标进行分类,即判断是“谦虚自夸”还是“矛盾修辞”。此外,所提出的方法具有语言无关性,只需进行少量修改即可应用于其他语言。它也是领域独立的,适用于包含各种领域句子和评论的任何数据集。该研究在三个英语数据集上取得了稳健的性能。这项研究开创了使用数学优化技术检测讽刺的应用。
许多现有的机器学习和深度学习系统依赖于大型、标记化的数据集,这些数据集的准备既昂贵又耗时。这些模型往往无法捕捉定义现实世界文本中讽刺的隐藏线索和微妙的语言模式。为了克服这一问题,SD-GKOT采用了一种无监督的数学优化方法来学习语义文本线索。该方法专注于识别语言对比、语调变化和表明讽刺的上下文线索。优化过程增强了系统的稳健性,使其能够适应不同的数据集和语言。与传统模型不同,SD-GKOT提供了更高的检测准确性和对文本行为的更清晰理解。它提供了更好的泛化能力、更好的可解释性以及在各种文本条件下的更强性能。
本工作的主要贡献总结如下:
  • 1.
    提出了一种名为“使用统一非线性GK优化与塔利斯机制的讽刺检测(SD-GKOT)”的新方法。该方法结合了词典模型和数学优化,以提高讽刺检测的准确性。
  • 2.
    所提出的框架采用了三种非线性优化方法,即指数优化、GK优化和逻辑分布,有效识别讽刺及其微妙的语调指标。
  • 3.
    该方法将“谦虚自夸”和“矛盾修辞”作为不同的类别提出,使模型能够捕捉文本中的细微表达。
  • 4.
    该方法结合了校准图、布里尔分数(Brier scores)和预期校准误差(ECE),以验证预测的可靠性并提高结果的可信度。
  • 5.
    SD-GKOT在准确性、精确度、召回率和F1分数方面优于现有的基准方法,并通过ROC-AUC分析、统计验证测试和消融研究证实了其稳健性。
  • 本文的结构如下。第2节总结了相关工作。第3节提供了讽刺检测方法的详细描述以及一个示例。第4节展示了多项研究结果。第5节讨论了该方法的未来发展方向。

    相关研究

    讽刺检测的最新趋势促使了大量相关研究。无论是计算领域还是自然语言处理(NLP)领域的许多研究人员都在继续开发新的讽刺检测方法。

    问题陈述

    使用数学优化技术组合来检测讽刺及其指标,如“谦虚自夸”和“矛盾修辞”。

    SD-GKOT-提出的方法

    在本小节中,我们详细解释了SD-GKOT方法的工作原理及其对“谦虚自夸”和“矛盾修辞”指标的分类。表1展示了所提出方法中使用的符号及其有效指标。
    以下小节描述了该方法的四个核心步骤

    实验与结果分析

    通过三个数据集的广泛实验验证了所提出方法的有效性。

    讨论

    本节讨论了所提出方法面临的挑战、SD-GKOT的计算成本及其有效性,以及一个经过验证的案例研究。

    结论与未来工作

    在本研究中,提出了一种基于数学优化的新讽刺检测方法SD-GKOT。它提供了关于句子中讽刺线索及其指标的信息。该方法结合了三种非线性优化技术进行讽刺检测,利用了这些指标的知识。首先,它使用基于词典的情感模型

    资金

    本手稿的编写没有收到任何资助。

    作者贡献声明

    希玛尼·波赫里亚尔(Himani Pokhriyal):撰写/监督、验证、方法论提出、实验设计、结果分析;阿梅兰德·库马尔·米什拉(Amarendra Kumar Mishra):可视化、形式分析;古恩詹·贾恩(Goonjan Jain):监督

    数据的伦理和知情同意

    本文不包含任何作者进行的涉及动物或人类参与者的研究。

    数据集可用性

    CRediT作者贡献声明

    希玛尼·波赫里亚尔(Himani Pokhriyal):写作——审阅与编辑、撰写——原始草稿、可视化、验证、监督、软件、资源管理、方法论设计、调查、形式分析、数据整理、概念化。阿梅兰德·库马尔·米什拉(Amarendra Kumar Mishra):形式分析。古恩詹·贾恩(Goonjan Jain):形式分析。

    利益冲突声明

    作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。
    希玛尼·波赫里亚尔(Dr. Himani Pokhriyal)于2025年在印度德里技术大学获得数学与计算博士学位。她于2019–2021年在德里文卡特什瓦拉学院(Sri Venkateshwara College, University of Delhi)完成数学硕士学位,2016–2019年在德里加尔吉学院(Gargi College, University of Delhi)获得数学学士学位(荣誉学位)。她于2021年通过了GATE数学考试。目前她在比拉管理学院(Birla Institute of Management Technology)担任助理教授。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号