《Signal Processing: Image Communication》:Enhancing Memes Analysis with Multi-Task Multimodal M2CLIP-SEmoNet Architecture
编辑推荐:
多模态 meme 情感与情绪分析框架 M2CLIP-SEmoNet 通过 CLIP 模型融合图像与文本特征,有效解决低资源语言下模态交互难题,在 Memotion 多数据集上显著优于基线方法。
作者:Chhavi Dhiman、Saihajpreet Singh、Satyam Mohan
所属机构:印度德里技术大学电子与通信工程系
摘要
模因是一种融合图像和文本的在线表达形式,能够传达幽默、讽刺、社会评论甚至仇恨内容。然而,准确分析模因的情感(尤其是在像印地语这样的资源较少的语言中)面临诸多挑战,因为视觉元素和文本元素之间存在复杂的相互作用。传统的情绪分析模型往往无法有效捕捉这些细微差别,尤其是在处理多语言或混合代码的模因时。为了解决这些问题,我们提出了M2CLIP-SEmoNet架构,该架构利用OpenAI预训练的CLIP模型提取图像和文本的特征。我们的方法能够有效处理多模态模因数据,在统一的框架下同时实现情感分类和情绪分析。在三个基准数据集(Memotion 1、2和3)上的广泛实验表明,我们的方法在两项任务中的表现均显著优于现有的最先进方法。基于视觉和文本注意力融合的机制有效应对了模因中多样的语言和文化背景,为模因情感和情绪分析提供了更加稳健和通用的解决方案。源代码可访问地址:
章节片段
引言
社交媒体的迅速发展使模因成为一种主要的在线表达方式,它通过结合图像和文本来传递幽默、讽刺或社会评论[1]。然而,由于模因的多模态特性(视觉元素和文本元素以依赖于上下文的方式相互作用),对其情感分析带来了独特的挑战。传统的基于文本的情绪分析方法[2,3,4,5,6,7,8]往往效果不佳,因为模因包含微妙的文化参考和视觉线索
相关工作
早期的模因情感分析方法主要依赖于单模态架构[12,3,13],这些架构仅关注视觉或文本模式之一。在这些单模态框架中,针对特定语言的模型由于性能优于纯视觉分析而受到关注。例如,专为推文情感分析设计的BERTweet[3]具有跨领域适应的潜力,而HingMBert[2]也有类似的优势
提出的方法
本研究旨在利用模因的图像和文本内容来检测其在社交平台上的情感和情绪。模因的内容包括视觉部分(表示为)和OCR文本(表示为),其中表示单词数量。我们的任务分为两部分:(i) 任务A:将模因的情感分类为积极、消极或中性;(ii) 任务B:将情绪分类为讽刺、幽默或激励性。
实验结果
M2CLIP-SEmoNet架构使用Python 3.11在配备11代Intel? Core? i5-1155G7处理器(2.50GHz)、16GB RAM和28GB SSD的系统中实现。本节讨论了该架构在三个公开数据集(Memotion 1、Memotion 2和Memotion 3)上的表现,即情感分类(任务A)和情绪分类(任务B)的效果。
结论与未来工作
在本文中,我们提出了一个基于CLIP的多模态框架,用于模因情感和情绪分析,证明了其在捕捉视觉和文本内容中的复杂情感线索方面的有效性。我们的模型在三个基准数据集上的一致优异表现主要归功于特定注意力机制的运用——特别是应用于视觉特征的空间注意力和通道注意力,以及应用于文本特征的注意力池化技术。
数据可用性声明
实验使用了公开数据,代码也已提供以便他人重现实验结果。
作者声明
- Chhavi Dhiman:概念构思、方法论、可视化、写作、审稿与编辑、指导
- Saihajpreet Singh:数据整理、研究、方法论、可视化、初稿撰写、审稿与编辑
- Satyam Mohan:数据整理、研究、方法论、可视化、初稿撰写、审稿与编辑
CRediT作者贡献声明
Chhavi Dhiman:写作——审稿与编辑、可视化、验证、项目管理、方法论、概念构思。
Saihajpreet Singh:写作——审稿与编辑、初稿撰写、验证、软件开发、方法论、研究。
Satyam Mohan:写作——审稿与编辑、初稿撰写、验证、软件开发、方法论、研究。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
Chhavi Dhiman(M'16)于2011年获得印度德里英迪拉·甘地女子技术大学(IGDTUW,前称IGIT, GGSIPU)的学士学位,2014年和2019年分别获得德里技术大学(DTU)的硕士和博士学位。她目前担任德里技术大学电子与通信工程系的助理教授。她的研究兴趣包括计算机视觉、深度学习与人工智能、模式识别等领域。