MGSR：多粒度选择与重构技术在多模态异常情感检测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：MGSR: Multi-granularity select and reconstruction for multimodal abnormal sentiment detection

【字体：大中小】 时间：2026年03月16日 来源：Neurocomputing 6.5

编辑推荐：

　　提出MGSR框架解决多模态异常情感检测中的固定时间步对齐问题，动态划分视频、音频、面部模态粒度，结合交叉注意力机制和GAAM增强模型对异常情感的识别能力，在HateMM和MUStARD数据集上表现最优。

熊海涛|岳耀伟|蔡圆圆

北京工商大学计算机与人工智能学院，北京，100048，中国

摘要

多模态异常情感检测（MASD）旨在通过整合文本、音频和视频的信息来评估异常情感状态。然而，MASD面临两个关键挑战：首先，现有方法依赖于固定长度的时间步长进行模态对齐，这忽略了情感表达可能因个人性格不同而依赖于不同时间步长的事实。其次，很少有方法关注面部等关键线索，这些线索可以帮助模型捕捉情感信号。为了解决这些问题，我们提出了一个名为“多粒度选择与重构”（MGSR）的新框架，该框架能够有效捕捉跨模态的异常情感线索。它根据时间持续时间将音频、视频和面部模态分割成不同的粒度，然后选择与文本模态最相关的代表。为了保留全局和局部模态信息，使用MSE损失函数将全局信息隐式地整合到选定的代表中，这些代表被压缩并依次与非文本和文本模态信息融合。最后，使用Cross-Attention提取融合代表与文本之间的关系，这些关系被强化后，通过GAAM学习概率分布模式。在HateMM和MUStARD数据集上的广泛实验表明，MGSR的性能优于现有方法。此外，消融实验证明了面部作为模态的有效性以及所提出模块的关键作用。

引言

近年来，多媒体平台已成为公众表达观点和情感的主要手段。然而，包含仇恨言论、种族对立和讽刺等内容的小视频会传递大量异常情绪，可能导致社会冲突。因此，多模态异常情感检测（MASD）[1] [2] 是一个亟需解决的重要问题。异常情感不同于幸福感、悲伤、愤怒等正常情感，主要表现为讽刺、仇恨、对立和嘲笑，情绪波动更为强烈。MASD旨在通过整合多模态数据来识别可能威胁个人安全或传播有害信息的情感信号[3]。MASD是多模态情感分析（MSA）的一个子任务，但两者仍存在一些差异，主要体现在以下两个方面：首先，MSA关注识别人类的明确情感状态[4] [5] [6]，而MASD需要探索违反社会规范和交流规则的隐性和复杂情感表达[7]；其次，在前者中，多模态信息通常是连贯和协调的，表明明确的情感状态。但在后者中，模态信息通常是不一致的。因此，与MSA相比，MASD更为复杂和困难。图1说明了MSA和MASD之间的差异。具体来说，图1(a)表示MSA，其中文本输入是“大家好，欢迎来到Topper的电影评论”，可以推断为中性情感。视频模态显示一个人在说话，也反映了中性情感状态。音频模态相对稳定，表示正常的语气。图1(b)展示了MASD任务，文本输入是“死于犹太疾病是什么感觉？滥用你的犹太疾病是什么感觉？”，其中包含许多敌对情感。然而，音频是一首欢快的歌曲，歌词与视频中的派对场景相匹配，表达快乐的状态。

只有少数方法关注面部表情等信息，这些信息可以提供关键的情感信号[8] [9]。此外，模态的异质性阻碍了模型有效整合多模态信息，导致性能不佳。现有研究试图通过多模态对齐[10] [11]来解决这个问题。LNLN[12]将音频和视频与文本对齐以捕捉模态之间的交互，MULT[13]在每个固定时间步长内对齐模态。许多方法[14] [15]通常使用固定的粒度进行对齐。例如，Hycon[16]同时进行内部和外部模态对比学习以及半对比学习，可以充分探索跨模态交互，保持类间关系，并减少模态差距，但它仅使用固定时间步长的特征进行计算。如图2(a)和(b)所示，“固定粒度对齐”（一个粒度由单个时间步长组成）

对齐方法主要包含两种类型[13]：“1:1对齐”[17]和“1:N对齐”[13]。“1:1对齐”将视频帧和音频与文本中的每个单词一一匹配，而“1:N对齐”将每个视频帧和音频帧与每个单词进行比较以计算相似性权重。然而，固定粒度对齐方法忽略了情感表达在不同个体和背景事件中的差异。

为了解决这些挑战，我们提出了一个名为“多粒度选择与重构”（MGSR）的新框架，该框架从视频中提取面部特征作为模态进行处理。在MGSR中，视频、音频和面部数据被划分为不同长度的时间步长的多粒度（如图2(c)所示），并被视为一种表示。然后，MGSR选择与文本模态最相似的代表。为了保留每种模态的原始特征，设计了一个损失函数来最小化原始特征与选定代表之间的差异，以便选定的代表同时包含局部特征和全局特征，并利用损失函数的驱动力实现隐式对齐效果。然后，选定的代表首先在模态之间成对融合，每个代表再与文本特征融合。得到的混合特征与文本表示非常相似，并随后与之对齐。最后，增强模块改进数据并学习特征的概率分布，从而加强分析和决策过程。我们的主要贡献可以概括如下：

1.

我们设计了MGSR框架，以有效地将音频、视频和面部模态与文本模态对齐，用于MASD。

2.

MGSR整合了来自视频、音频和面部的多粒度代表，增强了其在跨模态捕捉异常情感的能力。

3.

引入面部模态作为关键线索，并结合高斯自适应注意力机制（GAAM）来学习模态特征的概率分布。

4.

MGSR在HateMM和MUStARD数据集上取得了最佳性能，消融实验充分证实了每个模块和步骤的有效性。

章节片段

MASD和MSA

随着社交媒体的快速发展，基于短视频的多模态情感研究受到了广泛关注。尽管MSA和MASD有所不同，但两者都涉及提取多模态情感信息。因此，许多MSA建模方法可以作为MASD任务的参考。Peng等人[18]提出了一个图像-文本关联生成器，有助于降低融合无关模态特征的风险。Zhu等人[19]引入了一个跨模态对齐模块来捕捉

MGSR的架构

如图3所示，MGSR主要由四个组件组成：编码器模块、多粒度选择模块、重构模块和增强模块。编码器模块以不同的方式对每种模态进行编码，并将结果传递给多粒度选择模块，后者以不同的粒度采样非文本模态。接下来，多粒度选择模块保留与文本高度相似的数据作为每个模态的代表

数据集和评估指标

HateMM是已知最大的多模态异常情感数据集之一，包含1083个视频样本，总时长约为43小时144K帧。每个视频被标记为仇恨或非仇恨。仇恨类别包含431个视频样本，平均时长约为2.56分钟，而非仇恨类别包含652个样本，平均时长约为4.77分钟。第二个数据集MUStARD是

结论

本文设计并介绍了用于MASD任务的MGSR框架。通过包含面部模态，它将音频、视频和面部模态的不同粒度与文本模态对齐，增强了捕捉异常情感的能力。多粒度选择模块选择与文本最相关的多粒度代表。同时通过设计的损失函数保留全局和局部信息。重构模块融合了关键的文本

CRediT作者贡献声明

熊海涛：撰写——审阅与编辑，撰写——初稿，项目管理，资金获取，正式分析，数据管理，概念化。岳耀伟：撰写——审阅与编辑，撰写——初稿，可视化，验证，方法论。蔡圆圆：撰写——审阅与编辑，可视化，正式分析。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金[授权号：72171004, 42571221, 72301010]、北京市属高校青年拔尖人才培养项目[授权号：BPHR202203061]以及中国教育部人文社会科学基金[授权号：21YJCZH186]的支持。

熊海涛1983年出生于中国江西九江。2011年，他在北京航空航天大学获得管理科学与工程博士学位。自2021年起，他担任北京工商大学国际经济与管理学院的教授。他的当前研究兴趣包括数据包络分析和大数据分析。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号