群体情绪识别(GER)已经从个体级别的情绪分析发展成为情感计算中的一个核心课题。通过使机器能够感知和响应集体情绪,GER现在支持广泛的人机交互和群体行为应用(Corti?as Lorenzo & Lacey (2024); Poria, Cambria, Bajpai, & Hussain (2017))。其核心在于通过建模群体成员情绪状态之间的互动和时间动态来揭示群体情绪的模式和潜在驱动因素。社交媒体图像和视频的快速增长进一步加速了这一进展,提供了前所未有的数据量,既促进了又挑战了大规模情感计算研究(Boughanem, Ghazouani, & Barhoumi (2023); Ramaswamy & Palaniswamy (2024))。
为了估计群体的整体情绪,大多数流程首先提取多模态线索——包括面部表情、显著物体和场景背景——然后将它们汇总成一个单一的预测(Dhall, Goecke, Joshi, Hoey, & Gedeon (2016); Liu et al. (2023))。现有的聚合策略通常分为两大类:得分级融合,通过简单平均或固定/学习权重来结合特定模态的情绪得分(Dhall et al. (2017); Dhall, Joshi, Sikka, Goecke, & Sebe (2015); Guo, Polania, Zhu, Boncelet, & Barner (2020); Khan, Li, Cai, & Tong (2021); Liu, Fang, & Guo (2018);以及特征级融合,将异构描述符连接或合并成一个统一的高维表示,以便进行分类(Khalil et al. (2019))。
然而,这两种融合方法在现实世界的GER应用中都存在局限性。得分级融合本质上将多模态整合简化为特定模态预测的线性组合,难以捕捉非线性的跨模态交互,或者当面部、物体和场景提供不一致的证据时难以解决线索冲突。特征级融合通常将异构描述符连接成一个高维向量,这可能会增加维度并传播特定模态的噪声;因此,主导线索可能会掩盖细微但信息丰富的信号。在长尾情绪分布下,这些弱点更加明显,因为融合后的表示往往偏向于频繁出现的类别,而罕见情绪的决策边界变得模糊和不稳定。为了解决这些问题,我们引入了类别级别的原型作为跨线索对齐的语义锚点,并通过基于距离加权的边和类别感知的门控机制将它们与样本连接起来,从而明确增强了融合和梯度流,特别是对于尾部情绪。
此外,最近的研究(Boughanem et al. (2023); Guo et al. (2020); Huang, Xu, Zheng, Mao, & Dhall (2024a); Zhang, Wang, Zhang, & Lee (2022)很少对视觉关系推理进行建模,或者明确处理多个线索之间的差异。然而,物体和场景为情绪理解提供了不可或缺的上下文线索。尽管有一些工作开始结合这些线索(Wang et al. (2022)),但它们仍然难以识别数据中稀疏出现的尾部情绪。因此,GER仍然面临两个核心挑战:(i)如何聚合来自多个人和模态的异构线索;(ii)如何在长尾情绪分布下进行稳健的学习。实际上,现有的融合流程在类别边界附近常常变得不稳定,并且在处理罕见情绪时表现不佳。这些限制需要一个新框架,既能增强特征融合,又能提高难以分类样本的可分性。
由于GER数据集通常是长尾的,识别罕见情绪本质上是一个少样本(few-shot)问题。因此,我们将多线索融合与基于原型的度量学习相结合,使用类别原型作为语义锚点来更好地对齐异构线索并增强尾部类别的区分能力。
如图1所示,我们的目标是仔细检查图像中的每一个细微细节——就像通过放大镜观察它一样——以便模型能够对细微线索进行推理,弥合特征差距,并最终比仅使用面部的基线更准确地预测群体情绪。具体来说,我们将区域级别的面部、物体和场景证据表示为异构图中的节点,并通过轻量级的原型子图引入类别级别的原型锚点。然后,原型引导的多头注意力将区分性语义传播到低显著性(“边缘”)节点,防止细微线索被全局池化所稀释。
基于这一想法,我们提出了BridgeFormer,这是一种原型子图变换器,它将图变换网络(Graph Transformer Networks, GTs)与原型网络(Prototypical Networks)结合起来。在BridgeFormer中,每张图像都被建模为一个异构图,其中包含针对面部、物体和场景背景的特定模态节点类型。我们进一步通过为每个情绪类别添加一个原型节点,并用基于距离加权的边将其与原始节点连接起来,构建了一个原型子图。这种设计实现了对尾部情绪的感知增强,并促进了语义相关头部和尾部类别之间的信息交换。
与之前的基于原型的图少样本方法(如GPN Ding et al. (2020)和GFL Yao et al. (2020)不同,这些方法主要将原型作为度量空间中的类别代表,用于情节节点分类或跨图传输,BridgeFormer将原型与多模态异构线索图上的基于注意力的关系推理相结合。简而言之,BridgeFormer最独特的贡献是原型子图桥接机制,它将类别原型作为活跃的注意力节点插入,以指导多模态融合和对尾部情绪的感知增强。原型不仅作为图变换器注意力中的节点参与,还条件化了多头聚合,实现了不仅仅是添加原型节点的功能,还包括原型引导的跨模态融合和对罕见情绪的感知增强。
核心设计统一了两个关键能力。首先,原型子图桥接在异构图中融合了面部、物体和场景线索,捕获了静态平均无法捕捉的跨模态关系。其次,感知尾部情绪的注意力通过动态重新加权从原型节点发出的边来聚焦网络对边缘特征的关注。它还采用了特征维度适应策略,根据训练状态放大或压缩原型嵌入——防止高维稀释和低维表示不足。这项工作的主要贡献包括:
•BridgeFormer架构。我们引入了一种带有原型引导的多头注意力的原型子图变换器,直接解决了GER中的数据不平衡和多线索融合问题。
•异构图建模。我们的方法在统一的关系框架内系统地整合了面部、物体和场景模态,平衡了它们之间的交互,从而提高了准确性和鲁棒性。
•增强的尾部类别学习。广泛的实验表明,BridgeFormer在多个公共数据集上始终优于最先进的竞争者,特别是在少样本和长尾设置下。