BridgeFormer：一种原型子图变换器，用于解决多模态群体情感识别中的长尾问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：BridgeFormer: A Prototype-Subgraph Transformer Tackling Long-Tail Issues in Multimodal Group Emotion Recognition

【字体：大中小】 时间：2026年02月28日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　群体情绪识别中多模态融合与长尾分布问题，提出原型子图TransformerBridgeFormer，通过类级原型节点与原型引导的多头注意力机制增强跨模态对齐，动态调整距离加权链接提升长尾类别的学习效果。在多个数据集上验证优于现有方法，尤其在1-10 shot场景中宏F1值提升显著。

李晨浩|黄文婷|杨展|龙俊

新疆大学计算机科学与技术学院，乌鲁木齐，830000，中国

摘要

群体情绪识别（Group Emotion Recognition, GER）通过从自然图像中捕获的多模态线索（如面部、物体和场景背景）来推断人群的集体情感。然而，现有方法在融合异构信号以及从高度不平衡的长尾情绪分布中有效学习方面存在困难。为了解决这些问题，我们提出了BridgeFormer，这是一种原型子图变换器，它为每个情绪类别插入一个类别级别的原型节点，并通过基于距离加权的原型-样本链接和原型引导的多头注意力机制将其与原始的异构线索图连接起来。这种设计促进了跨模态对齐，增强了尾部类别的学习信号，并能够在不过度全局化的情况下进行全局关系推理。在五个公共基准测试上的广泛实验表明了明显的改进：BridgeFormer在AFEW上的准确率达到了62.43%/57.89%，在GroupEmoW上达到了94.77%，在GAF 2.0上达到了86.37%，在GAF 3.0上达到了83.58%，在AffectNet上达到了73.48%，相比最强大的先前方法准确率提高了6.17个百分点。此外，在1-10次尝试的协议下，它的表现始终优于强化的变体，在各个数据集上的宏观F1分数提高了2.39-8.22分。我们将发布我们的代码和预训练模型以支持可重复性和进一步的研究。

引言

群体情绪识别（GER）已经从个体级别的情绪分析发展成为情感计算中的一个核心课题。通过使机器能够感知和响应集体情绪，GER现在支持广泛的人机交互和群体行为应用（Corti?as Lorenzo & Lacey (2024); Poria, Cambria, Bajpai, & Hussain (2017)）。其核心在于通过建模群体成员情绪状态之间的互动和时间动态来揭示群体情绪的模式和潜在驱动因素。社交媒体图像和视频的快速增长进一步加速了这一进展，提供了前所未有的数据量，既促进了又挑战了大规模情感计算研究（Boughanem, Ghazouani, & Barhoumi (2023); Ramaswamy & Palaniswamy (2024)）。

为了估计群体的整体情绪，大多数流程首先提取多模态线索——包括面部表情、显著物体和场景背景——然后将它们汇总成一个单一的预测（Dhall, Goecke, Joshi, Hoey, & Gedeon (2016); Liu et al. (2023)）。现有的聚合策略通常分为两大类：得分级融合，通过简单平均或固定/学习权重来结合特定模态的情绪得分（Dhall et al. (2017); Dhall, Joshi, Sikka, Goecke, & Sebe (2015); Guo, Polania, Zhu, Boncelet, & Barner (2020); Khan, Li, Cai, & Tong (2021); Liu, Fang, & Guo (2018）；以及特征级融合，将异构描述符连接或合并成一个统一的高维表示，以便进行分类（Khalil et al. (2019)）。

然而，这两种融合方法在现实世界的GER应用中都存在局限性。得分级融合本质上将多模态整合简化为特定模态预测的线性组合，难以捕捉非线性的跨模态交互，或者当面部、物体和场景提供不一致的证据时难以解决线索冲突。特征级融合通常将异构描述符连接成一个高维向量，这可能会增加维度并传播特定模态的噪声；因此，主导线索可能会掩盖细微但信息丰富的信号。在长尾情绪分布下，这些弱点更加明显，因为融合后的表示往往偏向于频繁出现的类别，而罕见情绪的决策边界变得模糊和不稳定。为了解决这些问题，我们引入了类别级别的原型作为跨线索对齐的语义锚点，并通过基于距离加权的边和类别感知的门控机制将它们与样本连接起来，从而明确增强了融合和梯度流，特别是对于尾部情绪。

此外，最近的研究（Boughanem et al. (2023); Guo et al. (2020); Huang, Xu, Zheng, Mao, & Dhall (2024a); Zhang, Wang, Zhang, & Lee (2022）很少对视觉关系推理进行建模，或者明确处理多个线索之间的差异。然而，物体和场景为情绪理解提供了不可或缺的上下文线索。尽管有一些工作开始结合这些线索（Wang et al. (2022)），但它们仍然难以识别数据中稀疏出现的尾部情绪。因此，GER仍然面临两个核心挑战：（i）如何聚合来自多个人和模态的异构线索；（ii）如何在长尾情绪分布下进行稳健的学习。实际上，现有的融合流程在类别边界附近常常变得不稳定，并且在处理罕见情绪时表现不佳。这些限制需要一个新框架，既能增强特征融合，又能提高难以分类样本的可分性。

由于GER数据集通常是长尾的，识别罕见情绪本质上是一个少样本（few-shot）问题。因此，我们将多线索融合与基于原型的度量学习相结合，使用类别原型作为语义锚点来更好地对齐异构线索并增强尾部类别的区分能力。

如图1所示，我们的目标是仔细检查图像中的每一个细微细节——就像通过放大镜观察它一样——以便模型能够对细微线索进行推理，弥合特征差距，并最终比仅使用面部的基线更准确地预测群体情绪。具体来说，我们将区域级别的面部、物体和场景证据表示为异构图中的节点，并通过轻量级的原型子图引入类别级别的原型锚点。然后，原型引导的多头注意力将区分性语义传播到低显著性（“边缘”）节点，防止细微线索被全局池化所稀释。

基于这一想法，我们提出了BridgeFormer，这是一种原型子图变换器，它将图变换网络（Graph Transformer Networks, GTs）与原型网络（Prototypical Networks）结合起来。在BridgeFormer中，每张图像都被建模为一个异构图，其中包含针对面部、物体和场景背景的特定模态节点类型。我们进一步通过为每个情绪类别添加一个原型节点，并用基于距离加权的边将其与原始节点连接起来，构建了一个原型子图。这种设计实现了对尾部情绪的感知增强，并促进了语义相关头部和尾部类别之间的信息交换。

与之前的基于原型的图少样本方法（如GPN Ding et al. (2020)和GFL Yao et al. (2020）不同，这些方法主要将原型作为度量空间中的类别代表，用于情节节点分类或跨图传输，BridgeFormer将原型与多模态异构线索图上的基于注意力的关系推理相结合。简而言之，BridgeFormer最独特的贡献是原型子图桥接机制，它将类别原型作为活跃的注意力节点插入，以指导多模态融合和对尾部情绪的感知增强。原型不仅作为图变换器注意力中的节点参与，还条件化了多头聚合，实现了不仅仅是添加原型节点的功能，还包括原型引导的跨模态融合和对罕见情绪的感知增强。

核心设计统一了两个关键能力。首先，原型子图桥接在异构图中融合了面部、物体和场景线索，捕获了静态平均无法捕捉的跨模态关系。其次，感知尾部情绪的注意力通过动态重新加权从原型节点发出的边来聚焦网络对边缘特征的关注。它还采用了特征维度适应策略，根据训练状态放大或压缩原型嵌入——防止高维稀释和低维表示不足。这项工作的主要贡献包括：

•

BridgeFormer架构。我们引入了一种带有原型引导的多头注意力的原型子图变换器，直接解决了GER中的数据不平衡和多线索融合问题。

•

异构图建模。我们的方法在统一的关系框架内系统地整合了面部、物体和场景模态，平衡了它们之间的交互，从而提高了准确性和鲁棒性。

•

增强的尾部类别学习。广泛的实验表明，BridgeFormer在多个公共数据集上始终优于最先进的竞争者，特别是在少样本和长尾设置下。

部分摘录

基于多线索的方法

Zhang等人（Zhang et al. 2022）提出了一个半监督的群体情绪识别（SSGER）框架，以缓解标记数据的稀缺问题。具体来说，他们利用了一个对比学习预训练模型（SFNet）从未标记样本中提取语义情绪表示，并进一步优化SFNet与FusionNet，以更好地整合面部和场景线索。虽然有效，但主要依赖对比预训练的方法可能会产生

动机

现实世界GER基准测试中不平衡（通常是长尾的）情绪分布导致不同类别之间的优化动态显著不同。如图2所示，频繁出现的情绪通常会快速收敛，而罕见情绪则表现出较慢的损失衰减，并可能过早饱和。

我们在AffectNet上也观察到了同样的现象，其不平衡程度要严重得多（表1）：尾部情绪的收敛速度始终较慢，这一点通过类别间的动态进一步得到说明

训练和推理

在训练过程中，我们从目标基准数据集中抽取标记图像，并应用标准预处理（调整大小、居中裁剪、缩放到[0,1]范围，并使用ImageNet统计数据进行通道归一化）。然后将每张图像通过三个VGG-16分支进行处理，以获得面部、物体和场景嵌入；这些分支的输出作为节点属性来构建初始的异构线索图。我们用K个原型节点增强该图，并使用堆叠方法进行处理

实验

我们首先在AFEW上进行了一项仅使用面部的试点研究，以验证原型子图策略的有效性，然后再引入多模态复杂性。

为了加强第3节中的动机，我们还在AffectNet上重复了相同的尾部诊断分析，并观察到了一致的收敛行为。

每张面部图像被转换成一个图，其节点对应于面部区域，并训练了一个原型模块来为每个情绪生成一个类别中心。

结论

本文介绍了BridgeFormer，这是一种原型子图变换器，它将类别级别的原型推理与多头注意力相结合，以应对群体情绪识别中的两个基本障碍：跨模态特征融合和情绪类别的长尾分布。通过插入学习到的原型作为锚点节点，并将它们与异构的面部、物体和场景图连接起来，BridgeFormer在共享的关系空间中对齐了不同模态，增强了罕见类别的信号

CRediT作者贡献声明

李晨浩：数据整理、撰写——初稿、概念化、方法论、软件、可视化。黄文婷：数据整理、撰写——初稿。杨展：概念化、撰写——审稿与编辑、撰写——初稿、方法论、软件、验证、资金获取、项目管理。龙俊：数据整理、资源获取、调查。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号