DBDE-Net:一种用于微表情识别的双分支细节增强网络

【字体: 时间:2026年03月04日 来源:Neurocomputing 6.5

编辑推荐:

  微表情识别中提出双分支细节增强网络DBDE-Net,分别提取 onset-apex帧差的空间细节和全序列像素差的时序特征,通过垂直运动注意模块强化垂直方向运动特征,结合细节增强卷积模块提升局部高频特征,在CASME II、SMIC、SAMM和CAS(ME)3数据集上验证有效性。

  
王浩然|王璐|徐立生|李永春
东北大学计算机科学与工程学院,沈阳,110167,中国

摘要

微表情(MEs)能够揭示人类隐藏的真实情感,在心理学和医疗治疗等领域得到广泛应用。近年来,出现了多种微表情识别(MER)方法。由于微表情涉及极其微妙的面部动作,难以捕捉,大多数方法使用起始帧和结束帧之间的像素差异以及光流作为输入。然而,尽管从起始-结束帧对中提取的运动特征相对显著,但忽略了详细的时间依赖性,可能导致MER的关键信息丢失。另一方面,一些方法使用帧序列作为输入,但会因输入帧过多而产生信息冗余的问题。为了解决这些问题,我们提出了一种双分支细节增强网络(DBDE-Net)用于微表情识别。具体而言,该网络包含两个分支:一个分支使用起始-结束帧的像素差异,另一个分支使用起始帧与采样微表情序列中其他所有帧之间的像素差异作为输入。对于前者分支,我们开发了累积垂直运动注意力模块(CVMAM)来提取微表情的垂直运动模式,并通过细节增强卷积模块(DECM)来探索形状变化模式。对于后者分支,使用Video Swin Transformer来模拟微表情的整个运动过程,并应用3D版本的CBAM来过滤掉冗余的时空特征。最后,我们在CASME II、SMIC、SMM和CAS(ME)3数据集上验证了所提方法的有效性。结果表明,DBDE-Net的性能优于现有最先进方法。

引言

面部表情通常可以根据持续时间和肌肉幅度分为两类:宏观表情和微表情(MEs),它们与人类的心理状态和意图密切相关。宏观表情持续时间较长(3/4到2秒),伴随较大的肌肉运动,肉眼很容易观察到。相比之下,微表情是短暂而快速的(1/25到1/3秒)[1],是对情感刺激的反应[2],涉及较小的肌肉运动。由于其固有特性,微表情极难识别。此外,微表情是不可控且自发的,能够揭示人们试图隐藏的真实情感[3]。因此,微表情识别在心理学[4]、医学诊断[5]和司法审判[6]等领域具有广泛的应用前景。到目前为止,微表情识别研究已取得重要进展,现有方法在现有基准数据集上取得了更好的性能[7]。然而,微表情识别仍面临许多挑战,例如由于微表情中肌肉运动幅度较小,难以提取有效的运动特征[8]。
尽管光流已被广泛用于捕捉微表情中的面部肌肉运动[9]、[10],但很少有研究探讨运动的方向特性,例如垂直运动和水平运动对微表情识别的贡献是否不同。为此,我们计算了整个面部平均的水平和垂直光流。统计结果显示,在大多数微表情中,垂直运动的平均光流大于水平运动的光流,这表明垂直运动可能包含某些具有辨识度的信息。
此外,微表情的时间建模也非常重要。Li等人[11]使用起始帧和结束帧之间的像素差异作为输入来提取微表情特征,有助于捕捉视频片段中最重要的运动。然而,这种方法忽略了关键的时间信息,尤其是在起始帧和结束帧之间帧间隔较大的视频片段中。Wang等人[9]使用视频帧序列作为输入以获得更丰富的运动信息,并设计了一个双分支网络。然而,过多的输入帧会导致时间和空间信息的冗余,从而降低识别性能。与目标任务无关的特征被视为冗余。另外,如果特征之间存在信息重复,即使与任务相关的特征也可能变得冗余。Hao等人[12]使用两种类型的数据作为输入:视频序列和关键帧。他们通过级联单模态时空注意力并行处理这两种数据,然后应用跨模态时空注意力以实现高质量的数据融合。然而,这种方法缺乏对局部细节的关注,并且视频帧模态和特殊帧模态在结构上存在重叠。
为了解决上述问题,我们提出了一个具有细节增强的双分支微表情识别网络(DBDE-Net)。这两个分支具有不同的用途:第一个分支使用起始帧和结束帧之间的像素差异作为输入,并以ResNet[13]作为骨干网络;该分支用于提取运动的空间细节,因此称为空间细节分支。另一个分支使用起始帧与采样序列中其他所有帧之间的像素差异作为输入,并以Video Swin Transformer[14]作为骨干网络;该分支用于提取时间信息并模拟微表情的整个运动过程,因此称为时间运动分支。此外,为了探索垂直运动对微表情识别的贡献,我们设计了累积垂直运动注意力模块(CVMAM)来关注微表情的垂直运动。仅仅关注垂直运动是不够的,我们还提出了细节增强卷积模块(DECM)通过差分卷积操作来增强局部高频空间细节。总之,本研究的主要贡献如下:
1. 提出了一种具有细节增强的双分支微表情识别网络,能够有效提取微表情在空间和时间域上的局部和全局特征。
2. 设计了累积垂直运动注意力模块来关注微表情的垂直运动,同时提出了细节增强卷积模块通过差分卷积操作来增强局部高频空间细节。
3. 在四个常用的微表情识别数据集(CASME II [15]、SMIC [16]、SMM [17]和CAS(ME)3[18]上进行的实验,以及在单数据库评估(SDE)和复合数据库评估(CDE)[19]协议下,证明了所提方法在小规模和大规模微表情识别数据集以及粗粒度和细粒度分类任务上的有效性。

方法部分

微表情识别方法概述

微表情识别方法主要分为传统的手工特征提取方法和基于深度学习的方法。在早期研究中,研究人员倾向于手动提取特征,如局部二值模式(LBP)[20]、光流(OF)[21]及其变体[22]、[23]。这些方法在很长一段时间内占据了微表情识别的主导地位。然而,如果手工特征提取方法设计不合理,可能会导致性能不佳。近年来,随着深度学习技术的发展,出现了多种基于深度学习的方法

方法

在本文中,我们提出了一种具有细节增强的双分支网络(DBDE-Net)用于有效的微表情识别。DBDE-Net主要由两个分支组成:空间细节分支用于提取空间细节,时间运动分支用于模拟微表情的整个过程。具体来说,首先进行数据预处理(第3.1节),包括面部裁剪和对齐,以确保准确提取面部特征以进行进一步分析。然后,将输入图像送入

实验

为了验证所提方法的有效性,我们在四个常见的微表情识别数据集(SMIC [16]、CASME II [15]、SMM [17]和CAS(ME)3[18]上进行了实验。在本节中,我们将首先介绍实验中使用的四个数据集、评估方法、实现细节等。然后,我们将我们的方法与其他最先进的方法进行比较,并进行消融研究。

结论

在本文中,为了有效提取时间和空间域上的局部和全局特征,我们提出了一种双分支微表情识别网络。为了有效关注微表情的垂直运动,我们引入了累积垂直运动注意力模块。为了探索微表情的变化模式,我们开发了细节增强卷积模块。实验结果表明,我们的方法在复合数据集的三类分类任务上取得了最佳性能

CRediT作者贡献声明

王浩然:撰写 – 审稿与编辑、撰写 – 原稿撰写、可视化、软件开发、方法论设计、数据整理。王璐:撰写 – 审稿与编辑、监督、方法论设计、概念化。徐立生:撰写 – 审稿与编辑、监督、项目管理。李永春:监督、资金获取。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究工作。

致谢

本研究得到了国家自然科学基金(项目编号U21A20487、62273082)、辽宁省科技计划项目(项目编号2023JH2/101300125)、辽宁省自然科学基金(项目编号2021-YGJC-14)、辽宁省教育厅基础科学研究项目(重点项目LJKZ00042021)、中央高校基本科研业务费(项目编号N2319001)以及沈阳科技的支持
王浩然 目前正在中国沈阳东北大学计算机科学与工程学院攻读计算机科学与技术硕士学位。他的研究兴趣包括人工智能和微表情识别。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号