时间-空间交叉融合技术用于动态微表情识别

《Pattern Recognition》:Temporal–spatial cross-fusion for dynamic micro expression recognition

【字体: 时间:2026年04月15日 来源:Pattern Recognition 7.6

编辑推荐:

  动态微表情识别通过时空特征融合提升模型性能,提出TSFmicro框架结合Retention Network与Transformer,实验表明在CASME II、CAS(ME)3和SAMM数据集上优于现有方法。

  
刘峰|南冰宇|钱学忠|傅晓兰
上海交通大学心理学学院,中国上海市徐汇区华山路1954号,200030

摘要

当情绪被压抑时,个体的真实感受可能会通过微表情暴露出来。因此,微表情被视为洞察个体真实情感的可靠来源。然而,微表情的短暂性和高度局部化的特性给其准确识别带来了重大挑战,即使是专业人士,微表情识别的准确率也仅约为50%。目前的一维方法往往无法捕捉“位置”和“方式”之间的互补关系;仅关注时间的方法会忽略空间信息,而仅关注空间的方法则忽略了动态变化。为了解决这些挑战,有必要使用多维融合技术探索动态微表情识别(DMER),特别关注时间和空间维度特征的多样化融合。在本文中,我们提出了一个新颖的时间和空间特征融合框架(TSFmicro)。该框架整合了保留网络(RetNet)和基于变压器的DMER网络,旨在通过捕获和融合时间和空间关系来实现高效的微表情识别。同时,我们从维度融合的角度提出了一种新颖的并行时空融合方法,该方法在高维特征空间中融合了时空信息,从而在语义层面上形成了互补的“位置-方式”关系,并为模型提供了更丰富的语义信息。实验结果表明,与其他当前最先进的方法相比,TSFmicro方法具有更好的性能。这一点通过其在三个公认的微表情数据集上的有效性得到了验证。我们的代码可在Github上获取(https://github.com/Cross-Innovation-Lab/TSFmicro)。

引言

当情绪被压抑时,个体的真实情感会通过微表情表现出来,因此微表情被认为是洞察个体真实情感的重要来源[1]。这种现象不受意识控制,无法伪装或掩饰,可以真实反映个体的内在情感状态。这一特性使得微表情能够高度准确地传达一个人的真实心理状态,因此在临床和国家安全领域具有研究价值和实际意义。
在心理学领域,面部表情通常分为两大类:宏观表情和微观表情。宏观表情的特点是强度高、持续时间长(通常在2到3秒之间[2],观察起来相对简单。相比之下,微观表情的特点是强度低、局部化且持续时间短(1/25到1/2秒[3])。此外,微观表情是自发的、无意识的面部活动,能够揭示人们的真实情感。然而,用肉眼准确识别微表情仍然是一个重大挑战。首先,微表情具有高度的时间动态性,这给使用单帧图像进行微表情识别带来了挑战[4]。其次,微表情的动作强度低,且仅出现在特定的局部区域,这给手动识别带来了困难。当前的研究表明,即使是专业人士,微表情识别的准确率也只有50%[5]。因此,有必要开发智能分析方法来更准确地捕捉个体的真实情感。已发布的12个自发微表情数据集的总数据量约为10,000条,与其他小样本分类识别任务相比,这是一个典型的分类和识别任务。如图1所示,这一因素也对微表情领域深度学习的发展产生了显著影响。
尽管存在这些挑战,但随着时间的推移,人们尝试了许多不同的方法来应对这些挑战[6]。最初的MER研究集中在分析完整的时间序列上,导致数据分析既耗时又冗余。后来的研究者从心理学角度分析了微表情识别的过程,发现微表情在峰值时的强度能够反映当前的情感状态[7]。后续研究通过实验验证了这一观点,并提出使用Apex帧作为MER任务的基础,而不是完整的微表情序列[8]。尽管基于单帧图像的微表情识别方法在实现高准确率方面取得了显著成功,但在模型准确性方面仍有提升空间。此外,微表情序列包含动作变化信息,这些帧间动作信息可以有效帮助模型理解时间关系。
为了解决上述问题,我们提出了一个新颖的动态时间和空间特征融合框架TSFmicro,包括时间子分支和空间子分支。为了明确术语,我们将这些时间和空间特征定义为同一视觉输入中的互补维度,区别于传统的独立数据模式。在时间分支中,通过计算起始帧和Apex帧之间的差异来捕获动作变换信息。同时,空间子分支用于提取动作发生的位置信息。最后,我们提出了一种新颖的并行时空融合方法,在高维特征空间中融合时空信息,从而在语义层面上形成互补的“位置-方式”关系,为模型提供更丰富的语义信息。如上所述,本文的核心贡献如下。
  • 探索了使用多维融合技术进行动态微表情模式识别的领域,特别关注时间和空间维度特征的多样化融合,以明确不同维度特征在各种组合模式中的效果和贡献。
  • 提出了一种多维并行融合方法,该方法可以利用融合后的高维特征空间中的时空信息,在语义层面上形成互补的“位置-方式”关系。这种方法为模型提供了更丰富的语义信息,在空间子分支中,使用位置嵌入来获取与动作发生相关的位置信息,同时通过减少网络层数量来避免获取与位置信息无关的身份信息。时间和空间双维度特征的最终融合是同时实现的,以提高动态微表情识别的效果。
  • 重新审视了微表情识别领域中时间和空间维度之间的特征贡献关系,并进一步提出了关于多维融合和时空特征计算的新范式。
  • 提出了一种新颖的时间-空间特征融合框架,通过计算差分帧并将其映射到从空间子分支提取的位置信息上来捕获动态时间信息,从而实现时间和空间信息的有效整合,并在三个主流数据集(CASME II、SAMM和CAS(ME)上进行了实验(3),其结果超过了当前最先进水平(SOTA)。
本文的后续部分如下:第2节描述了相关工作;第3节详细介绍了我们提出的时间-空间融合框架;第4节描述了在CASME II、CAS(ME)和SAMM数据集上的实验过程;第5节深入讨论了实验结果及其意义。最后,第6节总结了研究并提出了未来工作的潜在方向。

相关工作

相关工作

在本节中,我们回顾了与本文最相关的前期工作,如现有的MER方法和帧选择方法。

方法论

在本节中,我们提出了一个用于整合时间和空间特征的新框架TSFmicro。如图2所示,该框架包括时间子分支和空间子分支。对于时间子分支,利用RetNet中的保留机制将时间衰减引入序列处理,以提取微表情序列中的动作变化。对于空间子分支,初始步骤包括分割起始帧

实验

在本节中,我们进行了一系列实验来评估所提出方法的有效性。首先介绍了数据集、基线和环境配置。随后,将TSFmicro与最先进的方法进行了比较,从而展示了TSFmicro的进步。此外,如表1所示,对不同的融合模式进行了分析,以确定这些模式对微表情识别性能的影响。

讨论

值得注意的是,在融合研究中,我们发现两种融合策略T到S和S到T在不同数据集上的性能存在差异。这些差异不仅反映了所讨论的融合策略的属性,还阐明了数据集特征对模型性能的影响。具体来说,在CASME II数据集的五个分类任务中,T到S的性能优于S到T。相反,在其他五个任务中,T到S的性能低于S到T。

结论

在本文中,我们提出了一种新颖的双流框架TSFmicro,用于动态微表情识别,通过融合时间和空间特征来提高微表情识别的性能。所提出的方法有效解决了微表情识别中的时间和空间局部化问题,通过多维融合技术实现了高效的特征融合。TSFmicro的主要创新包括:

CRediT作者贡献声明

刘峰:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,监督,项目管理,方法论,调查,资金获取,概念化。南冰宇:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,方法论,调查,数据管理,概念化。钱学忠:撰写 – 原稿,监督,项目管理,数据管理。傅晓兰:撰写 – 审稿与编辑,撰写 –

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,作者使用ChatGPT检查并纠正了英语语法和拼写错误。使用该工具后,作者根据需要审查和编辑了内容,并对发表文章的内容负全责。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了“主动健康与老龄化人口技术响应”国家重点研发计划(项目编号:2024YFC3606802)的支持,同时也得到了上海交通大学2030计划上海交通大学青年教师创业基金(SFYF at SJTU)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号