一种基于运动流引导的MicroNet框架，用于微表情识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　微表情识别中时空特征提取不足的问题，提出基于运动流引导的MicroNet框架，通过3D卷积层、运动流生成器（MFGen）、雪崩特征块（AFeat）及多尺度互补特征块（MCFeat）协同捕捉动态微表情特征，在六个数据集上验证其优于传统方法和现有深度学习模型的性能，并通过消融实验证明各模块的有效性。

莫努·维尔玛（Monu Verma）| 桑托什·库马尔·维帕尔蒂（Santosh Kumar Vipparthi）| 穆罕默德·阿卜杜勒-莫塔莱布（Mohamed Abdel-Mottaleb）

美国印第安纳大学卢迪信息学、计算与工程学院计算机科学系，印第安纳波利斯，46202

摘要

微表情识别（MER）在现实世界应用中受到了广泛关注，如人机交互、抑郁症评估、虚拟现实等领域。然而，MER系统在捕捉微表情的空间特征时仍面临困难。本文提出了一种高效的基于运动流的MicroNet框架，该框架包括一个运动流生成器（MFGen）和一个雪崩特征（AFeat）模块。MFGen通过分析帧间的像素运动强度来提取表情区域的时间变化，而AFeat模块则通过多方向互补特征（MCFeat）模块捕捉时空特征，从而从多尺度感受野中提取粗略和详细的边缘信息。MicroNet能够估计微表情的瞬时变化并学习其情感表现特征。通过在六个数据集上的实验验证了其有效性：CASME-I、CASME-II、CAS(ME)

^{2}

、SAMM、SMIC和COMPOSITE，验证方案展示了其泛化能力和鲁棒性。八个消融实验进一步验证了每个模块的作用。

引言

在帧序列中识别面部表情是一项基本任务，吸引了研究人员在抑郁症评估、行为分析、谎言或欺骗检测、幸福感以及健康护理应用方面的研究。特别是在电子健康应用中[1]、[2]，通过非侵入式方法监测和评估患者的真实情绪（如疼痛和读心）是一个具有挑战性的方面，因为微表情通常在标准100帧每秒的视频中仅持续1/25秒到1/3秒[3]。微表情持续时间短且是非自愿的，这使得它们难以检测，需要专业训练的人员来识别。根据文献报告[4]，专业训练人员的平均准确率仅为45%。因此，需要开发一种能够广泛探索微表情并提高识别率的自动化系统。

MER方法可以分为两大类：传统描述符和深度学习模型。传统描述符利用手工设计的特征来提取微表情的空间和时间响应。文献中提出了许多特征描述符，如局部二值模式——三个正交平面（LBP-TOP）[5]、具有六个交点的LBP（LBP-SIP）[6]、用于自发性面部微表情的LBP（LBP-MOP）[7]、时空完整的局部量化模式（STCLQP）[8]、带有积分投影的时空LBP（STLBP-IP）[9]、带有重新积分投影的判别性时空LBP（DiSTLBP-RIP）[10]、张量独立颜色空间（TICS）[11]、面部动态图（FDM）[12]等，以捕捉微表情的显著特征。与传统专业训练人员相比，这些描述符的灵敏度和特异性表现良好。然而，MER的有效性取决于设计这些描述符时的数学专业知识。

近年来，基于深度学习的MER方法[13]、[14]、[15]、[16]、[17]取得了显著的性能提升。然而，大多数现有方法[13]、[14]、[15]都是两阶段模型。在第一阶段，使用手工设计的描述符（如光流、显著性图和动态图像）从视频序列中提取空间和时间特征。然后，第一阶段生成的响应被传递到第二阶段的CNN模型。大多数现有MER方法[18]、[19]、[20]、[21]仅依赖于关键帧进行分析。然而，一些研究强调了动态方面的作用，以检测微妙的变化[22]及其对MER性能的影响。在微表情视频中，每一帧对于情感类别的识别都具有重要意义。而其他一些CNN模型[16]、[17]则利用2D-CNN和LSTM/RNN的能力分别提取空间和时间特征。然而，这些模型无法同时提取空间和时间变化的联合特征[23]。

因此，这些因素促使我们设计了一个便携式的端到端MicroNet用于微表情识别。所提出的方法与之前基于2D-CNN和LSTM/RNN的方法的主要区别在于MicroNet使用了3D卷积层。3D卷积层使网络能够同时捕捉时空特征，从而提高分类性能。MicroNet的贡献总结如下：

1.
在MicroNet框架中，提出了三个特征编码流：MFGen、AFeat和MCFeat模块，用于微表情识别。
2.
MFGen用于通过估计每个像素随时间的变化来捕捉表情动作的时间特征。
3.
AFeat利用MCFeat模块来提取动态表现特征。
4.
MCFeat模块用于提取多个感受野的局部和全局互补特征，从而提高网络的学习能力。

通过在六个具有挑战性的MER数据集上进行LOSO和跨领域实验，检验了所提出的MicroNet的有效性：CASME-I、CASME-II、CAS(ME)

^{2}

、SAMM、SMIC和COMPOSITE。此外，还在消融研究中探讨了所提出流的处理效果和核大小的选择。

提出的方法

受3D-CNN方法[23]、[53]的启发，本文提出了一种基于运动流的MicroNet框架，用于捕捉微表情区域并识别情感类别。所提出的MicroNet基于三个特征编码流：MFGen、AFeat模块和MCFeat模块，如图1所示。首先，MicroNet计算MoFlows以保留帧间的瞬时变化。然后，将MFGen的响应与原始帧序列结合并传递给

实验结果与分析

在本节中，我们首先介绍了实现和数据集细节。接着讨论了实验设置和实验结果。此外，我们还通过消融研究探讨了MicroNet每个模块的重要性。最后，我们将所提出模型的计算复杂性与最先进的方法进行了比较。

结论

本文提出了一种高效且鲁棒的端到端基于运动流的MicroNet用于微表情识别。在所提出的MicroNet中，我们引入了三个特征编码流：MFGen、AFeat和MCFeat模块。MFGen用于捕捉表情区域的瞬时变化。此外，AFeat模块利用MCFeat模块表示微表情的显著动态表现结构。MCFeat模块用于从

CRediT作者贡献声明

莫努·维尔玛（Monu Verma）：撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、概念化。桑托什·库马尔·维帕尔蒂（Santosh Kumar Vipparthi）：撰写——审阅与编辑。穆罕默德·阿卜杜勒-莫塔莱布（Mohamed Abdel-Mottaleb）：撰写——审阅与编辑、监督。

利益冲突声明

作者声明没有利益冲突。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

提出的方法

实验结果与分析

结论

CRediT作者贡献声明

利益冲突声明

热点排行