编辑推荐:
微表情识别中时空特征提取不足的问题,提出基于运动流引导的MicroNet框架,通过3D卷积层、运动流生成器(MFGen)、雪崩特征块(AFeat)及多尺度互补特征块(MCFeat)协同捕捉动态微表情特征,在六个数据集上验证其优于传统方法和现有深度学习模型的性能,并通过消融实验证明各模块的有效性。
莫努·维尔玛(Monu Verma)| 桑托什·库马尔·维帕尔蒂(Santosh Kumar Vipparthi)| 穆罕默德·阿卜杜勒-莫塔莱布(Mohamed Abdel-Mottaleb)
美国印第安纳大学卢迪信息学、计算与工程学院计算机科学系,印第安纳波利斯,46202
摘要
微表情识别(MER)在现实世界应用中受到了广泛关注,如人机交互、抑郁症评估、虚拟现实等领域。然而,MER系统在捕捉微表情的空间特征时仍面临困难。本文提出了一种高效的基于运动流的MicroNet框架,该框架包括一个运动流生成器(MFGen)和一个雪崩特征(AFeat)模块。MFGen通过分析帧间的像素运动强度来提取表情区域的时间变化,而AFeat模块则通过多方向互补特征(MCFeat)模块捕捉时空特征,从而从多尺度感受野中提取粗略和详细的边缘信息。MicroNet能够估计微表情的瞬时变化并学习其情感表现特征。通过在六个数据集上的实验验证了其有效性:CASME-I、CASME-II、CAS(ME)、SAMM、SMIC和COMPOSITE,验证方案展示了其泛化能力和鲁棒性。八个消融实验进一步验证了每个模块的作用。
引言
在帧序列中识别面部表情是一项基本任务,吸引了研究人员在抑郁症评估、行为分析、谎言或欺骗检测、幸福感以及健康护理应用方面的研究。特别是在电子健康应用中[1]、[2],通过非侵入式方法监测和评估患者的真实情绪(如疼痛和读心)是一个具有挑战性的方面,因为微表情通常在标准100帧每秒的视频中仅持续1/25秒到1/3秒[3]。微表情持续时间短且是非自愿的,这使得它们难以检测,需要专业训练的人员来识别。根据文献报告[4],专业训练人员的平均准确率仅为45%。因此,需要开发一种能够广泛探索微表情并提高识别率的自动化系统。
MER方法可以分为两大类:传统描述符和深度学习模型。传统描述符利用手工设计的特征来提取微表情的空间和时间响应。文献中提出了许多特征描述符,如局部二值模式——三个正交平面(LBP-TOP)[5]、具有六个交点的LBP(LBP-SIP)[6]、用于自发性面部微表情的LBP(LBP-MOP)[7]、时空完整的局部量化模式(STCLQP)[8]、带有积分投影的时空LBP(STLBP-IP)[9]、带有重新积分投影的判别性时空LBP(DiSTLBP-RIP)[10]、张量独立颜色空间(TICS)[11]、面部动态图(FDM)[12]等,以捕捉微表情的显著特征。与传统专业训练人员相比,这些描述符的灵敏度和特异性表现良好。然而,MER的有效性取决于设计这些描述符时的数学专业知识。
近年来,基于深度学习的MER方法[13]、[14]、[15]、[16]、[17]取得了显著的性能提升。然而,大多数现有方法[13]、[14]、[15]都是两阶段模型。在第一阶段,使用手工设计的描述符(如光流、显著性图和动态图像)从视频序列中提取空间和时间特征。然后,第一阶段生成的响应被传递到第二阶段的CNN模型。大多数现有MER方法[18]、[19]、[20]、[21]仅依赖于关键帧进行分析。然而,一些研究强调了动态方面的作用,以检测微妙的变化[22]及其对MER性能的影响。在微表情视频中,每一帧对于情感类别的识别都具有重要意义。而其他一些CNN模型[16]、[17]则利用2D-CNN和LSTM/RNN的能力分别提取空间和时间特征。然而,这些模型无法同时提取空间和时间变化的联合特征[23]。
因此,这些因素促使我们设计了一个便携式的端到端MicroNet用于微表情识别。所提出的方法与之前基于2D-CNN和LSTM/RNN的方法的主要区别在于MicroNet使用了3D卷积层。3D卷积层使网络能够同时捕捉时空特征,从而提高分类性能。MicroNet的贡献总结如下:
- 1.
在MicroNet框架中,提出了三个特征编码流:MFGen、AFeat和MCFeat模块,用于微表情识别。
- 2.
MFGen用于通过估计每个像素随时间的变化来捕捉表情动作的时间特征。
- 3.
AFeat利用MCFeat模块来提取动态表现特征。
- 4.
MCFeat模块用于提取多个感受野的局部和全局互补特征,从而提高网络的学习能力。
通过在六个具有挑战性的MER数据集上进行LOSO和跨领域实验,检验了所提出的MicroNet的有效性:CASME-I、CASME-II、CAS(ME)、SAMM、SMIC和COMPOSITE。此外,还在消融研究中探讨了所提出流的处理效果和核大小的选择。
相关工作
相关工作
根据特征提取技术,MER方法可以分为两类:传统描述符和基于深度学习的MER。
提出的方法
受3D-CNN方法[23]、[53]的启发,本文提出了一种基于运动流的MicroNet框架,用于捕捉微表情区域并识别情感类别。所提出的MicroNet基于三个特征编码流:MFGen、AFeat模块和MCFeat模块,如图1所示。首先,MicroNet计算MoFlows以保留帧间的瞬时变化。然后,将MFGen的响应与原始帧序列结合并传递给
实验结果与分析
在本节中,我们首先介绍了实现和数据集细节。接着讨论了实验设置和实验结果。此外,我们还通过消融研究探讨了MicroNet每个模块的重要性。最后,我们将所提出模型的计算复杂性与最先进的方法进行了比较。
结论
本文提出了一种高效且鲁棒的端到端基于运动流的MicroNet用于微表情识别。在所提出的MicroNet中,我们引入了三个特征编码流:MFGen、AFeat和MCFeat模块。MFGen用于捕捉表情区域的瞬时变化。此外,AFeat模块利用MCFeat模块表示微表情的显著动态表现结构。MCFeat模块用于从
CRediT作者贡献声明
莫努·维尔玛(Monu Verma):撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、概念化。桑托什·库马尔·维帕尔蒂(Santosh Kumar Vipparthi):撰写——审阅与编辑。穆罕默德·阿卜杜勒-莫塔莱布(Mohamed Abdel-Mottaleb):撰写——审阅与编辑、监督。