《Pattern Recognition》:A Generative Multimodal Network for Facial Expression Recognition
编辑推荐:
面部表情识别中,提出基于面部不对称和镜像原理生成多模态图像的GMNet方法。通过并行网络学习原始与生成图像的多样性信息,结合稀疏机制优化特征提取,并利用交叉损失增强多模态图像可靠性,显著提升识别性能。
作者:赵月、宋明健、张琦、杨家伟、吉越智二、田春伟
单位:温州肯恩大学科学与数学技术学院计算机科学系,中国浙江省温州市瓯海区大学路88号,325060
摘要
具有强大特征提取能力的深度网络已被广泛应用于面部表情识别(FER)。然而,这些网络主要关注数据依赖性中的结构信息,而非面部属性,这限制了所获得模型的鲁棒性。在本文中,我们提出了一种用于FER的生成式多模态网络(GMNet)。首先,GMNet可以根据面部不对称性和镜像原理生成并对齐多模态面部图像;其次,它利用并行网络分别学习基于原始多模态和生成多模态面部图像的多样性信息,并将它们合并以获得可靠的面部表情信息;第三,一种稀疏机制可以进一步细化这些丰富的面部特征,从而提高面部表情信息的准确性并降低训练成本;最后,交叉损失可以利用跨域约束来保证多模态面部图像的可靠性,从而提升面部表情识别的性能。实验结果表明,我们的GMNet优于其他流行的FER方法。GMNet的代码可在以下链接获取:
https://github.com/hellloxiaotian/GMNet。
引言
面部表情是人类自然表达情感和意图的通用且有效的方式[1]。因此,面部表情识别(FER)在医疗保健[2]、安全[3]和安全驾驶[4]等应用中发挥着关键作用。此外,面部表情分析是更广泛的情感图像内容分析[5],[6]的重要组成部分。FER的任务是从图像中提取与表情相关的面部特征,以识别相应的表情和情感[7]。FER研究的发展可以大致分为两个阶段:传统机器学习阶段和深度学习阶段。传统的机器学习方法通常遵循一个包含图像预处理、手工特征提取和分类的三阶段流程[1]。预处理阶段旨在减少包含不一致光照的环境变化[8]。随后,特征提取阶段专注于设计手工特征描述符来编码面部表情特征,这直接影响了FER的准确性[9]。为了从整个面部图像中提取关键面部特征,李等人[10]首次使用主成分分析(PCA)通过找到最大方差的方向(即像素变化最显著的方向)来识别FER的模式和结构信息。为了捕捉更细致的局部纹理细节,Ojala等人[11]引入了局部二值模式(LBP),通过比较每个像素与其邻居的强度来为每个像素编码一个值,从而改进FER的局部纹理信息。最后,分类阶段可以利用获得的显著信息来识别面部表情。尽管这些方法可以识别表情,但它们可能存在一些缺点,例如需要手动设置参数,这可能导致这些模型在复杂场景(如不同姿势、光照和遮挡)下的性能下降[7]。这些挑战可以通过具有大规模数据集和强大计算能力的GPU的深度网络来克服[12]。
端到端架构的卷积神经网络(CNN)在不同设备上适用于FER[13]。增加深度或宽度(例如VGG[14])是提高CNN在FER性能的主流方法。为了防止梯度消失或爆炸,通过跳过连接和残差学习等操作来组合多个层可以提高CNN在FER中的稳定性[15]。考虑到面部的生物特性,设计特殊的网络对于FER至关重要。针对遮挡问题,李等人将多个局部块和门单元嵌入到CNN中,以增强显著区域的效果,从而更准确地获取情感变化[16]。为了进一步提高FER的性能,赵等人[17]结合了图卷积网络和CNN,利用图中点和边的关系来获取更多结构和纹理信息[17]。在现实世界场景中,单视图CNN经常受到各种不可控视觉因素的影响,导致FER的信息表示模糊且不稳定。为了获取更详细的信息,人们利用多视图技术来引导CNN捕捉全面的结构细节。例如,融合可见光图像和深度映射可以挖掘更多FER的细节[18]。这些额外的模态提供了不变的结构信息,有效弥补了单模态视觉纹理的不足。除了多视图策略外,生成高保真的面部结构和处理图像退化(如模糊和非正面姿势)对于鲁棒的面部分析也至关重要。最近的进展利用3D面部先验实现了精确的面部视频去模糊和恢复[19],[20]。同样,多视图自拍照被用于详细的皮肤特征重建[21]。此外,先进的3D表示和未校准的光度立体方法(如傅里叶嵌入网络[22]和光度正则化高斯插值[23])在捕捉精细的表面几何和光照信息方面表现出强大的能力。这些研究为提取FER中不变且可靠的结构特征提供了宝贵的见解。然而,获取此类物理多模态数据需要专门的硬件,这在标准环境中往往不切实际。因此,直接从单个RGB图像构建多源输入空间以利用多模态融合的优势是必要的。而且,人类的视觉认知系统通常利用结构规律性(如对称性)来感知和重建面部[24]。在表达情感时,人脸经常表现出不对称性。面部的一侧通常显示出比另一侧更高的表情强度或肌肉参与度[25]。受此启发,可以利用面部不对称性和镜像原理生成更多的多模态面部图像。这些多模态面部图像可以通过并行网络学习更互补的情感信息。为了进一步提取更微妙的情感信息,稀疏机制可以提取更准确的面部表情信息,从而降低训练成本。最后,交叉损失可以利用跨域约束来保证FER中获得的多模态面部图像的可靠性。
我们的贡献总结如下:
1. 可以根据面部不对称性和镜像原理生成和对齐多模态面部图像。2. 可以通过并行网络学习并合并多模态面部图像的多样性信息,以获得更准确的FER情感信息。3. 可以使用稀疏机制来细化获得的信息,以降低计算成本。4. 使用交叉损失来保证FER中多模态面部图像融合的效果。本文的其余部分组织如下:第二节回顾了面部表情识别的传统机器学习和深度学习方法;第三节详细描述了所提出的方法;第四节对我们的GMNet在四个数据集上的实验进行了全面测试;最后,第五节总结了本文。
章节片段
面部表情识别的传统学习方法
传统的FER方法通常包括三个阶段:图像预处理、特征提取和分类。因此,学者们倾向于改进特征提取方法以提高FER的准确性。具体来说,这些方法可以大致分为两个主要范式:几何和外观。基于几何的特征提取方法依赖于面部组件的形状、位置和时间动态来学习有效的面部表情信息[26]
提出的方法
在本节中,我们将详细介绍我们的生成式多模态网络(GMNet)。我们首先在第3.1节介绍整体网络架构。随后,在第3.2节详细阐述关键组件:生成多模态模块(GMMM)、第3.3节的多模态信息融合模块(MIFM)、第3.4节的多模态信息细化模块(MIRM)、第3.5节的FER分类器以及第3.6节的交叉损失(CL)函数。实验
在本节中,我们进行了一系列实验来全面评估我们提出的GMNet的性能。首先,我们展示了不同FER方法的数据集。其次,我们介绍了GMNet的实验设置。第三,我们阐述了GMNet的原理并分析了其合理性。第四,我们比较了我们的GMNet与其他流行的FER方法的性能。最后,我们总结了整篇论文。结论
在本文中,我们提出了一种用于面部表情识别的生成式多模态网络。该网络主要利用面部不对称性和镜像原理来生成和对齐多模态面部图像,以增加FER的输入图像多样性。所提出的方法利用并行网络分别学习基于原始和生成的多模态面部图像的多样性情感信息,并将它们合并以获得可靠的面部表情信息。CRediT作者贡献声明
赵月:撰写 – 审稿与编辑。宋明健:撰写 – 原稿撰写、可视化、验证、软件开发、数据整理。张琦:撰写 – 审稿与编辑、资金获取。杨家伟:撰写 – 审稿与编辑。吉越智二:撰写 – 审稿与编辑。田春伟:撰写 – 审稿与编辑。利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。致谢
本工作得到了固苏创新创业领军人才计划[No.ZXL2023170]和太仓市2024年基础研究计划[No.TC2024JC32]的支持。