《Sensors》:Deep-Learning-Derived Facial Electromyogram Signatures of Emotion in Immersive Virtual Reality (bWell): Exploring the Impact of Emotional, Cognitive, and Physical Demands
Zohreh H. Meybodi,
Francis Thibault,
Budhachandra Khundrakpam,
Gino De Luca,
Jing Zhang,
Joshua A. Granek and
Nusrat Choudhury
编辑推荐:
本文提出了一种结合沉浸式虚拟现实(VR)、多通道面部肌电图(fEMG)与卷积-时序卷积神经网络(CNN–TCN)的端到端深度学习框架,旨在克服传统视觉情绪识别在VR环境中的局限。该研究通过参与者级生理信号归一化与单一共享模型,成功实现了跨参与者的校准表情高精度分类(Macro-F1 = 0.88 ± 0.13),并揭示了自发面部表情动态特征与NASA任务负荷指数(NASA-TLX),特别是感知体力负荷之间的显著关联。研究为在VR应用中实现连续、客观、保护隐私的情绪与工作负荷评估提供了可行方案。
引言
情绪是影响行为、感知和认知过程的复杂生理心理反应,而面部表情是情绪外显的最直接、最丰富的通道之一。传统的情绪识别多基于视觉的面部动作编码系统(FACS),但受限于隐私、光照、遮挡以及在沉浸式虚拟现实(VR)头显下的失效等问题。面部肌电图(fEMG)通过直接测量相关肌肉的电活动,为在遮挡环境下实现保护隐私的情绪监测提供了替代方案。VR能够唤起生态效度高的情绪和工作负荷相关状态,但同时也加剧了表情分析的挑战。本研究旨在探索结合多通道fEMG与时空深度学习,能否在VR环境中实现跨参与者的校准表情准确分类,并将其迁移至任务引发的自发行为分析。
材料与方法
研究招募了12名健康成年人参与者。实验采用加拿大国家研究委员会开发的bWell交互式VR平台,平台包含一系列旨在诱发情绪、认知、体力和双重任务负荷的标准化场景,包括用于休息/恢复的“帐篷”场景、诱发情绪反应的“城市”场景、针对反应抑制的“打地鼠”任务、以及涉及体力活动与持续注意双重任务的“漫步”任务。
fEMG数据采集使用集成在VR头显内的emteqPRO多传感器面罩,其七个干电极分别置于额肌、眼轮匝肌、颧大肌和皱眉肌,采样频率为1000 Hz。
研究协议始于校准阶段,参与者被指示做出四种有意的面部表情:微笑、皱眉、挑眉和中性。随后进入测试阶段,参与者经历一系列伪随机呈现的VR压力场景,每个场景后通过NASA任务负荷指数(NASA-TLX)和5点表情符号李克特量表评估主观工作负荷和情绪。
数据处理流程包括三个主要阶段:数据标记、归一化和滑动窗口分割。为减少参与者间的生理差异,对fEMG信号依次进行了中性校正和最大自主等长收缩(MVIC)归一化。建模流程分为四步:首先,在归一化的校准数据上,使用留一参与者出(LOPO)交叉验证训练一个单一的共享CNN–TCN模型,以分类四种校准表情。其次,将训练好的模型应用于未标记的VR任务fEMG记录,生成连续的表情类别时间序列。第三步,从预测的表情序列中提取静态和动态特征。第四步,通过混合效应模型分析这些特征与NASA-TLX评分之间的关系。
CNN–TCN模型架构由三个主要块组成:CNN块用于捕捉fEMG信号的空间模式和通道间关系,TCN块用于建模肌肉活动随时间的动态演化,全连接(FC)块用于最终分类。
结果
问卷与基线数据验证
自我报告的情绪评分和NASA-TLX子量表得分在不同场景间存在显著差异,证实了VR场景成功诱发了不同的情绪和工作负荷状态。参与者VR经验多样,但技术舒适度高,模拟器病征轻微,系统可用性和游戏用户体验满意度良好,表明观察到的效应主要源于实验操控而非干扰因素。
校准阶段学习性能
CNN–TCN模型在LOPO交叉验证中表现出强大的跨参与者分类性能,测试集宏F1分数为0.88 ± 0.13,ROC曲线下面积(ROC-AUC)为0.95 ± 0.06。混淆矩阵显示,微笑和中性表情的识别率最高,挑眉和皱眉表情存在少量混淆,但总体上模型能可靠区分四类表情。
推断阶段表情模式
将训练好的模型应用于未标记的VR任务数据后,分析发现非中性表情的表达性在不同场景中存在差异。相较于基线,认知需求场景中的非中性表达性受到抑制,而体力和双重任务需求场景中的表达性则显著增强。
具体到各类表情的概率变化,体力需求场景表现出中性预测概率的最大降低(-0.17)和微笑概率的显著增加(+0.14)。双重任务场景模式类似。情绪需求场景变化微弱,而认知需求场景则呈现中性概率小幅增加,微笑和挑眉概率略有降低的模式。所有场景中皱眉概率均接近零。模型预测的表情比例与设备原生表情指数高度一致,证实了其生理合理性。
场景依赖性关联分析
对从预测表情序列中提取的81个特征进行主成分分析(PCA),前两个主成分(PC1和PC2)共同解释了41.6%的方差。PC1代表“整体表情动态”轴,反映参与者偏离稳定中性脸的频率;PC2则主要由皱眉相关特征定义,代表“紧张/挫折”维度。分析发现,PC1在认知需求场景中显著低于基线,表明认知负荷抑制了整体面部表情动态;PC2在情绪需求场景中显著高于基线,而在体力和双重任务场景中显著降低。
混合效应模型分析显示,经过错误发现率(FDR)校正后,最一致的关联模式是NASA-TLX体力需求与微笑相关动态特征(如微笑比率、微笑爆发次数)呈负相关,表明更高的感知体力负荷伴随着微笑活动减少。该关联在CNN–TCN模型和原生指标中均被观察到,显示出稳健性。此外,在情绪和体力需求场景中,也观察到挑眉和微笑相关时间动态与某些工作负荷维度之间存在FDR校正后显著的关联,但这些效应不如前者一致。
模型对比
在监督学习条件下,将CNN–TCN与CNN、TCN、LSTM、CNN-LSTM和GRU等模型进行LOPO性能比较。CNN–TCN取得了最高的宏F1分数(0.882 ± 0.135)和宏召回率(0.896 ± 0.107),表明其联合建模空间肌肉激活和长时间动态的能力,为此数据集中的校准表情学习提供了最有效的表示。
讨论与结论
本研究证实,结合沉浸式VR、多通道fEMG和CNN–TCN深度学习架构,能够构建一个有效的框架,用于跨参与者的校准表情分类和VR任务中自发表情动态的评估。通过参与者级生理归一化和单一共享模型,该框架在避免手工特征工程和场景特异性再训练的同时,实现了保护隐私的面部表情感知。研究最重要的发现是,从fEMG推导出的表情动态特征,特别是与微笑相关的特征,与参与者自我报告的NASA-TLX体力需求评分存在稳健的负相关关系,这为在VR应用中利用连续、客观的生理信号部分补充或替代间歇性的自我报告问卷提供了实证依据。
然而,本研究也存在局限性,包括样本量较小、表情类别仅限于四种校准表情、以及结果的探索性。未来的研究方向包括扩大参与者样本多样性和规模,纳入更丰富的表情类别和多模态生理信号,探索小样本适应策略,并最终向实时部署和实际应用场景推进。总体而言,该研究为在以人为本的VR应用中,实现基于生理信号的、连续的、生态化的情绪与工作负荷评估奠定了技术基础。