ExpressNet-MoE：一种基于混合深度神经网络和专家混合框架的面部情绪识别新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Machine Learning with Applications》：ExpressNet-MoE: A hybrid deep neural network for emotion recognition

【字体：大中小】 时间：2026年01月05日 来源：Machine Learning with Applications 4.9

编辑推荐：

　　本文推荐一种名为ExpressNet-MoE的新型混合深度学习架构，该架构结合了卷积神经网络（CNN）和专家混合（MoE）框架，以解决面部情绪识别（FER）在真实场景下面临的头部姿态、遮挡、光照变化和人口多样性等挑战。研究通过在AffectNet7、AffectNet8、RAF-DB和FER-2013等多个基准数据集上的评估表明，该模型能够动态选择最相关的专家网络，实现多尺度特征提取，显著提升了情绪识别的准确性和泛化能力，为在线教育、医疗健康和人机交互等领域的端到端情绪识别系统开发提供了有效解决方案。

在当今数字化时代，面部情绪识别（Facial Emotion Recognition, FER）已成为人机交互、在线教育、医疗健康和安防等领域的关键技术。通过准确识别人类情绪，计算机系统能够更智能地感知和响应用户状态，从而提供更加个性化和自适应的服务。然而，真实世界中的面部情绪识别仍面临诸多挑战：头部姿态的多样性、部分面部遮挡、光照条件的剧烈变化以及不同人种、年龄和性别的面部特征差异，都可能导致识别性能显著下降。特别是在虚拟学习平台中，学生的参与度检测系统极易受到这些因素的干扰，限制了其在实际应用中的有效性。

传统的情感识别方法主要依赖于手工设计的特征（如局部二值模式LBP和方向梯度直方图HOG）结合支持向量机（SVM）等机器学习算法。随着深度学习的发展，卷积神经网络（CNN）通过自动学习层次化特征表示，大幅提升了情绪识别的准确性。此外，基于迁移学习的预训练模型进一步增强了模型对复杂情绪表达的识别能力。尽管如此，现有模型仍存在泛化能力不足、对数据集偏差敏感以及难以同时捕捉全局面部结构和细粒度表情特征等问题。尤其是在类别不平衡的数据集（如FER-2013）上，模型对少数类别情绪（如厌恶、恐惧）的识别效果往往较差。

为了应对上述挑战，来自丹佛科罗拉多大学（University of Colorado Denver）的Deeptimaan Banerjee、Prateek Gothwal和Ashis Kumer Biswas提出了一种名为ExpressNet-MoE的新型混合深度学习架构。该模型将CNN与专家混合（Mixture of Experts, MoE）框架相结合，通过动态选择最相关的专家网络处理不同输入，从而提升模型在多数据集上的适应性和鲁棒性。相关研究成果已发表在《Machine Learning with Applications》上。

为开展本研究，作者主要采用了以下关键技术方法：首先，使用BlazeFace进行人脸检测和对齐预处理，确保输入图像质量；其次，构建了多个CNN特征提取器（包括CNNFE1、CNNFE2和基于VGGFace2预训练的ResNet-50），以提取多尺度特征；然后，引入MoE模块实现自适应特征选择；最后，利用Adam优化器和分类交叉熵损失函数进行模型训练，并在AffectNet₇、AffectNet₈、RAF-DB和FER-2013等基准数据集上采用分层抽样划分训练集和测试集进行评估。

模型架构

ExpressNet-MoE采用混合架构，包含三个主要的特征提取分支：CNNFE1通过一系列卷积层（核尺寸从75×75递减至3×3）提取空间特征；CNNFE2采用全局平均池化（Global Average Pooling）生成紧凑特征向量；ResNet-50分支则提供高层语义特征。这些特征被输入到两个独立的MoE层，通过门控网络动态选择top-k专家，最终加权融合后通过softmax层进行情绪分类。

实验结果

在AffectNet₇上，模型取得了74.40%的准确率（±0.45%），显著优于对比方法（如ResEmoteNet的72.93%）。在AffectNet₈上，准确率达到71.98%（±0.66%），表明模型能够有效处理包含“ contempt ”（ contempt ）类别的更细粒度情绪分类。在RAF-DB上，模型准确率为83.41%（±1.06%），虽略低于部分先进模型（如ResEmoteNet的94.76%），但仍表现出较强的泛化能力。在FER-2013上，由于数据集本身存在标签噪声和低分辨率图像问题，模型准确率为67.05%（±2.08%），反映出其对复杂真实场景的适应性仍有提升空间。

讨论与结论

本研究提出的ExpressNet-MoE模型通过集成多尺度特征提取和动态专家选择机制，有效提升了面部情绪识别的准确性和鲁棒性。其主要贡献在于：① 实现了自适应特征学习，克服了传统静态模型的特征提取局限性；② 采用多尺度卷积核捕捉全局与局部表情特征；③ 在多个具有不同分布特性的数据集上验证了模型的泛化能力。值得注意的是，模型对“ happy ”（快乐）情绪的识别准确率最高，这与数据集中该类样本数量较多有关，而“ fear ”（恐惧）、“ disgust ”（厌恶）等少数类别仍有较大提升空间。

尽管ExpressNet-MoE在AffectNet和RAF-DB上表现优异，但在FER-2013上的结果提示，未来研究需进一步优化模型对低质量图像和噪声标签的鲁棒性。此外，作者发现RAF-DB数据集中部分图像因面部遮挡导致BlazeFace检测失败，进而影响模型性能，这启示后续工作可探索更稳健的预处理方法。总体而言，该研究为复杂真实环境下的情绪识别提供了可扩展的解决方案，并为开发端到端的智能人机交互系统奠定了重要基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号