基于专家混合表示的联合学习：用于语音增强与鲁棒情感识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Artificial Life》：Joint Learning using Mixture-of-Expert-Based Representation for Speech Enhancement and Robust Emotion Recognition

【字体：大中小】 时间：2026年05月11日 来源：Artificial Life 1.5

编辑推荐：

　　摘要：语音情感识别（SER）在构建具有情感感知能力的语音系统中起着关键作用，但其性能在噪声环境下会显著下降。尽管语音增强（SE）可以提高系统的鲁棒性，但往往会引入干扰情感线索的伪影，并增加处理过程的计算开销。多任务学习（MTL）通过同时优化SE和SER任务提

摘要：

语音情感识别（SER）在构建具有情感感知能力的语音系统中起着关键作用，但其性能在噪声环境下会显著下降。尽管语音增强（SE）可以提高系统的鲁棒性，但往往会引入干扰情感线索的伪影，并增加处理过程的计算开销。多任务学习（MTL）通过同时优化SE和SER任务提供了一种替代方案。然而，传统的共享主干模型常常面临梯度干扰和任务之间的表示冲突问题。为了解决这些问题，我们提出了稀疏专家混合表示集成技术（Sparse MERIT），这是一种灵活的MTL框架，它在自监督的语音表示上应用了逐帧的专家选择机制。Sparse MERIT结合了特定于任务的门控网络，这些网络可以为每一帧动态地从共享的专家池中选择合适的专家，从而实现参数高效且适应任务特征的表示学习。在MSP-Podcast语料库上的实验表明，Sparse MERIT在SER和SE任务上的表现均优于基线模型。在最苛刻的-5 dB信噪比（SNR）条件下，与依赖SE预处理策略的基线模型相比，Sparse MERIT将SER的F1分数平均提高了12.0%；与简单的MTL基线模型相比，则提高了3.4%，且在未见过的噪声条件下的统计显著性也得到了验证。对于SE任务，Sparse MERIT将分段信噪比（SSNR）提高了28.2%，相较于SE预处理基线，以及提高了20.0%，相较于简单的MTL基线。这些结果表明，Sparse MERIT在噪声环境中为情感识别和增强任务提供了稳定且泛化能力强的性能。

联系信箱：

粤ICP备09063491号

摘要：

热点排行