面向社交辅助机器人的语音情感识别：聚焦西班牙语与意大利语的“野外”性能突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Overlooked Romance Languages: In-the-wild Emotion Recognition in Italian and Spanish Speakers

【字体：大中小】 时间：2026年02月23日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　为解决非英语语音情感识别研究不足的问题，研究人员针对西班牙语和意大利语语音数据，系统比较了DeepSpectrum (DS)系列模型（包括DS-SVC、DS-FC和DS-AM）与wav2vec 2.0等先进方法。研究在ELRA-S0329等多个数据集上验证了所提模型的有效性，其中融合注意力机制的DS-AM模型和基于wav2vec 2.0的模型在多数数据集上超越了现有最佳性能，并通过跨数据集和跨语言的“野外”测试评估了模型的泛化能力与数据集偏差。这项工作为提升社交辅助机器人(SAR)在真实多语言环境下的情感适应能力提供了重要技术参考。

在老龄化社会的浪潮中，社交辅助机器人（Socially Assistive Robots, SAR）被寄予厚望，它们需要像贴心的伙伴一样，感知并适应用户的情绪变化，从而提供更有效的陪伴与协助。情感识别，尤其是通过语音进行的情感识别，因此成为实现人机和谐交互的关键技术。然而，当前该领域的研究存在一个明显的“语言鸿沟”：绝大多数先进的语音情感识别模型和技术都是基于英语数据开发和优化的。像西班牙语和意大利语这样在全球拥有数亿使用者的主要语言，其相关研究却相对匮乏，这使得面向这些语言群体的SAR应用面临着技术瓶颈。

为了填补这一空白，并探索语音情感识别技术在真实、多变环境下的性能，一支研究团队将目光投向了西班牙语和意大利语。他们的核心疑问是：针对这些“被忽视的罗曼语族语言”，现有的先进模型表现如何？能否设计出性能更优的新模型？更重要的是，这些模型在面对来自不同说话者、不同录音环境甚至完全不同语言的未知语音样本时，是否依然可靠？这项研究的意义在于，它不仅致力于为特定语言社群开发更精准的情感识别工具，更旨在通过严格的“野外”（in-the-wild）测试，推动情感识别技术向更通用、更鲁棒的方向发展，最终促进SAR在不同文化和语言背景下的普适性应用。相关研究成果已发表于期刊《Pattern Recognition Letters》。

为了回答上述问题，研究人员主要采用了以下关键技术方法：首先，他们利用了DeepSpectrum 工具包，该方法将原始音频转换为梅尔频谱图（一种视觉表示），然后将其输入预训练的卷积神经网络（CNN）中进行特征提取。研究基于VGG16架构构建了三种模型：使用支持向量分类器（SVC）的DS-SVC、使用全连接深度学习分类器的DS-FC，以及引入了两个注意力模块的DS-AM。其次，他们采用了基于Transformer的自监督学习框架wav2vec 2.0，通过在其基础上添加全局平均池化、ReLU激活函数和线性分类层，将其适配用于情感识别任务。研究使用了五个语音情感数据集进行模型训练与评估，包括西班牙语的ELRA-S0329和EmoMatchSpanishDB，以及意大利语的Emozionalmente、EMOVO和DEMoS。此外，为了模拟真实场景，研究还进行了跨数据集和跨语言测试，使用了英语的RAVDESS、粤语的CAVES和孟加拉语的SUBESCO作为外部测试集，以评估模型的泛化能力。

研究结果

模型在单一数据集上的性能表现

研究人员首先在五个数据集上分别训练并测试了DS-SVC、DS-FC、DS-AM以及他们自己训练的wav2vec 2.0模型，并与各数据集上报道的最佳基线模型（State-of-the-Art, SOTA）进行对比。结果表明：

•
对于ELRA-S0329数据集，DS-FC、DS-AM和wav2vec 2.0模型均显著超越了该数据集原有的最佳模型（基于MFCC+MS特征的RNN，准确率90.05%），分别取得了97.8%、98.9%和97.1%的准确率。
•
对于EmoMatchSpanishDB数据集，DS-FC、DS-AM和wav2vec 2.0模型同样超越了基线SVC模型（准确率64.2%），准确率分别达到65.9%、69.0%和70.1%。
•
对于EMOVO数据集，只有DS-AM模型（准确率31.9%）的表现略优于该数据集原有的wav2vec 2.0基线模型（准确率30.0%）。
•
对于DEMoS数据集，DS-AM和wav2vec 2.0模型表现优异，准确率分别达到89.0%和90.7%，远超基线SVC模型（准确率62.7%）。
•
对于Emozionalmente数据集，所有的DeepSpectrum衍生模型均未能超越其原有的wav2vec 2.0基线模型（准确率82.4%）。

总体而言，DS-AM模型在除Emozionalmente之外的所有数据集上均取得了最佳或接近最佳的性能，而wav2vec 2.0模型也在多个数据集上展现了强大的竞争力。

跨数据集与跨语言的“野外”性能评估

为了评估模型的泛化能力和数据集偏差，研究人员选取了在各自数据集上表现最好的DS-AM和wav2vec 2.0模型，在一个数据集上训练，然后在其他所有数据集（包括保留的测试集）上进行测试。

•
在相同语言（西班牙语和意大利语）内的跨数据集测试中，结果显示模型性能普遍下降，这证实了模型存在对特定数据集的偏差。然而，在Emozionalmente数据集上训练的wav2vec 2.0模型表现出了最强的泛化能力，在其他意大利语和西班牙语数据集上的测试准确率相对最高。相反，在DEMoS数据集上训练的模型，无论使用何种架构，在所有跨数据集测试中都表现最差。
•
在跨语言测试中（使用CAVES、RAVDESS和SUBESCO数据集），趋势与跨数据集测试类似。在Emozionalmente数据集上训练的wav2vec 2.0模型再次展现了最佳的整体跨语言性能，尤其是在英语RAVDESS数据集上达到了62.0%的准确率。而在DEMoS上训练的模型性能依然最低。

这些结果突出表明，训练数据集的质量对模型的最终性能，尤其是泛化能力，具有至关重要的影响。拥有更多说话者且语句内容一致（即每个情感类别使用相同的文本）的数据集（如Emozionalmente、EmoMatchSpanishDB），有助于训练出泛化性更好的模型。

混淆矩阵分析

通过对最佳模型进行混淆矩阵分析，研究人员发现了不同训练集导致的系统性分类偏差。例如，在EmoMatchSpanishDB上训练的模型倾向于过度预测“悲伤”类别；在Emozionalmente上训练的模型则倾向于过度预测“惊讶”类别；在ELRA-S0329上训练的模型难以准确识别“愤怒”类别；而在DEMoS上训练的模型则频繁预测“快乐”和“愤怒”类别。这些模式在DeepSpectrum和wav2vec 2.0模型中都相似，进一步揭示了数据集内在的分布特性对模型决策的影响。

研究结论与讨论

本研究系统评估了多种先进模型在西班牙语和意大利语语音情感识别任务上的性能，并深入探究了它们在模拟真实环境下的泛化能力。主要结论如下：

1.
数据集质量至关重要：研究明确指出，一个高质量的情感语音数据集应具备足够数量的说话者和样本，并且最好保持语句内容的一致性（即不同情感由相同的文本表达）。这有助于模型学习真正的情感副语言特征，而非特定文本或说话者的声学线索，从而提升泛化能力。DEMoS数据集尽管说话者数量多，但因缺乏语句一致性，导致以其训练的模型性能最差。
2.
先进模型架构带来性能提升：基于CNN的深度学习方法，如wav2vec 2.0和引入注意力机制的DeepSpectrum-AM (DS-AM)，在多数情况下显著超越了传统的机器学习方法（如SVC结合手工特征），证实了深度学习在捕获复杂声学模式以识别情感方面的优势。
3.
DeepSpectrum方法的有效性得到验证：研究成功地将图像识别领域的注意力机制迁移到音频情感识别问题中，证明了DeepSpectrum作为一种将音频视觉化并利用图像CNN进行特征提取的框架，在该领域具有实用价值和进一步开发的潜力。
4.
模型存在数据集偏差且泛化能力有待提高：跨数据集和跨语言测试结果清晰地表明，即使是最佳的模型，当其训练和测试数据来源不同时，性能也会显著下降。这凸显了当前语音情感识别系统在应对真实世界多样性时所面临的挑战。

这项研究的重要意义在于，它不仅为资源相对较少的非英语语言（西班牙语、意大利语）提供了性能优异的语音情感识别基准模型和系统性的评估，更重要的是通过严谨的“野外”实验设计，揭示了影响模型实用化的关键因素——数据集偏差和泛化能力。这为未来构建更鲁棒、更通用的跨语言情感识别系统指明了方向：一方面需要收集和构建更多高质量、多样化的多语言情感语音数据集；另一方面需要继续探索能更好捕获跨语言、跨场景不变情感特征的模型架构与训练策略。最终，这些努力将直接推动社交辅助机器人等应用在全球化背景下的落地与普及。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号