融合深度跨模态情感记忆网络与自适应多源异质迁移学习的语音情感识别研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Deep cross-modal affective memory networks with adaptive multi-source heterogeneous transfer learning in speech emotion recognition

【字体：大中小】 时间：2026年04月17日 来源：Scientific Reports 3.9

编辑推荐：

　　推荐：本文为应对语音情感识别中的多模态数据融合与多源异质数据迁移挑战，研究者提出了深度跨模态情感记忆网络与自适应多源异质迁移学习框架。该方法通过多级特征融合、动态情感记忆机制与跨模态一致性约束，充分利用语音与文本的双模态信息，显著提升了情感识别的准确率。同时，该框架实现了自适应特征对齐与异质标签映射，有效迁移了来自多个不同源域的异质数据，显著增强了模型在目标域上的泛化能力。实验结果表明，该方法在多个数据集上取得了显著性能提升，验证了其有效性与实用性，为相关领域提供了新的研究视角与方法。

在人工智能与人机交互蓬勃发展的今天，让机器“听懂”人类声音中的喜怒哀乐——即语音情感识别——正变得日益重要。这项技术不仅是构建更自然、更智能的对话系统的核心，也在心理健康评估、智能客服、安全监控等领域展现出巨大潜力。然而，通向精准情感识别的道路并非坦途，研究者们正面临两大关键“拦路虎”。其一，单一模态（如仅有声音）的信息往往不足以捕捉复杂的情感全貌，而融合语音与文本等多模态信息时，如何让不同模态的数据高效“对话”并协同工作，即多模态数据融合问题，是一个巨大挑战。其二，现实中标注好的情感数据往往稀缺且分布不均，而不同场景、不同设备采集的数据在特征分布上存在差异（即异质性），如何利用已有的、丰富的但可能来自不同源头（多源）的异质数据，来帮助模型在新的、数据匮乏的目标场景中也能表现优异，即多源异质数据迁移问题，同样是亟待解决的难题。

正是为了同时攻克这两大难题，一项创新性研究应运而生。研究人员创造性地提出了深度跨模态情感记忆网络与自适应多源异质迁移学习框架，旨在充分挖掘语音和文本描述的双模态信息价值，并实现多源异质知识的有效迁移。实验证明，该方法在多个公开语音情感识别数据集上均取得了优越的性能，显著提升了情感识别的准确率与模型的泛化能力。这项研究为语音情感识别乃至更广泛的多模态学习与迁移学习领域，都提供了崭新的思路与强大的工具。该成果已发表于国际知名期刊《Scientific Reports》。

为开展此项研究，作者主要运用了以下几个关键技术方法：首先是深度跨模态情感记忆网络，其核心包括用于融合语音与文本不同层次特征的多级特征融合机制、模拟情感动态演进的记忆模块，以及确保跨模态信息一致性的约束方法。其次是自适应多源异质迁移学习框架，该框架设计了自适应特征对齐与异质标签映射策略，以处理来自多个不同源域、具有分布差异的异质数据，并将其知识迁移至目标域。研究在多个公开的语音情感识别数据集上进行了模型训练与评估。

研究结果

•
模型整体性能验证：通过在多个标准语音情感识别数据集上进行实验，并将所提方法与一系列基线模型（如基于单一模态的模型、传统的多模态融合模型及其他迁移学习模型）进行对比。实验结果表明，本文提出的DCM-EMNet结合AMS-HTLF框架的方法，在情感分类准确率等关键指标上均取得了显著且一致的提升，证明了所提方法的整体有效性。
•
深度跨模态情感记忆网络的有效性分析：通过设计消融实验，分别评估了DCM-EMNet中多级特征融合、动态情感记忆机制和跨模态一致性约束各个组件的作用。结果发现，移除了动态情感记忆模块后，模型对连续情感变化的捕捉能力下降；而去除跨模态一致性约束后，语音与文本模态间的协同效果减弱。这证实了DCM-EMNet的每个核心设计对于充分利用双模态信息、提升情感识别精度都是不可或缺的。
•
自适应多源异质迁移学习框架的迁移能力验证：通过设置不同的迁移学习场景，例如从多个不同口音、不同录音环境的源域数据集向一个纯净但数据量少的目标域迁移。实验结果显示，AMS-HTLF框架在目标域上的识别性能显著优于直接合并数据训练的方法，也优于不进行自适应对齐的简单迁移方法。这充分证明了该框架在自适应对齐异质特征空间、实现高效知识迁移方面的强大能力，有效缓解了目标域数据稀缺问题。
•
特征可视化与可解释性探索：通过t-SNE等降维技术对模型学习到的特征进行可视化。可以发现，经过DCM-EMNet和AMS-HTLF处理后的特征，在隐空间中，不仅同一情感类别的样本聚类更紧密，而且来自不同源域但属于同一情感类别的样本也表现出了更好的对齐效果。这从特征层面直观解释了模型性能提升的原因，即模型确实学习到了更具判别力且域不变的情感表征。

结论与讨论

本研究针对语音情感识别中的多模态融合与多源异质迁移两大核心挑战，提出了创新的深度跨模态情感记忆网络与自适应多源异质迁移学习框架。DCM-EMNet通过其内部精巧的多级融合、动态记忆与一致性约束机制，实现了对语音和文本双模态信息深度且高效的协同利用，显著提升了情感识别的精度。AMS-HTLF则通过自适应策略，巧妙地弥合了不同源域与目标域之间的特征与标签分布差异，使得来自多样、异构源域的知识能够被有效提炼并迁移，极大增强了模型在面对新场景、小数据目标域时的泛化能力和实用性。

这项工作的意义超越了其所在的语音情感识别领域。首先，它所提出的深度跨模态情感记忆机制，为如何让机器更“人性化”地理解和记忆动态的情感上下文提供了新的架构参考。其次，其自适应多源异质迁移学习框架，为解决更广泛的机器学习中“数据异质”与“域适应”问题提供了通用性思路。最后，将这两者有机结合的成功实践，展示了复杂问题可以通过模块化、系统化的联合建模来协同解决，为多模态学习与迁移学习的交叉融合研究树立了一个范例。尽管在极端噪声环境或文化背景差异极大的情感表达上可能仍存在局限，但本研究无疑为构建更鲁棒、更通用的情感智能系统迈出了坚实的一步，预示着未来人机交互将朝着更深层情感理解的方向不断发展。

联系信箱：

粤ICP备09063491号

热点排行