基于动态多模态因果图的对话情感识别框架研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Standards & Interfaces》：A Dynamic Multimodal Causal Graph framework for standardized Emotion Recognition in Conversations

【字体：大中小】 时间：2026年01月18日 来源：Computer Standards & Interfaces 3.1

编辑推荐：

　　本文提出了一种创新的动态多模态因果图情感系统（DMCGES），旨在解决对话情感识别中存在的因果约束缺失和说话人情感演化建模不足等关键问题。研究通过构建受限动态因果图确保时序一致性，结合说话人特定记忆模块捕捉情感轨迹，在IEMOCAP和MELD数据集上实现了69.36%的准确率和69.49%的F1值，显著提升了多模态情感识别的性能。

在人工智能与人类交互日益密切的今天，让机器准确理解人类情感已成为提升人机交互体验的关键挑战。特别是在对话场景中，情感表达具有动态演化、多模态交织和因果依赖等复杂特性。传统多模态模型往往依赖全局注意力机制，忽视了对话中严格的时间因果约束，导致未来信息泄露和说话人情感演化建模不足等问题。

针对这些挑战，来自穆尔西亚大学的研究团队在《Computer Standards》上发表了创新性研究成果，提出了动态多模态因果图情感系统（DMCGES）。该框架通过受限动态因果图确保时序一致性，结合说话人特定记忆模块捕捉情感轨迹，显著提升了多模态情感识别的准确性和鲁棒性。

核心技术方法概述

研究采用多模态特征提取流程，文本特征使用BERT嵌入（768维），音频特征提取MFCCs（128维），视觉特征通过MTCNN-ViT流程处理（768维）。核心架构包含三个关键组件：动态因果图模块使用Transformer编码器（2层，4头注意力）约束信息仅在因果窗口（W=6）内流动；说话人记忆模块采用GRU网络（隐藏层128维）跟踪每位参与者的情感轨迹；跨模态变分自编码器（VAE）增强模态间一致性和缺失数据鲁棒性。模型在IEMOCAP（6类情感）和MELD（7类情感）数据集上进行评估，使用准确率（ACC）和加权F1值作为主要指标。

研究结果分析

动态因果图结构的有效性

研究表明，受限因果图能有效防止未来信息泄露，同时捕捉局部情感依赖。当窗口大小W=2时，每个对话轮次仅能关注当前及前两个轮次，确保了情感传播符合实际对话的时间因果特性。例如，在愤怒-悲伤-厌恶的情感序列中，系统能准确建模愤怒对后续悲伤表达的影响，而不会受到未来厌恶表达的干扰。

多模态融合性能比较

消融实验显示，文本单模态在IEMOCAP上达到63.32% F1值，而完整三模态（文本+视觉+音频）提升至69.49%，证实多模态融合的显著优势。特别值得注意的是，文本-视觉组合（67.39% F1）优于文本-音频组合（68.03% F1），表明视觉线索对情感识别的补充作用更为重要。

说话人记忆机制的贡献

通过对比基线模型（DialogueRNN、DialogueGCN等），DMCGES在捕捉说话人特定情感轨迹方面表现突出。例如，在包含多位说话人的对话中，系统能准确区分同一情感标签下不同说话人的表达差异，有效解决了传统模型将说话人视为神经实体的局限性。

跨数据集泛化能力

在对话结构差异显著的IEMOCAP（长对话、平衡分布）和MELD（短对话、类别不平衡）数据集上，DMCGES均取得最优性能，特别是在MELD中面对严重类别不平衡（中性情感占50%）时仍保持62.03%的F1值，展现出强大的适应能力。

研究结论与意义

该研究提出的DMCGES框架在技术层面创新性地将因果约束引入多模态情感识别，解决了信息泄露和时序建模的固有难题。在应用层面，该工作符合IEEE 7010-2020标准要求，为构建更符合人类伦理的情感计算系统提供了重要技术支撑。未来研究方向包括扩展自适应因果窗口机制、融合常识知识图谱以及探索基于大语言模型（LLM）的情感推理方法，进一步提升对话情感识别的准确性和可解释性。

这项研究不仅推动了多模态情感识别技术的发展，更为构建真正理解人类情感的可信人工智能系统奠定了坚实基础，对促进人机和谐交互具有重要理论和实践意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号