编辑推荐:
多模态情感计算框架Listen通过文本/视频双代理的跨模态辩论机制,解决模态异步与黑箱问题,实现透明化多模态融合与复杂情感识别精度提升。
潘一杰|史元春|于春宇|孔向增|张彦|肖乃安
清华大学计算机科学与技术系,北京,100084,中国
摘要
尽管取得了进展,但多模态大型语言模型(MLLMs)在处理模态异步性和情感计算中的可解释性方面仍存在困难。为了解决这些问题,我们提出了Listen这一新颖的多智能体辩论框架。Listen模拟了两个专门智能体之间的结构化讨论:一个负责语言分析的文本智能体,另一个负责非语言线索的视频智能体。通过独立分析、迭代交叉询问和共识合成的三阶段协议,Listen将多模态融合这一不透明的过程转变为一个透明、深思熟虑的对话。我们的框架生成了一个全面的文本说明,解释了如何解决跨模态冲突,从而在CH-SIMS和CH-SIMS v2基准测试中取得了66.5%的Acc-5准确率和0.871的相关性,显著提高了可解释性,为更可靠的情感智能体铺平了道路。
引言
感知、解释和响应人类情感的能力是先进人工智能的基石,也是人机交互未来的关键驱动力[1]、[2]、[3]。然而,要实现这一能力,必须应对情感表达本身的复杂性。人类情感本质上是一个多模态现象[4],它不是通过单一渠道表达的,而是通过语言、面部表情[5]、身体姿势和语调[6]、[7]的复杂动态互动来表达的。一个人可能会说“我很好”,但他们的颤抖双手和回避的目光却传达了完全不同的信息。准确捕捉这一丰富的信号组合是情感计算的核心挑战[8]。虽然最近的多模态大型语言模型(MLLMs)在使系统能够联合处理视觉和语言内容方面开辟了新的领域,但仍存在一个根本性的差距:这些模型在整体数据摄取方面表现出色,但在解释细微或冲突的跨模态线索所需的深思熟虑的推理方面往往遇到困难。
这一差距体现在三个关键瓶颈上,限制了当前MLLMs在现实世界情感计算场景中的可靠性。首先,它们在处理模态异步性方面存在显著弱点。面对不一致的信号(例如讽刺的文本与中性表情),单一模型倾向于将冲突“平均化”为一个平淡无味的错误评估,或者默认使用看似占主导的模态,从而忽略了定义情感状态的关键潜台词[9]。其次,它们的端到端架构缺乏评估的可解释性。内部融合机制像不透明的“黑箱”一样运作,仅提供一个情感标签而没有任何透明的理由。这种不透明性是信任的主要障碍,特别是在心理健康监测或教育反馈系统等敏感应用中,理解评估背后的“原因”与评估本身一样重要[10]。第三,现有的单一智能体范式不能很好地模拟人类使用的复杂认知过程。人类不会简单地“融合”数据;他们会在一个深思熟虑的过程中积极比较和对比来自不同渠道的信息以形成判断[11]。
为了解决这些限制,我们提出了从隐式融合到显式审议的范式转变。我们引入了Listen,这是一个专为多模态情感计算设计的新颖多智能体协作框架。我们的框架通过模拟模态专家之间的结构化对话来重新构想分析过程。Listen围绕两个核心智能体构建:文本-音频智能体(TA),它作为计算语言学家分析文本输入和音频输入的语义、语法和情感;以及视频-音频智能体(VA),它作为非语言行为学家解释面部表情、手势、情感和上下文视觉线索。这一协作过程通过一个结构化的三阶段协议展开:(1)独立分析,每个智能体分别准备基于证据的报告;(2)交叉询问,智能体进行迭代辩论,交换理由以挑战和协调他们的初步发现;(3)共识合成,将他们精炼的见解整合为一个最终的、统一的、基于叙述的判断。
我们工作的关键创新和贡献有三个方面:
一种新的模态特定智能体框架:我们是第一个用具体的模态专业化来替代抽象智能体角色的团队,直接解决了多模态冲突解决的挑战。
显著提高的可解释性:通过将融合过程外化为一个明确的对话,Listen产生了一个透明的、逐步的推理过程,解释了每种模态的线索如何贡献于最终评估,将“黑箱”转变为“玻璃箱”。
在处理复杂情感方面的卓越性能:实验结果表明,Listen实现了更稳健且符合人类理解的评估,例如在CMU-MOSI(57.1% Acc-7)和CH-SIMS v2(66.5% Acc-5)上的最佳精度。这些结果突显了它在准确识别涉及讽刺、模糊性和混合情感的复杂情感状态方面的特别优势,从而验证了其在实际应用中的有效性。
部分摘录
多模态情感计算
多模态情感计算的基本前提是,人类情感是通过语言、视觉和听觉渠道之间协调的——有时是冲突的信号表现出来的[12]。该领域的早期工作主要集中在特征工程和融合策略上,以结合这些不同模态的信息。开创性的数据集[13]、[14]在基准测试中发挥了关键作用,提供了丰富的情感表达注释
方法论
为了解决多模态融合和可解释性的挑战,我们引入了Listen,这是一个将情感分析从不透明的端到端过程转变为透明、深思熟虑的对话的多智能体框架。我们系统的核心是一个由智能体组成的委员会,旨在模拟模态专家之间的讨论。Listen的创新之处在于,这些智能体没有被赋予抽象的角色,而是根据具体职责进行分配
数据集
为了严格评估我们的Listen框架的性能,我们选择了多个具有挑战性的公开可用的多模态基准测试数据集。我们的评估包括四个广泛使用的英语数据集:CMU-MOSEI [13]、CMU-MOSI [33] 和两个中文数据集:CH-SIMS [34] 和 CH-SIMSv2 [35]。
CMU-MOSI是一个多模态情感分析的基准数据集,包含来自YouTube电影评论的2,199个短视频片段。每个发言都标注了情感强度,范围从-3
结论与未来工作
在这项工作中,我们引入了Listen,这是一个多智能体辩论框架,将情感计算重新构想为模态专家之间的协作对话。通过将单一的融合过程分解为文本-音频智能体和视频-音频智能体之间的结构化互动,我们解决了两个根本性挑战:模态异步性和可解释性。我们在CH-SIMS和CMU-MOSI上的广泛实验表明,显式审议使模型能够解决
CRediT作者贡献声明
潘一杰:撰写 – 审稿与编辑,撰写 – 原始草稿,验证,方法论,资金获取,概念化。史元春:撰写 – 原始草稿,方法论。于春宇:撰写 – 审稿与编辑,调查,数据管理。孔向增:撰写 – 原始草稿,可视化,概念化。张彦:撰写 – 审稿与编辑,监督,项目管理,方法论,形式分析,概念化。肖乃安:撰写 – 审稿与编辑,
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了宁波市2035关键研究与发展计划(项目编号2024Z123)的支持。
潘一杰在中国浙江大学获得了电子信息工程学士学位和电路与系统硕士学位,在美国马里兰大学科利奇帕克分校获得了电气工程硕士学位。目前,他是中国宁波东方理工学院的研究办公室主任和工程学教授。同时,他还是清华大学计算机科学系的博士生。他的研究兴趣主要集中在智能计算领域