基于证据的三元对比学习结合分层Mamba融合技术,用于实现鲁棒的多模态意图识别
《Neurocomputing》:Evidence-driven ternary contrastive learning with hierarchical mamba fusion for robust multimodal intent recognition
【字体:
大
中
小
】
时间:2026年01月28日
来源:Neurocomputing 6.5
编辑推荐:
多模态意图识别中提出基于Mamba的状态空间模型、动态解耦证据推理和证据引导三元对比学习,解决语义歧义、跨模态异质性和不确定性问题,实验表明该方法在MIntRec数据集上准确率达74.38%。
桂青池|刘晓荣|王杰|欧阳晓超|黄伟|宗连松
中国成都西华大学计算机与软件工程学院,邮编610039
摘要
多模态意图识别(MIR)旨在通过联合建模语言、视觉和音频模态来推断人类意图。然而,语义歧义、跨模态异质性和认知不确定性带来了重大挑战。大多数现有方法依赖于注意力机制或简化的对齐策略,这些策略(i)无法捕捉长距离的跨模态语义依赖关系,(ii)忽略了模态特定的可靠性,使得它们容易受到噪声的影响,并且在复杂场景中表现不稳定。为了解决这些问题,我们提出了Mamba-Evidence-driven Triplet Contrastive Learning(METCL),这是一个统一的框架,结合了状态空间建模、基于主观逻辑的推理和对比学习来提高融合质量和语义一致性。具体来说,我们通过Inter-Mamba模块将Mamba状态空间模型扩展到多模态融合场景中,该模块能够以线性时间复杂度捕捉长距离的跨模态语义依赖关系。我们进一步引入了Dynamic Decoupling Evidence Reasoning(DDER),据我们所知,这是第一个使用主观逻辑明确区分一致性和互补性证据的MIR模块,从而量化不确定性并提高融合表示的可靠性。最后,我们设计了Evidence-Guided Triplet Contrastive Learning(EG-TCL),它利用标签-掩码-证据三元组构建对比信号,以增强特征的区分度和鲁棒性。在两个公开基准测试上的广泛实验表明,METCL取得了最先进的性能,在MIntRec任务上达到了74.38%的准确率,并且始终优于强大的现有基线。METCL的源代码和完整的实验配置可以在
https://github.com/CXMuGui/METCL-main处获得。
引言
意图识别旨在对目标导向场景中的意图类别进行分类。虽然早期研究[1]、[2]、[3]、[4]主要关注单模态场景[5]、[6]、[7],但这些方法不足以应对现实世界环境中的多模态复杂性。最近,多模态意图识别(MIR)作为一个有前景的方向出现,它将自然语言与非语言模态(如图像、视频和音频)相结合,在异构和动态条件下表现出明显的优势。
MIR模型试图通过融合异构特征表示来利用模态之间的互补性和一致性。早期的努力[8]采用了基于Transformer的架构[9],将文本和视觉特征投影到一个统一的表示空间中进行跨模态整合。为了进一步减少模态差异,Hazarika等人[10]和Rahman等人[11]引入了跨模态推理机制。后续研究转向学习模态相关性;例如,Dong等人[12]提出了一个对比学习框架来减少模态差距,而Zhou等人[13]引入了TCL-MAP来建模语言和非语言模态之间的潜在相关性。同时,CAGC[14]采用了一种全局上下文引导的对比策略来产生更鲁棒的意图表示。
尽管取得了这些进展,现有方法[15]、[16]、[17]通常依赖于复杂的注意力机制或深度Transformer架构来进行跨模态交互。尽管这样的设计提高了融合质量,但它们仍然会产生大量的计算开销,并且难以有效地捕捉长距离的语义依赖关系。此外,大多数方法为最终预测生成一个统一的融合表示,忽略了不同模态的异构贡献和可靠性。如果没有明确的不确定性建模,这些模型就容易受到噪声或退化信号的影响,导致预测不稳定和信心降低。
如图1所示,话语“你是通过抽奖赢的吗?”看起来像是一个中性的询问,但实际上传达了一种嘲讽的意图——这是一种典型的修辞表达。当仅依赖文本线索时,模型经常将其误分类为真实的询问、建议,甚至是一个“通知”意图,错误地将其视为一个事实陈述。当音频或视觉线索被破坏时,这个问题会更加严重,导致模型过度依赖表面文本特征,从而容易产生误分类。一个可靠的语义推理机制,能够动态评估模态信心并解决缺失或冲突的线索,可以更准确地识别真正的“嘲讽”意图,从而减轻由模态偏差引起的预测错误。因此,MIR的核心挑战不仅在于开发高效的跨模态融合机制,还在于明确建模模态间的不确定性,并通过结构化的语义对比来增强表示的区分度。
为了解决这些挑战,我们提出了METCL(Mamba-Evidence-driven Triplet Contrastive Learning),这是一个可信的多模态意图识别框架,它结合了状态空间建模、证据推理和对比学习。METCL旨在高效捕捉长距离的跨模态依赖关系,明确表征不确定性,并增强语义一致性。具体来说,我们引入了Inter-Mamba融合模块——这是一个基于Mamba状态空间模型的轻量级跨模态架构,它能够以线性计算复杂度实现长距离依赖关系的有效建模。我们进一步设计了Dynamic Decoupling Evidence Reasoning(DDER)模块,据我们所知,这是第一个在多模态任务中使用主观逻辑来区分一致性和互补性证据,并通过Dirichlet分布明确建模模态不确定性的模块。最后,我们提出了Evidence-Guided Triplet Contrastive Learning机制,它使用[MASK]标记、标签语义和证据派生特征构建语义三元组,以增强多模态表示的一致性和区分度。
我们的贡献总结如下:
•我们设计了Inter-Mamba,这是一个基于状态空间模型的高效跨模态融合模块,能够在保持计算效率的同时捕捉长距离依赖关系。
•我们引入了DDER模块,开创了在多模态语义建模中使用主观逻辑来明确表示模态不确定性的先例。
•我们提出了一种基于证据的三元组对比学习策略,以增强多模态意图表示的区分度和语义一致性。
•在公开的多模态意图识别数据集上的全面实验表明,我们的方法在多模态意图识别任务上取得了最先进的性能。
部分摘录
多模态意图识别
意图识别是一项动态且不断发展的任务,旨在对目标导向场景中的意图类别进行分类,传统上主要依赖于文本信息。早期的工作,如Zhang等人[18],开发了一个基于文本的意图识别开放领域平台,而Zhou等人[19]探索了用于领域外意图检测的k最近邻方法。随着研究的进展,越来越多的关注转向了视觉意图理解[7];例如,Wang等人
概述
METCL的总体架构如图2所示。它由四个主要组件组成:多模态特征编码器、基于Inter-Mamba的语义集成模块、证据推理模块和三元组对比学习模块。
为了解决文本、视觉和听觉模态的异质性,我们采用了特定于模态的预训练编码器,然后采用CTC对齐策略,将所有模态投影到一个词级同步空间(第3.2节)。
数据集
我们在两个具有挑战性的多模态基准数据集上进行了实验,以评估我们提出的模型框架的有效性。这两个数据集的统计分布总结在表1中:
MIntRec[59]是一个用于多模态意图识别的细粒度数据集,包含1334个训练样本、445个验证样本和445个测试样本。它按照一个层次化的意图分类法组织,分为两个粗粒度类别——“表达情感或态度”和“实现目标”
结论
为了解决多模态意图识别中的关键挑战——包括模态异质性、不确定性建模和计算效率低下——我们提出了METCL,这是一个可靠且高效的框架,它结合了状态空间融合、证据推理和基于证据的对比学习。具体来说,我们引入了Inter-Mamba,这是一个基于状态空间模型的轻量级融合模块,用于以线性复杂度捕捉长距离的跨模态依赖关系。我们进一步开发了DDER
CRediT作者贡献声明
桂青池:写作——审稿与编辑,写作——原始草稿,监督,方法论。刘晓荣:资源,方法论,调查,形式分析。王杰:项目管理,方法论,调查,概念化。欧阳晓超:软件,资源,资金获取,数据管理。黄伟:监督,资源,调查,资金获取,数据管理。宗连松:验证,项目管理,方法论,资金获取。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了中国国家自然科学基金(项目编号62506311)、中国博士后科学基金会(项目编号2025M771637)、CPSF博士后奖学金计划(项目编号GZB20250417)以及中央高校基本科研业务费(项目编号2682025CX105)的支持。
桂青池是中国成都西华大学计算机与软件工程学院的硕士研究生。他的研究兴趣包括多模态机器学习
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号