弥合模态差异：通过三方决策实现跨模态互补学习，以提升多模态意图识别能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Bridging Modality Gaps: Cross-modal Complementary Learning with Three-Way Decision For Multimodal Intent Recognition

【字体：大中小】 时间：2026年03月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态意图识别中，针对缺失数据导致的生成与决策目标不匹配及过自信问题，提出CR-3WD框架，通过语义空间驱动的跨模态特征再生模块CRIPIM实现任务对齐的缺失数据恢复，结合三向风险感知决策门TWDG动态管理样本置信度，将输出扩展为接受、暂缓、拒绝三类决策，有效抑制不确定重建对融合结果的影响。

李森豪|陈晓亮|苗朵倩|张宏云|秦晓琳|卢鹏

中国四川省成都市西华大学计算机与软件工程学院，邮编610039

摘要

多模态意图识别（MIR）利用文本、音频和视觉线索的互补性，但在实际应用中，由于传感器故障、噪声或遮挡等原因，经常会出现数据缺失的情况。现有的解决方案通常通过填充输入数据或生成重建结果来应对这些问题，但往往将这些重建结果视为绝对准确的。当重建质量不确定时，这种假设会导致过自信的预测。本文提出了CR-3WD框架，将基于任务的潜在数据重建与风险意识决策逻辑相结合。跨模态再生特征注入模块（CRIPIM）利用可学习的提示和跨模态先验，在语义特征空间中重建缺失的模态数据。该方法避免了昂贵的原始信号生成过程，并将重建工作聚焦于意图区分。此外，三路决策门（TWDG）通过自适应置信度阈值将样本分为“接受”、“推迟”或“拒绝”三类，以管理剩余的不确定性。“推迟”类别会触发进一步细化处理，而“拒绝”类别则输出“未知”结果，防止不可靠的数据影响融合结果。在两个基准测试上的评估表明，该模型相比现有方法取得了显著提升：在MIntRec任务上，准确率为76.85%/WF1分数为76.49%；在MIntRec2.0任务上，准确率为60.30%/WF1分数为59.33%。这些结果表明，将语义空间重建与三路风险控制相结合，可以在多模态输入不完整的情况下实现更鲁棒的多模态意图识别。

引言

意图识别是人工智能中的一个基本任务，它是自然语言处理（NLP）和人机交互系统（如虚拟助手）的核心（Chong, Kong, Wu, Liu, Jin, Yang, Fan, Fan, Yang, 2023; Ouyang, Ye, Chen, Dai, Huang, Chen, 2021）。早期研究主要关注单模态输入，而当前的研究则采用多模态框架来整合文本、音频和视觉信息（Chen, Zhu, Zhuang, Huang, Zou, 2024; Huang, Libo Qin, Wang, Tu, Xu, 2024; Zou, Liu, Gui, Wang, Zhang, Tang, Li, Wang, 2022）。然而，在实际应用中，理想的数据完整性假设往往不成立。不同模态之间存在显著的几何差异（Liang, Zhang, Kwon, Yeung, & Zou, 2022）。图1展示了这一过程：通过同步文本、音频和视频，这些线索可以相互强化，从而提高意图识别的准确性。现实世界的应用环境（如传感器噪声、遮挡或隐私限制）进一步加剧了这种对齐难度（Aneja, Agrawal, Batra, Schwing, 2019; Tang, Liu, Cui, Wen, Wang, 2012）。

现有的处理部分缺失数据的技术主要分为两类。第一类是生成式重建方法，采用基于翻译的模型（如MCTN（Pham, Liang, Manzini, Morency, & P16czos, 2019）或级联系统（如MMIN（Zhao, Li, & Jin, 2021））来“生成”缺失信号，以恢复输入数据的完整性。第二类方法侧重于构建鲁棒的表示学习模型，例如CPM-Nets（Zhang et al., 2019）或特征解耦方案（如ShaSpec（Wang et al., 2024），这些方法构建了一个不受数据完整性影响的潜在空间。类似地，MissModal（Lin & Hu, 2023）利用几何对比和语义损失来对齐部分数据和完整数据的特征分布，从而避免生成式插补的需要。

尽管最近取得了进展，但实际应用的可靠性仍受到两个根本性问题的限制。首先，重建过程与下游的意图识别任务之间存在目标不对齐的问题。许多框架认为更高的像素或特征保真度可以提高识别性能，但实际上意图识别需要类别可区分性（Lin, Hu, 2024a, Lin, Hu, 2024b）。模态间的差异可能会加剧这种不匹配，重建后的信号往往偏离决策边界（Liang et al., 2022）。其次，当前方法普遍存在认知上的过度自信问题，即模型往往将插补后的结果视为确定的真实值，而没有考虑重建结果的不确定性（Han, Zhang, Fu, & Zhou, Lee, Tsai, Chiu, & Lee）。因此，系统基于不确定的“重建结果”生成高置信度的预测。

为了解决这些矛盾，并减少高风险插补带来的问题，本研究提出了CR-3WD框架。该框架整合了跨模态再生特征注入模块（CRIPIM）和三路决策门（TWDG）。CRIPIM利用提示学习在语义特征空间中重建缺失的模态数据，从而避免了昂贵的原始信号生成过程，并实现了与任务目标一致的重建结果。TWDG则采用风险意识策略来管理不确定性，允许根据置信度选择“接受”、“推迟”或“拒绝”三种结果。这种机制防止了不可靠的重建结果干扰融合过程。主要贡献包括：

跨模态再生特征注入模块（CRIPIM）：一种基于提示的重建机制，用于恢复缺失的模态数据。它在不同模态间的动态集成使得在输入数据不完整的情况下仍能实现灵活准确的意图识别。

三路决策门（TWDG）：将预测结果从单一标签扩展为“接受”、“推迟”或“拒绝”三种选择。该机制将校准过程与基于置信度的不确定性判断相结合，对可疑案例进行进一步处理，同时确保对完整数据的处理效率。

全面评估：

在两个公开基准测试上的广泛实验验证了该模型在分类和回归任务中的优越性能，证明了其鲁棒性和通用性。

实验细节

意图识别

意图识别是人机交互的核心要素（Sun, Zhao, & Chen, 2024b），从早期的基于规则的系统发展到基于数据的模型。早期系统依赖手工设计的关键词集和语法模式（Kan et al., 2019），在受控环境中表现尚可，但在处理自然语言的复杂性和不确定性时存在不足。随后，机器学习方法被引入以克服这些限制，使得模型具有更高的灵活性和更好的性能。

方法论

本节介绍了多模态意图识别（MIR）的方法论框架，包括三个组成部分：（1）多模态表示学习，（2）跨模态再生特征注入模块（CRIPIM），以及（3）三路决策门（TWDG）。

多模态表示学习（第3.1节）将文本、视觉和音频输入的高维特征编码到一个共享的潜在空间中，以实现跨模态交互。算法1详细介绍了这一过程。

实验细节

本节描述了MIR研究中使用的数据集、方法和实验设置。实验采用了两个基准数据集MIntRec和MIntRec2.0，其中包含同步的文本、音频和视频，并且各模态之间存在对齐关系。这些资源用于评估模型在不同通道上捕捉用户意图的能力。为了全面评估，该模型与已有的单模态和多模态方法进行了对比。

结果与分析

本节通过定量指标和定性分析评估了所提出框架的性能。在MIntRec和MIntRec2.0上的实验表明，该模型在准确率（Acc）、WF1分数、WP分数和R分数等方面均优于参考模型（包括MVCL-DAF和TCL-MAP），并在两个数据集上都取得了提升。

针对MIntRec和MIntRec2.0的消融实验分离出了跨模态再生特征注入模块（CRIPIM）和三路决策门（TWDG）的效果。

结论

本研究提出了CR-3WD框架，它结合了基于提示的跨模态重建模块和具有风险意识的三路决策门。通过从观测到的通道中重建缺失的模态信号，CRIPIM降低了音频、视觉或文本数据不完整时导致的识别缺陷，同时保持了提示学习的参数预算较低。三路决策门则进一步优化了这一过程。

未引用的图表

图2。

作者贡献声明

李森豪：概念设计；李森豪：数据整理；李森豪：形式化分析；陈晓亮、苗朵倩和秦晓琳：资金获取；陈晓亮：研究调查；陈晓亮：方法论设计；陈晓亮和秦晓琳：项目管理；苗朵倩和秦晓琳：资源协调；李森豪：软件开发；陈晓亮：监督工作；张宏云：验证工作；李森豪：原始稿件撰写；陈晓亮和卢鹏：撰写与编辑工作。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号