意图识别是人工智能中的一个基本任务,它是自然语言处理(NLP)和人机交互系统(如虚拟助手)的核心(Chong, Kong, Wu, Liu, Jin, Yang, Fan, Fan, Yang, 2023; Ouyang, Ye, Chen, Dai, Huang, Chen, 2021)。早期研究主要关注单模态输入,而当前的研究则采用多模态框架来整合文本、音频和视觉信息(Chen, Zhu, Zhuang, Huang, Zou, 2024; Huang, Libo Qin, Wang, Tu, Xu, 2024; Zou, Liu, Gui, Wang, Zhang, Tang, Li, Wang, 2022)。然而,在实际应用中,理想的数据完整性假设往往不成立。不同模态之间存在显著的几何差异(Liang, Zhang, Kwon, Yeung, & Zou, 2022)。图1展示了这一过程:通过同步文本、音频和视频,这些线索可以相互强化,从而提高意图识别的准确性。现实世界的应用环境(如传感器噪声、遮挡或隐私限制)进一步加剧了这种对齐难度(Aneja, Agrawal, Batra, Schwing, 2019; Tang, Liu, Cui, Wen, Wang, 2012)。
现有的处理部分缺失数据的技术主要分为两类。第一类是生成式重建方法,采用基于翻译的模型(如MCTN(Pham, Liang, Manzini, Morency, & P16czos, 2019)或级联系统(如MMIN(Zhao, Li, & Jin, 2021))来“生成”缺失信号,以恢复输入数据的完整性。第二类方法侧重于构建鲁棒的表示学习模型,例如CPM-Nets(Zhang et al., 2019)或特征解耦方案(如ShaSpec(Wang et al., 2024),这些方法构建了一个不受数据完整性影响的潜在空间。类似地,MissModal(Lin & Hu, 2023)利用几何对比和语义损失来对齐部分数据和完整数据的特征分布,从而避免生成式插补的需要。
尽管最近取得了进展,但实际应用的可靠性仍受到两个根本性问题的限制。首先,重建过程与下游的意图识别任务之间存在目标不对齐的问题。许多框架认为更高的像素或特征保真度可以提高识别性能,但实际上意图识别需要类别可区分性(Lin, Hu, 2024a, Lin, Hu, 2024b)。模态间的差异可能会加剧这种不匹配,重建后的信号往往偏离决策边界(Liang et al., 2022)。其次,当前方法普遍存在认知上的过度自信问题,即模型往往将插补后的结果视为确定的真实值,而没有考虑重建结果的不确定性(Han, Zhang, Fu, & Zhou, Lee, Tsai, Chiu, & Lee)。因此,系统基于不确定的“重建结果”生成高置信度的预测。
为了解决这些矛盾,并减少高风险插补带来的问题,本研究提出了CR-3WD框架。该框架整合了跨模态再生特征注入模块(CRIPIM)和三路决策门(TWDG)。CRIPIM利用提示学习在语义特征空间中重建缺失的模态数据,从而避免了昂贵的原始信号生成过程,并实现了与任务目标一致的重建结果。TWDG则采用风险意识策略来管理不确定性,允许根据置信度选择“接受”、“推迟”或“拒绝”三种结果。这种机制防止了不可靠的重建结果干扰融合过程。主要贡献包括:
跨模态再生特征注入模块(CRIPIM):一种基于提示的重建机制,用于恢复缺失的模态数据。它在不同模态间的动态集成使得在输入数据不完整的情况下仍能实现灵活准确的意图识别。
三路决策门(TWDG):将预测结果从单一标签扩展为“接受”、“推迟”或“拒绝”三种选择。该机制将校准过程与基于置信度的不确定性判断相结合,对可疑案例进行进一步处理,同时确保对完整数据的处理效率。
全面评估:
在两个公开基准测试上的广泛实验验证了该模型在分类和回归任务中的优越性能,证明了其鲁棒性和通用性。