混合提示学习与多级知识蒸馏在缺失模态的多模态情感分析中的应用

《Expert Systems with Applications》:Hybrid Prompt Learning and Multilevel Knowledge Distillation for Multimodal Sentiment Analysis with Missing Modalities

【字体: 时间:2026年02月20日 来源:Expert Systems with Applications 7.5

编辑推荐:

  多模态情感分析中提出HyPLe-MKD框架,通过混合提示学习与多级知识蒸馏解决缺失模态问题,实验验证其优于传统方法在CMU-MOSI/CMU-MOSEI数据集的鲁棒性和效率。

  
翟一桥|杨秋霞|王成超|周连民|冯珏|胡芳红|赵正鹏|蒲圆圆
云南大学信息科学与工程学院,昆明,650500,中国

摘要

多模态情感分析(MSA)旨在从多种模态中提取与情感相关的信息,每种模态都传递了情感表达的互补线索。然而,在实际应用中,由于各种因素,经常会出现模态缺失的情况,导致传统融合模型的准确性大幅下降甚至完全失效。现有方法通常在模型质量和计算效率之间面临权衡,因为复杂的生成架构会增加计算成本,而基于提示的模型通常具有有限的生成能力和不足的融合质量,这限制了模型的鲁棒性和适应性。为了提供一个既能保持轻量级设计又能具备强大性能的统一解决方案,我们提出了HyPLe-MKD框架,该框架基于混合提示学习和多层次知识蒸馏。该框架利用与情感相关的硬提示(SHP)与深度耦合的软提示(DCSP)来指导缺失模态的生成,并在融合阶段注入信息感知提示(IAP)。通过基于特征或响应的多层次蒸馏,有效整合了来自所有模态的信息。我们使用CMU-MOSI和CMU-MOSEI数据集在多种模态缺失条件下进行了全面实验。实验结果表明,HyPLe-MKD在模态缺失条件下表现出出色的鲁棒性,例如,在CMU-MOSEI数据集上,平均准确率(ACC2 / F1 / ACC7)分别为80.1 / 79.5 / 49.7,在不同随机缺失率下分别为79.8 / 79.5 / 39.7。结果表明,我们提出的参数高效模态补全策略最大限度地发挥了多种模态的互补优势,即使在模态严重缺失的情况下也能保持有效性和鲁棒性。我们的代码将发布在 https://github.com/zhaiyiqiao/HyPLe-MKD

引言

多模态情感分析(MSA)旨在从视频、音频和文本中提取与情感相关的信息,以支持对人类情感的准确解读。近年来,由于其在自动驾驶(Wang, Hespanhol, & Tomitsch (2021))、无人机安全(Ai, Wang, Xu, & Zhang (2025) 和陪伴机器人(Al-Saadawi et al. (2024); Zhang (2024))等应用中的重要性日益增加,MSA受到了越来越多的研究关注。先前的研究表明,各个模态包含独特但互补的情感理解线索(Poria, Cambria, Howard, Huang, & Hussain (2016))。然而,现实世界系统经常遇到由于传感器故障、隐私设置、环境遮挡或语音转录失败等原因导致的模态缺失情况(Wang, Jian, Zhuang, Guo, & Leng (2025b))。当某个模态变得不可用或不可靠时,模型可能会丢失关键的语义线索,或者受到误导性信号的影响,从而显著降低预测性能(Zhang, Song, Zhang, & Zhang (2025); Zhao, Poria, Li, Chen, & Tang (2025a))。因此,解决模态缺失问题已成为开发鲁棒多模态情感分析的核心挑战。
与所有模态都存在的场景相比,模态缺失条件下的多模态情感分析涉及更复杂的特征对齐和语义整合。现有方法包括数据增强(Parthasarathy & Sundaram (2020))、基于生成的重建(Lian, Chen, Sun, Liu, & Tao (2023); Wang, Cui, & Li (2023a); Wang, Li, & Cui (2023b)以及联合多模态表示学习(Li, Yang, Liu, Wang, Chen, Wang, Wei, Jiang, Xu, Hou, et al., Li, Yang, Zhao, Wang, Wang, Yang, Sun, Kou, Qian, Zhang, 2024c; Zhao, Li, & Jin (2021))。数据增强方法缺乏处理模态缺失的明确机制,难以捕捉模态特定降级的结构。表示学习方法往往无法保留对细粒度情感预测至关重要的模态依赖分布,且其架构在尝试补偿缺失信息时会变得越来越复杂。基于生成的方法使用强大的生成机制来重建缺失模态;然而,它们对规范化流和扩散模型的依赖会导致较大的计算开销,并且由于多模态融合期间的粗略监督而限制了实际应用。尽管最近的提示学习模型(Guo, Jin, & Zhao (2024); Lee, Tsai, Chiu, & Lee (2023))降低了训练成本,但它们通常缺乏专门的模态缺失补全机制,且倾向于依赖浅层重建路径,这限制了它们将完整模态信号整合到生成过程中的能力。
这些局限性突显了需要开发出能够在保持计算效率的同时维持重建准确性和融合可靠性的模型。在实际系统中,必须同时实现模型的紧凑性和鲁棒性,因为模态缺失事件在计算资源受限且模态可靠性不可预测的实时应用中频繁发生。
为了解决模态缺失带来的挑战并确保训练效率,我们提出了一个基于混合提示学习和多层次知识蒸馏的多模态情感分析模型,称为HyPLe-MKD。该模型在多种模态缺失配置下表现出强大的性能,同时保持了高效率和强大的泛化能力。图1总结了模态缺失条件下的代表性学习范式,并强调了HyPLe-MKD的动机,即引入多层次知识蒸馏以更有效地利用完整模态的监督。
与图1(a)和图1(b)中展示的联合学习和基于生成的方法(Dai et al. (2025); Lian et al. (2023); Sun et al. (2024); Wang et al. (2023a, 2023b); Zhao et al. (2021)相比,所提出的框架强调系统地将完整模态知识注入学习过程,以指导分层语义对齐,而不是依赖于架构修改。如图1(c)所示,尽管最近的基于蒸馏的方法在不完整模态下引入了教师指导(Li, Yang, Liu, Wang, Chen, Wang, Wei, Jiang, Xu, Hou, et al., Li, Yang, Zhao, Wang, Wang, Yang, Sun, Kou, Qian, Zhang, 2024c; Wang, Wang, Yu, & Jiao (2025a); Weng et al. (2025); Zhang, Liu, Zhuang, Hou, & Zhang (2024),但它们的监督通常仅限于单一潜在表示或输出级约束,导致中间语义阶段的监督较弱,错误传播控制不足。相比之下,所提出的方法在多个语义阶段实施多层次知识蒸馏,实现了不完整模态表示与完整模态表示之间的细粒度和渐进式对齐,从而提供了足够丰富且高效的监督信号,有效抑制了错误积累,并在模态缺失条件下增强了鲁棒性。
具体来说,HyPLe-MKD使用可逆规范化流进行模态缺失生成,并采用轻量级Transformer进行提示引导的多模态融合。这两个组件都在完整模态数据上进行了预训练,并在学生模型训练期间保持冻结状态。学生网络仅优化与提示相关的参数,由提出的多层次知识蒸馏机制指导。该机制在单模态和多模态阶段引入了特征级和响应级监督,确保学生模型从完整模态教师那里获得细粒度的指导。在推理阶段,仅部署学生模型,生成准确的重构特征,同时显著减少了参数数量和计算成本。这一设计突显了所提出方法的实际适用性和计算效率。
HyPLe-MKD的核心创新在于其混合提示学习框架。模态缺失生成阶段结合了与情感相关的硬提示(SHP)和深度耦合的软提示(DCSP),以增强情感线索的提取并传播上下文依赖性。多模态融合阶段引入了信息感知提示生成模块,生成编码模态特定信息、跨模态语义和模态缺失模式的单模态和多模态提示。这些提示使模态缺失的显式感知成为可能,并加强了模态内和模态间信号的对齐。这些提示策略的整合创建了一个连贯的机制,提高了重建的保真度,促进了多模态之间的协同作用,并支持在多种模态缺失场景下的稳定情感预测。
我们的主要贡献可以总结如下:
我们引入了混合提示学习(HyPLe),它结合了与情感相关的硬提示(SHP)、深度耦合的软提示(DCSP)和信息感知提示(IAP),以分离单模态和跨模态信息,并在减少计算量的同时改进缺失模态的重建。
  • 我们采用了多层次知识蒸馏(MKD),它将特征级和响应级信息从完整模态教师那里转移过来,以指导缺失模态特征的准确生成,并加强多模态表示。
  • 在CMU-MOSI(Zadeh, Zellers, Pincus, & Morency (2016)和CMU-MOSEI(Zadeh, Liang, Poria, Cambria, & Morency (2018b)上的实验表明,HyPLe-MKD在多种模态缺失场景下始终表现出卓越的性能,消融研究验证了每个提出组件的有效性。
  • 本文的其余部分组织如下。第2节回顾了相关工作。第3节详细介绍了提出的HyPLe-MKD框架。第4节展示了实验结果,证明了HyPLe-MKD在处理模态缺失的多模态情感分析任务中的优越性和鲁棒性。第5节总结了本文并讨论了其局限性和未来方向。

    章节片段

    具有全部可用模态的多模态情感分析

    多模态情感分析是指使用来自文本、音频和视频等多种模态的数据来分析人类情感的任务。当前的研究主要集中在如何有效地融合不同模态的信息(Baltru?aitis, Ahuja, & Morency (2018); Zhang (2024))。多模态融合策略大致可以分为两类:特征级融合和决策级融合。特征级融合方法(Liu et al. (2018)创建了多模态特征

    提出的方法

    本节提供了HyPLe-MKD框架的完整和透明描述。我们首先介绍整体计算流程,然后描述预训练的骨干网络、混合提示学习机制和多层次知识蒸馏方案。最后,我们详细介绍了两阶段优化策略和预测过程。

    实验

    本章介绍了数据集、评估指标、基线方法以及实现细节,随后展示了实验结果的分析。

    结论

    我们提出了一个名为HyPLe-MKD的模型,它基于混合提示学习和多层次知识蒸馏,用于处理模态缺失条件下的多模态情感分析任务。该模型引入了与情感相关的硬提示、深度耦合的软提示以及单模态和多模态信息感知提示,以微调预训练的缺失模态生成模块和模态融合模块。此外,还设计了一个多层次知识蒸馏框架

    CRediT作者贡献声明

    翟一桥:撰写——原始草稿、软件、概念化、可视化、方法论。杨秋霞:撰写——原始草稿、软件、概念化、可视化、方法论。王成超:撰写——审阅与编辑、验证。周连民:撰写——审阅与编辑、可视化。冯珏:撰写——审阅与编辑、调查。胡芳红:软件、方法论。赵正鹏:形式分析、项目管理。蒲圆圆:撰写——审阅与编辑、项目

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号