AlignMamba-2:通过具有模态感知能力的Mamba算法提升多模态融合与情感分析的效果

《Pattern Recognition》:AlignMamba-2: Enhancing Multimodal Fusion and Sentiment Analysis with Modality-Aware Mamba

【字体: 时间:2026年03月25日 来源:Pattern Recognition 7.6

编辑推荐:

  多模态融合与情感分析中,基于Mamba模型提出双重对齐策略和模态感知融合层,通过最大均值差异与最优传输距离优化跨模态对齐,并采用混合专家结构处理数据异质性,在动态时间序列和静态图像任务中验证高效性和优越性。

  
李艳|邢一飞|兰向媛|李欣|陈海峰|姜东梅
深圳鹏城实验室,518055,中国

摘要

在大型预训练模型的时代,将通用知识有效应用于特定的情感计算任务仍然是一个挑战,尤其是在计算效率和多模态异构性方面。虽然基于Transformer的方法在建模跨模态依赖关系方面表现出色,但其二次方的计算复杂性限制了它们对长序列数据的使用。基于Mamba的模型作为一种计算效率更高的替代方案应运而生;然而,它们固有的顺序扫描机制难以捕捉对有效跨模态对齐至关重要的全局、非顺序关系。为了解决这些限制,我们提出了AlignMamba-2,这是一个用于多模态融合和情感分析的有效且高效的框架。我们的方法引入了一种双重对齐策略,利用最优传输距离(Optimal Transport distance)和最大均值差异(Maximum Mean Discrepancy)来规范模型,从而在不对推理时间造成额外开销的情况下促进不同模态之间的几何和统计一致性。更重要的是,我们设计了一个模态感知的Mamba层(Modality-Aware Mamba layer),该层采用专家混合(Mixture-of-Experts)架构,包含特定模态和共享模态的专家,以在融合过程中显式处理数据异构性。在四个具有挑战性的基准测试上进行的大量实验表明,AlignMamba-2在从动态时间序列分析到静态图像文本分类等多种模式识别任务中,都在效率和效果方面达到了新的最佳水平。

引言

在模式识别领域,识别复杂概念通常需要整合来自音频、视觉和语言等异构来源的信息[1]、[2]、[3]。设计鲁棒识别系统的一个核心问题在于弥合这些模态之间的异构性差距,因为每种模态都具有不同的统计分布和结构特征。有效地对齐和融合这些不同的数据流以生成连贯且全面的表示仍然是一个重要的且未解决的研究问题。
在大型预训练模型的时代,基于Transformer的架构已成为现代AI的基础,推动了最先进的大型语言模型(LLMs)和视觉语言模型(VLMs)的发展。在多模态融合的背景下,现有方法通常利用这些强大的框架来建模复杂的跨模态依赖关系。这些方法大致可以分为两类:单流方法[4]、[5]、[6],它们将单模态特征连接起来并通过共享的Transformer编码器进行处理;以及多流方法[7]、[8]、[9],它们为每种模态使用专用编码器,然后通过交叉注意力机制进行交互。然而,将这些通用的模型适应于情感计算任务面临一个关键瓶颈:它们受到自注意力机制(self-attention mechanism)二次方计算复杂性的根本限制[10]、[11]。这一限制严重影响了它们在微调和部署中的效率,特别是对于涉及长序列或资源有限的任务,这成为实现大规模情感计算全部潜力的障碍。
最近引入的状态空间模型(State Space Models,SSMs),特别是Mamba架构[13],为下一代高效的大型模型提供了一条有前景的道路。Mamba在保持强性能的同时实现了线性计算复杂性,使其成为解决当前大规模模型时代效率挑战的理想候选者。这一突破引发了将Mamba应用于多模态融合和情感分析任务的极大兴趣,方法包括直接特征连接[14]、[15]到多流架构[16]、[17]、[18]。然而,直接将Mamba应用于多模态任务揭示了一个关键限制。如图1所示,Mamba的核心优势——其高效的顺序扫描机制,在建模跨模态关系时变成了一个根本的弱点。顺序扫描难以捕捉正在处理的标记与其他所有模态标记之间的全局、非顺序依赖关系,尤其是那些尚未被扫描的标记[19]。这个问题可能导致跨模态信息交换不完整和对齐不佳,从而影响最终融合表示的质量。例如,基于Mamba的并发多模态方法,如VL-Mamba[14]和Fusion-Mamba[17],主要依赖于直接特征连接或简单的多流交互。虽然这些方法对一般序列建模有效,但它们缺乏在融合前显式对齐异构分布的机制,并将Mamba框架视为一个与模态无关的处理器。因此,它们难以捕捉对多模态学习和情感分析至关重要的细粒度、非顺序的跨模态依赖关系。
为了解决这些挑战,我们提出了一个新的框架AlignMamba-2,它在两个关键阶段增强了Mamba的功能:融合之前的原则性对齐和融合期间的模态感知处理。首先,我们引入了一种双重对齐策略,作为一种强大的正则化手段。该策略使用了两种互补的分布度量:最大均值差异(MMD)最优传输(OT)距离。MMD通过匹配特征分布的高阶统计矩来确保它们具有相似的全局属性,从而实现一致性。同时,OT距离从几何角度评估差异性,最小化将一个分布转换为另一个分布所需的成本,从而促进细粒度的对齐。至关重要的是,这种双重对齐策略直接补充了Mamba选择性扫描机制的固有特性。与可以通过密集的全局注意力图隐式学习对齐的Transformer不同,Mamba的顺序性质限制了其自发捕捉非局部、跨模态对应关系的能力。通过在融合之前强制特定的几何(通过OT)和统计(通过MMD)一致性,我们的策略规范了潜在空间。这明确弥补了扫描过程中缺乏全局感受野的缺陷,确保计算效率高的选择性扫描操作在良好对齐的表示上进行,从而最大化了线性时间融合的效果。其次,也是更重要的是,我们引入了一个新颖的模态感知Mamba层。通过用专家混合(Modality-Aware Mamba layer)结构替换标准投影层,该层由特定模态和共享模态的专家组成,我们的模型可以根据标记的来源模态进行不同的处理。这使得融合框架能够显式捕捉独特的单模态属性和共享的跨模态模式,从而实现更有效和细致的融合。
总结来说,本工作的主要贡献有四点:
我们对现有的基于Mamba的多模态方法进行了关键分析,指出了顺序扫描机制在捕捉全面跨模态关系方面的固有局限性以及融合过程的模态无关性质。
  • 我们提出了一种使用MMD和OT距离的双重对齐策略。这种方法从统计和几何角度确保了鲁棒的跨模态对齐,并且重要的是,在推理阶段不会增加额外的计算成本。
  • 我们引入了一个新颖的模态感知Mamba层,该层集成了专家混合设计,以在融合框架内显式建模特定模态和模态不变的信息,从而实现更复杂和有效的融合过程。
  • 我们在多样化的多模态融合和情感分析基准测试上进行了实验,包括动态任务(在CMU-MOSI和CMU-MOSEI数据集上)和静态任务(在NYU-Depth V2和MVSA-Single数据集上),证明了AlignMamba-2的卓越性能和广泛适用性。
  • 本文是我们之前在[19]中提出的初步工作的扩展版本。虽然利用Mamba进行对齐多模态融合的基本思想是相同的,但本工作引入了实质性的改进和更广泛的分析范围。具体来说,关键扩展有三个方面:(1) 我们用基于OT距离的损失替代了之前工作中的显式OT矩阵计算。这种架构上的改进不仅简化了模型,还消除了推理期间的所有对齐相关计算开销,提高了模型在实际应用中的实用性。(2) 我们超越了简单的融合前对齐,引入了一个新颖的模态感知Mamba层。这一核心架构创新使融合框架本身具备了处理特定模态和模态不变信息的能力,解决了模态无关序列模型的一个关键限制。(3) 我们大幅扩展了框架的实证验证。除了原始的多模态情感分析任务外,我们现在还包括了对分布外设置和静态多模态任务的全面评估,即RGB-D场景识别和图像文本分类,从而证明了我们方法在各种数据类型和应用中的多功能性和泛化能力。

    相关研究

    相关工作

    在本节中,我们从四个与我们提出的方法相关的角度回顾了先前的工作:基于Transformer的多模态融合、基于Mamba的多模态融合、专家混合(Mixture-of-Experts)范式以及多模态表示对齐技术。

    方法论

    在本节中,我们首先简要介绍了Mamba架构。然后,我们介绍了我们提出的AlignMamba-2的总体框架。随后,我们详细介绍了其核心组件:单模态编码和对齐策略,以及用于融合的新型模态感知Mamba层。最后,我们概述了训练目标并总结了算法。

    实验

    在本节中,我们进行了一系列实验来验证AlignMamba-2的有效性和效率。首先,我们介绍了数据集和实现细节(第4.1节)。然后,我们展示了我们在动态多模态任务(第4.2节)和静态多模态任务(第4.3节)上的主要结果。接下来,我们对模型的计算效率进行了深入分析(第4.4节),并进行了消融研究以剖析每个组件的贡献(第4.5节)

    结论

    在本文中,我们介绍了AlignMamba-2,这是一个用于多模态融合和情感分析的新框架。首先,我们提出了一种高效的双重对齐策略,使用最优传输距离和最大均值差异作为正则化手段,以实现全面的融合前对齐,而不会产生任何推理成本。其次,我们开发了一个新颖的模态感知Mamba层,该层利用专家混合设计显式建模特定模态特征和共享的跨模态特征

    CRediT作者贡献声明

    李艳:撰写——原始草稿、方法论、研究、资金获取。邢一飞:撰写——审阅与编辑、研究、数据管理。兰向媛:撰写——审阅与编辑、可视化。李欣:撰写——审阅与编辑、可视化、研究。陈海峰:撰写——审阅与编辑、资源管理、数据管理。姜东梅:撰写——审阅与编辑、项目管理、资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本文得到了中国博士后科学基金会(资助编号2025M781481)和中国国家自然科学基金(资助编号62236006)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号