MaMoE4Rec：基于跳跃感知图建模和专家混合融合的多模态推荐系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月28日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态推荐系统通过整合文本、图像和音频等多模态数据提升性能，但存在特征融合不足和长程依赖建模困难的问题。本文提出MaMoE4Rec框架，结合动态混合专家（MoE）的多模态编码与跳跃感知的序列建模，利用奇偶位置编码区分异构关系，采用Mamba模型线性捕捉长程依赖，在公开数据集上验证其有效性。

郑思瑞|刘金|黄波|唐永强|游兰|藤田波美多

武汉大学计算机学院，中国武汉，430072

摘要

多模态推荐系统通过利用文本、图像和音频等多种模态数据取得了显著进展，但在有效特征融合和建模交互图中的长距离依赖关系方面仍存在挑战。我们提出了MaMoE4Rec框架，该框架结合了基于专家混合（MoE）的多模态编码和具有跳数感知能力的序列建模。项目模态通过特定模态的自注意力机制和动态稀疏MoE进行编码，然后与项目ID结合，并通过用户ID进行分词处理，形成交互序列。我们设计了奇偶位置编码来区分跳数之间的异构和同构关系，并采用Mamba状态空间模型以线性复杂度捕获全局依赖关系。在公共数据集上的实验表明，MaMoE4Rec的性能优于基线模型，验证了其在多模态融合和图建模方面的有效性。

引言

随着大数据时代的快速发展，推荐系统（Bobadilla, Ortega, Hernando, & Gutiérrez, 2013）已成为缓解信息过载的关键技术，在电子商务、社交网络和内容平台中得到广泛应用。传统的推荐系统主要依赖用户-项目交互数据来进行协同过滤，但在实际应用中常常面临数据稀疏和冷启动等问题。为了解决这些问题，最近的研究开始利用多模态推荐系统，整合文本、视觉和听觉数据来构建用户偏好和项目属性的统一表示。这种多模态整合显著提高了推荐性能，并成为该领域的一个重要研究方向。

多模态推荐的一个核心任务是建模用户-项目交互图。大多数现有方法采用图神经网络（GNNs）（Scarselli, Gori, Tsoi, Hagenbuchner, & Monfardini, 2008）来学习用户和项目之间的关系以及交互模式。例如，NGCF（Wang, He, Wang, Feng, & Chua, 2019）通过显式建模用户和项目之间的高阶连接性来增强嵌入学习。LightGCN（He et al., 2020）通过去除特征转换和非线性激活简化了NGCF，仅保留了必要的邻居聚合机制。然而，基于GNN的方法经常遇到过度平滑问题（Li, Han, & Wu, 2018），即过多的邻居聚合导致节点表示变得难以区分，从而降低模型性能。受Transformer模型（Vaswani et al., 2017）在自然语言处理（NLP）中的成功启发，最近的研究探索了其在推荐中的应用。例如，TransGNN（Zhang et al., 2024）结合了GNN和基于Transformer的自注意力机制，以捕获图结构和长距离依赖关系，显著提升了交互建模的效果。然而，这类模型在大型图上的计算成本较高，因为Transformer的计算复杂度为二次方。此外，尽管Transformer在建模长序列方面表现出色，但在处理不同类型节点和边的交互时仍存在困难。

另一方面，随着多模态数据的日益丰富，如何将其有效整合到传统的协同过滤范式中已成为一个关键的研究焦点。大多数现有的多模态推荐方法使用预训练的编码器（如BERT（Devlin, Chang, Lee, & Toutanova, 2019）、ViT（Dosovitskiy et al., 2020）从不同模态中提取特征，然后将其输入到下游推荐模型中（Liu et al., 2024）。这些方法通常将多模态输入视为独立特征，并通过简单的串联、加权融合或注意力机制进行组合。例如，NOVA（Liu et al., 2021）引入了一种非侵入式的注意力机制来有效整合辅助数据进行序列推荐。LATTICE（Zhang et al., 2021）利用基于模态的内容相似性来构建项目-项目之间的语义关系。FREEDOM（Zhou & Shen, 2023）使用预训练的语义特征构建项目-项目图，并从用户-项目图中去除噪声以促进多模态推荐。然而，这些方法通常依赖于固定的预训练编码器来提取图像或文本特征。这种范式在垂直领域存在显著局限性，因为在通用模型和特定领域推荐需求之间存在语义差距。例如，在电子商务场景中，材料或尺寸等关键属性可能被通用视觉编码器忽略；同样，通用文本编码器在没有微调的情况下难以解释特定领域的术语。

为了解决现有多模态推荐方法在异构图建模和特征融合方面的局限性，我们提出了MaMoE4Rec框架，该框架将多模态专家编码与具有跳数感知能力的序列建模相结合。在多模态特征建模阶段，我们引入了专家混合（MoE）架构（Yuksel, Wilson, & Gader, 2012）来编码项目的多种模态，如文本和图像。特定模态的自注意力模块用于捕获每种模态内的局部依赖关系，而动态专家选择机制则自适应地激活最相关的领域专家，从而增强多模态特征的语义表达能力。专家编码的特征随后与项目ID嵌入结合，保留了协同信号，同时提高了多模态表示对下游推荐任务的适应性。

基于这些融合的项目表示，我们将其与用户ID嵌入一起分词处理，构建用户-项目交互序列，然后将其映射到具有跳数感知能力的异构图结构中。通过K跳传播，我们生成多跳特征序列，并引入奇偶位置编码来明确区分跳数之间的语义层次：奇数跳捕获异构（用户-项目）交互，而偶数跳编码同构（用户-用户或项目-项目）协同信号。为了建模跳数之间的长距离依赖关系，我们采用了Mamba序列模型（Gu & Dao, 2023），该模型在保持线性时间复杂度的同时显式编码层次结构，并解决了传统图神经网络中常见的过度平滑问题。最后，我们通过端到端的方式优化框架，联合最小化贝叶斯个性化排名（BPR）损失和模态对齐损失，以实现多模态和协同信号的首次融合，从而提高推荐性能。

我们的主要贡献总结如下：

•

我们提出了MaMoE4Rec，这是一个基于用户-项目交互图的具有跳数感知能力的多模态推荐框架。通过将多跳邻居组织成具有奇偶位置编码的异构令牌序列，MaMoE4Rec能够有效捕获用户-项目和更高阶的协同关系。

•

我们引入了一种基于动态MoE的多模态编码器，它可以根据不同领域和模态自适应选择专门的专家，而不是依赖单一的固定通用编码器。MaMoE4Rec专注于用户-项目交互图，并将动态多模态专家编码与具有跳数感知能力的异构图分词和基于Mamba的序列学习紧密结合。

•

我们在多个真实世界的多模态推荐基准测试上进行了广泛实验。实验结果表明，MaMoE4Rec始终优于各种最先进的基线模型，进一步分析了我们框架中每个组件的有效性。

部分摘录

多模态推荐系统

在多模态推荐系统领域，研究人员探索了多种方法来有效利用多模态数据以提高推荐性能。早期的研究通常将多模态内容视为辅助信息，以丰富传统的协同过滤（CF）框架。例如，VBPR（He & McAuley, 2015）通过将视觉特征与项目ID结合，将视觉信号纳入项目嵌入中

提出的模型

如图1所示，提出的MaMoE4Rec模型通过整合几个核心组件实现了基于多模态图的推荐。首先，该模型基于专家混合（MoE）框架实现了特定模态的特征编码。对于每种模态（例如图像或文本），设计了一个专用的自注意力模块——ModalitySelfAttention——来捕获模态内的依赖关系。随后，通过MoE框架引入了动态专家选择机制

实验设置和数据集

与以往的研究一致，我们将所有模型中用户和项目的嵌入维度固定为64，采用Xavier（Glorot & Bengio, 2010）初始化来设置嵌入参数，并使用Adam（Kingma, 2014）作为优化器。为了确保公平比较，我们严格遵循各自发表论文中提供的指导方针仔细调整每个模型的参数。所有模型均使用PyTorch实现，实验在Tesla V100 GPU上进行。

结论

在本文中，我们提出了MaMoE4Rec，这是一个统一的推荐框架，它结合了结构语义和多模态特征建模，以解决多模态推荐中结构感知表示不足和语义融合的问题。我们的模型将具有跳数感知能力的异构图编码与Mamba序列建模架构相结合，有效捕获了长距离依赖关系和语义层次结构。此外，我们引入了动态专家选择机制

未引用的参考文献

表1和图2。

CRediT作者贡献声明

郑思瑞：概念化、方法论、软件、形式分析、调查、数据整理、可视化、撰写——原始草稿。刘金：方法论、监督、资源获取、撰写——审阅与编辑。黄波：方法论、监督、资源、撰写——审阅与编辑。唐永强：方法论、监督、资源、撰写——审阅与编辑。游兰：方法论、监督、资源、撰写——审阅与编辑。藤田波美多：方法论，

利益冲突声明

刘金报告称，他的工作得到了国家自然科学基金的支持。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言