随着大数据时代的快速发展,推荐系统(Bobadilla, Ortega, Hernando, & Gutiérrez, 2013)已成为缓解信息过载的关键技术,在电子商务、社交网络和内容平台中得到广泛应用。传统的推荐系统主要依赖用户-项目交互数据来进行协同过滤,但在实际应用中常常面临数据稀疏和冷启动等问题。为了解决这些问题,最近的研究开始利用多模态推荐系统,整合文本、视觉和听觉数据来构建用户偏好和项目属性的统一表示。这种多模态整合显著提高了推荐性能,并成为该领域的一个重要研究方向。
多模态推荐的一个核心任务是建模用户-项目交互图。大多数现有方法采用图神经网络(GNNs)(Scarselli, Gori, Tsoi, Hagenbuchner, & Monfardini, 2008)来学习用户和项目之间的关系以及交互模式。例如,NGCF(Wang, He, Wang, Feng, & Chua, 2019)通过显式建模用户和项目之间的高阶连接性来增强嵌入学习。LightGCN(He et al., 2020)通过去除特征转换和非线性激活简化了NGCF,仅保留了必要的邻居聚合机制。然而,基于GNN的方法经常遇到过度平滑问题(Li, Han, & Wu, 2018),即过多的邻居聚合导致节点表示变得难以区分,从而降低模型性能。受Transformer模型(Vaswani et al., 2017)在自然语言处理(NLP)中的成功启发,最近的研究探索了其在推荐中的应用。例如,TransGNN(Zhang et al., 2024)结合了GNN和基于Transformer的自注意力机制,以捕获图结构和长距离依赖关系,显著提升了交互建模的效果。然而,这类模型在大型图上的计算成本较高,因为Transformer的计算复杂度为二次方。此外,尽管Transformer在建模长序列方面表现出色,但在处理不同类型节点和边的交互时仍存在困难。
另一方面,随着多模态数据的日益丰富,如何将其有效整合到传统的协同过滤范式中已成为一个关键的研究焦点。大多数现有的多模态推荐方法使用预训练的编码器(如BERT(Devlin, Chang, Lee, & Toutanova, 2019)、ViT(Dosovitskiy et al., 2020)从不同模态中提取特征,然后将其输入到下游推荐模型中(Liu et al., 2024)。这些方法通常将多模态输入视为独立特征,并通过简单的串联、加权融合或注意力机制进行组合。例如,NOVA(Liu et al., 2021)引入了一种非侵入式的注意力机制来有效整合辅助数据进行序列推荐。LATTICE(Zhang et al., 2021)利用基于模态的内容相似性来构建项目-项目之间的语义关系。FREEDOM(Zhou & Shen, 2023)使用预训练的语义特征构建项目-项目图,并从用户-项目图中去除噪声以促进多模态推荐。然而,这些方法通常依赖于固定的预训练编码器来提取图像或文本特征。这种范式在垂直领域存在显著局限性,因为在通用模型和特定领域推荐需求之间存在语义差距。例如,在电子商务场景中,材料或尺寸等关键属性可能被通用视觉编码器忽略;同样,通用文本编码器在没有微调的情况下难以解释特定领域的术语。
为了解决现有多模态推荐方法在异构图建模和特征融合方面的局限性,我们提出了MaMoE4Rec框架,该框架将多模态专家编码与具有跳数感知能力的序列建模相结合。在多模态特征建模阶段,我们引入了专家混合(MoE)架构(Yuksel, Wilson, & Gader, 2012)来编码项目的多种模态,如文本和图像。特定模态的自注意力模块用于捕获每种模态内的局部依赖关系,而动态专家选择机制则自适应地激活最相关的领域专家,从而增强多模态特征的语义表达能力。专家编码的特征随后与项目ID嵌入结合,保留了协同信号,同时提高了多模态表示对下游推荐任务的适应性。
基于这些融合的项目表示,我们将其与用户ID嵌入一起分词处理,构建用户-项目交互序列,然后将其映射到具有跳数感知能力的异构图结构中。通过K跳传播,我们生成多跳特征序列,并引入奇偶位置编码来明确区分跳数之间的语义层次:奇数跳捕获异构(用户-项目)交互,而偶数跳编码同构(用户-用户或项目-项目)协同信号。为了建模跳数之间的长距离依赖关系,我们采用了Mamba序列模型(Gu & Dao, 2023),该模型在保持线性时间复杂度的同时显式编码层次结构,并解决了传统图神经网络中常见的过度平滑问题。最后,我们通过端到端的方式优化框架,联合最小化贝叶斯个性化排名(BPR)损失和模态对齐损失,以实现多模态和协同信号的首次融合,从而提高推荐性能。
我们的主要贡献总结如下:
•我们提出了MaMoE4Rec,这是一个基于用户-项目交互图的具有跳数感知能力的多模态推荐框架。通过将多跳邻居组织成具有奇偶位置编码的异构令牌序列,MaMoE4Rec能够有效捕获用户-项目和更高阶的协同关系。
•我们引入了一种基于动态MoE的多模态编码器,它可以根据不同领域和模态自适应选择专门的专家,而不是依赖单一的固定通用编码器。MaMoE4Rec专注于用户-项目交互图,并将动态多模态专家编码与具有跳数感知能力的异构图分词和基于Mamba的序列学习紧密结合。
•我们在多个真实世界的多模态推荐基准测试上进行了广泛实验。实验结果表明,MaMoE4Rec始终优于各种最先进的基线模型,进一步分析了我们框架中每个组件的有效性。