多模态双注意力图对比学习在推荐系统中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Multi-modal Dual Attention Graph Contrastive Learning for Recommendation

【字体：大中小】 时间：2026年01月25日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多模态推荐系统通过结构对比学习和语义对比学习缓解数据稀疏性，结合内模态自注意力和外模态互注意力机制实现特征自适应融合，提出OUTGO框架。

马寿星|吴世清|曾亚文|史凯泽|徐冠东

悉尼科技大学计算机科学学院，澳大利亚新南威尔士州悉尼

摘要

多模态推荐系统通过将丰富的内容信息（例如图像和文本）纳入用户行为建模中，近年来受到了广泛关注。当前的研究成功结合了图神经网络（GNN）和对比学习来提高推荐准确性并缓解数据稀疏问题。然而，从其他领域借鉴的视图增强策略（如边或节点dropout）往往会扭曲原始图结构，导致语义漂移和表示学习效果不佳。此外，以往的研究主要集中在优化跨模态权重上，而忽视了用户特定的模态偏好以及通用模型生成的模态特征的适应性。为了解决这些问题，我们提出了一个新颖的多模态注意力图对比学习框架（OUTGO）。具体来说，我们首先利用用户和项目的同质GNN对用户和项目表示进行编码。然后，我们设计了一系列内部和跨模态注意力机制，依次并自适应地调整每个模态特征值，同时考虑将它们与不同模态视角融合。此外，引入了语义和结构对比学习任务来减轻数据稀疏问题，而不破坏原始数据结构。在真实世界数据集上的广泛实验表明，OUTGO优于现有的最佳基线方法。代码可在以下链接获取：https://anonymous.4open.science/r/OUTGO

引言

旨在帮助用户发现符合其偏好的信息的推荐系统已在许多领域得到广泛应用。许多现有的推荐系统利用历史交互数据来建模用户偏好并生成准确的推荐结果[1]、[2]、[3]、[4]。然而，在许多现实场景中，丰富的多模态信息（如视频、文本和图像）尚未得到充分利用，而这些信息能够提供详细的项目描述和特定的用户偏好，从而提高推荐效果[5]。因此，近年来多模态推荐系统受到了广泛关注和研究[6]、[7]、[8]。

为了构建有效的多模态推荐系统，研究从早期的特征融合[9]、[10]，发展到利用图神经网络（GNN）的模型[11]、[12]，最近又发展到对比学习框架[13]，这些方法提高了推荐准确性并缓解了数据稀疏问题。例如，MMGCL[14]通过使用边缘dropout等增强技术创建不同视图来进行多模态图对比学习推荐。然而，图对比学习中常用的多视图增强策略（如图1(a)所示，如添加边、删除边和图扩散）本质上是随机且不受控制的，这常常导致结构扰动和语义漂移[17]。具体来说，用户和项目自然形成一个二分图，可以通过GNN中的消息传递有效建模。此外，图对比学习通过随机删除边或节点来构建不同视图以获得正样本和负样本，从而在整个学习过程中破坏了原始图拓扑结构。一旦结构完整性受损，正样本和负样本对之间的信息就会发生变化，这种变化会通过GNN的消息聚合机制进一步放大，最终导致用户和项目表示的语义漂移[18]、[19]、[20]。因此，需要一种更合适的图对比方法，特别是在不破坏图结构的情况下提高推荐性能。

另一方面，现有研究[7]、[21]主要关注不同模态的相对重要性，因为用户的偏好在不同模态之间往往存在差异——例如图1(b)所示，一些用户偏好文本描述（如3），而另一些用户则更喜欢视觉内容（如1、2）。然而，很少有研究[6]进一步探索同一模态内的变化，尽管有证据表明挖掘跨模态差异可以显著提高推荐性能[5]、[22]。例如，一些用户更重视配饰（如1），而另一些用户则更重视连衣裙（如2）。尽管BM3[6]设计了专门的跨模态损失函数来对齐模态内和模态间的特征，但由于原始数据不完整，通过随机化掩码来构建损失函数可能会导致次优结果。此外，考虑到时间和效率，大多数推荐方法[21]、[23]直接使用从通用模型中提取的特征作为输入，这使得输入特征不一定完全匹配下游推荐任务。因此，找到一种微调模态特征以适应推荐需求的方法，并高效整合模态内和模态间信息的方法至关重要，从而提高推荐系统的性能。

鉴于上述问题，我们提出了一个新颖的框架——多模态注意力图对比学习框架（OUTGO），该框架利用双重图对比学习和双重注意力机制来提升推荐系统的性能。其中，双重图对比学习包括结构对比学习（StructuralCL）和语义对比学习（SemanticCL），这两种方法既直接又易于控制，且不会导致语义漂移。前者通过对比GNN处理前后的数据来最大化图的结构性一致性，更好地适应异构图中的信息聚合机制。后者通过GNN的双重注意力表示对比同一模态，最大化保持一致和互补的跨模态信息，同时保留交互信号。双重注意力机制以自注意力和互注意力的形式实现。此外，它们能够自适应地调整模态内和模态间的多模态特征权重，而不丢失原始数据，从而更精细地建模用户在不同模态以及同一模态内的偏好。

具体来说，如图1和图2所示，我们首先使用用户共现和项目语义同质GNN作为编码器，将丰富的物品语义信息和用户潜在关系保持在其对应的编码嵌入中。接下来，使用模态内自注意力模块自适应地调整每个模态特征的重要性，以更细致的方式捕捉有价值的特征。然后，我们设计了一个模态间互注意力模块来探索不同特征视角下的模态间一致性和互补性关系。接着，我们有意引入图StructCL和SemanticCL任务，以确保数据适应用户-项目异构GNN中的信息聚合，同时缓解数据稀疏问题。最后，预测模块通过计算每个用户和项目的多模态表示的内积来排名潜在的项目交互可能性。在三个真实世界数据集上进行了广泛实验，以评估OUTGO的性能。实验结果验证了所提出方法的优越性。我们的贡献可以总结如下：•

我们提出了两种自监督任务，即结构对比学习和语义对比学习，以缓解数据稀疏问题，这两种方法既直接又易于控制，且不会导致语义漂移。

•

我们设计了双重注意力机制，即模态内自注意力和模态间互注意力，以实现模态内和模态间信息的深度整合，从而全面建模用户的多模态偏好。

•

我们在三个真实世界数据集上进行了广泛实验，以评估所提出框架OUTGO的有效性。实验结果一致表明，OUTGO优于现有的最佳多模态推荐基线方法。

章节片段

对比学习

对比学习的核心原理是构建正样本和负样本对，使模型在训练过程中学习到具有区分性的表示。具体来说，对于样本z，通过数据增强生成其对应样本

z^{+} 作为正样本，而其他样本则随机选为负样本

z^{?} 。通过损失函数，模型被训练将

z和

z^{+} 的表示拉得更近，同时将其他样本推开

实验

在本节中，我们在三个公开可用的真实世界数据集上进行了全面实验，以评估所提出的OUTGO框架的有效性和泛化能力。具体来说，实验旨在回答以下研究问题：•

RQ1： OUTGO与现有的最佳多模态基线方法和其他协同过滤方法相比表现如何？

•

RQ2： 各个模块如何影响OUTGO的性能？

•

RQ3： 超参数如何影响

结论与未来工作

在本文中，我们提出了一个新颖的多模态双重注意力图对比学习框架（OUTGO），用于多模态推荐。具体来说，我们首先构建用户共现图和项目语义同质图，分别编码捕获用户偏好和项目潜在语义的表示。然后，我们依次使用两个注意力模块来自适应地调整模态内特征值和模态间权重，以深度整合模态信息

CRediT作者贡献声明

马寿星：撰写——原始草案、可视化、验证、软件、方法论、概念化。吴世清：撰写——审阅与编辑、方法论。曾亚文：撰写——审阅与编辑、方法论、概念化。史凯泽：撰写——审阅与编辑。徐冠东：撰写——审阅与编辑、监督、资源获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了澳大利亚研究委员会（ARC）的资助（项目编号DP220103717和LE220100078）以及中国国家自然科学基金（项目编号62072257）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言