让两张图表“说话”:用于多模态推荐的自监督双图重建方法
《TRENDS IN FOOD SCIENCE & TECHNOLOGY》:Let Two Graphs Talk: Self-Supervised Dual-Graph Reconstruction for Multimodal Recommendation
【字体:
大
中
小
】
时间:2026年03月16日
来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4
编辑推荐:
多模态推荐中存在模态冲突噪声和稀疏交互图导致的流行度偏差及冷启动问题。本文提出双图重建方法DuGRec,通过融合空间、频谱和共现多视角相似性构建鲁棒的物-物图,消除模态噪声;利用自监督对比学习增强跨模态表示一致性,并设计用户偏好注意力机制优化交互图。实验表明在5个数据集上Recall@10提升7.94%,NDCG@10提升9.78%。
马洪健|张燕|周雅辉|杨冰|余敦辉|李志飞
湖北大学计算机科学学院,武汉,430062,中国
摘要
多模态推荐旨在融合多模态信息以提供更个性化的推荐。现有方法通过捕捉项目之间的语义关联并构建用户-项目交互图取得了显著的成功。然而,这些方法仍然存在以下两个限制:(1)仅在空间域构建项目-项目图往往会引入由模态相似性引起的噪声。(2)在稀疏的用户-项目交互图上进行图卷积会放大流行度偏差并加剧冷启动问题。为了解决这些问题,我们提出了一种名为自监督
双图重建用于多模态推荐(DuGRec)的新方法,该方法利用双图重建学习来建模用户偏好。具体来说,为了消除模态冲突噪声,我们通过整合来自空间、频谱和共现视图的多视图相似性来重新权重和修剪原始的项目-项目关系,移除噪声边,从而获得去噪的项目-项目重建图。然后,我们使用项目-项目图中的内容关系来重建用户-项目交互图,以减轻稀疏性和冷启动问题。此外,我们设计了一个多视图对比学习任务来提高ID嵌入和多模态特征的质量,最终生成稳定的用户和项目表示。我们在五个公开可用的数据集上进行了广泛的实验。实验结果表明,与基线模型相比,所提出的DuGRec在Recall@10和NDCG@10方面的平均提升分别为7.94%和9.78%。我们的代码位于https://github.com/HubuKG/DuGRec。引言
推荐系统分析用户的历史行为数据以提供个性化的物品推荐,并已广泛应用于各个领域[1]。然而,交互数据的稀疏性严重阻碍了推荐性能[2]。为了部分缓解这一限制,研究人员探索了结合丰富的内容信息来改进用户偏好建模[3]。因此,最近的研究[4]、[5]、[6]引入了多模态推荐系统(MMRS),这些系统利用不同模态(例如文本和图像)提供的额外信息来更好地捕捉用户偏好兴趣,尽管交互稀疏性仍然是一个固有的挑战。
MMRS的主要挑战在于在协作过滤(CF)框架内有效整合多模态特征[1]、[7]。具体来说,早期的MMRS方法[3]、[8]通过将项目ID嵌入与相应的多模态特征线性整合来增强项目表示。随后,随着图神经网络(GNNs)的兴起,研究人员将GNNs引入MMRS,通过多层神经网络自动学习更高阶的用户和项目表示[2]、[9]、[10]。然而,由于基于GNN的MMRS仍然依赖于稀疏的用户-项目交互图进行消息传递,交互稀疏性和传播引起的不一致噪声的放大会大大限制这些模型的性能。受到自监督学习(SSL)[11]成功的启发,最近的方法[12]、[13]利用对比学习来构建多视图目标或实现跨模态对齐,以减轻交互稀疏性并提高推荐的鲁棒性和准确性。此外,研究人员构建了同质图[6]、[9]、[14]来学习潜在的项目-项目关系,并通过更高阶的邻域显式注入多模态语义和协作信号到表示学习中,以提高推荐性能。
尽管现有方法取得了显著的成功,但仍然存在两个限制:(1) 项目-项目图中由模态相似性引起的冲突噪声。现有方法使用余弦相似性和top-K稀疏化[5]、[14]、[15]在空间视图中构建项目-项目图,而没有考虑由模态特定相似性引起的噪声边。这将模态冲突和流行度偏差嵌入到图结构中[16]。如图1(a)所示,由于空间相似性,不相关的项目变得无法区分,最终成为限制推荐性能的噪声。(2) 放大了流行度偏差并加剧了冷启动问题。在仅依赖历史交互进行表示学习的稀疏用户-项目交互图上,新用户或项目的连接很少或没有连接[9]、[17],使得模型难以学习有效的表示,导致收敛缓慢。如图1(b)所示,先前方法存在严重的冷启动问题,并且学习有效表示的速度很慢。此外,由于数据稀疏性,噪声边的权重被夸大,在消息传递过程中噪声传播到更多节点。更严重的是,高流行度节点主导了传播,导致长尾项目被淹没,使推荐偏向于流行项目。
为了解决上述限制,我们提出了一种名为自监督双图重建用于多模态推荐(DuGRec)的新方法。具体来说,我们提出了一种多视图项目-项目图构建方法,该方法整合了空间视图、频谱视图和共现视图来重新权重和修剪项目-项目边,有助于减轻跨模态冲突和噪声连接。通过对图像和文本特征应用DCT[18]获得频谱视图,产生紧凑的频域表示,从而在图构建过程中实现更可靠的相似性估计。然后,我们使用重建的项目-项目图中的内容关系来重建用户-项目交互图,以消除流行度偏差。此外,我们设计了一个用户偏好注意力模块(PAG)为每个用户分配不同的模态偏好权重。随后,我们在重建的双图上进行消息传递,以生成更高阶的用户和项目表示。最后,我们引入了一个多视图对比学习任务,将跨模态表示与来自用户、项目和图的扰动视图对齐。这种机制稳定了用户偏好注意力,增强了项目语义一致性,并最终在提高整体推荐性能的同时减轻了冷启动问题。所提出技术的总体贡献在于通过重建的双图传播生成更干净、更具信息量的表示,同时利用多视图对比学习更准确地捕捉多模态用户偏好。
为了评估DuGRec的性能,我们在四个亚马逊数据集(Baby、Sports、Clothing和Electronics)和一个多媒体数据集(MicroLens)上进行了广泛的实验。实验结果表明,与基线模型相比,DuGRec在三个公共数据集上的平均Recall@10提高了7.94%,NDCG@10提高了9.78%。我们的代码位于
https://github.com/HubuKG/DuGRec。
引言
推荐系统分析用户的历史行为数据以提供个性化的物品推荐,并已广泛应用于各个领域[1]。然而,交互数据的稀疏性严重阻碍了推荐性能[2]。为了部分缓解这一限制,研究人员探索了结合丰富的内容信息来改进用户偏好建模[3]。因此,最近的研究[4]、[5]、[6]引入了多模态推荐系统(MMRS),这些系统利用不同模态(例如文本和图像)提供的额外信息来更好地捕捉用户偏好兴趣,尽管交互稀疏性仍然是一个固有的挑战。
MMRS的主要挑战在于在协作过滤(CF)框架内有效整合多模态特征[1]、[7]。具体来说,早期的MMRS方法[3]、[8]通过将项目ID嵌入与相应的多模态特征线性整合来增强项目表示。随后,随着图神经网络(GNNs)的兴起,研究人员将GNNs引入MMRS,通过多层神经网络自动学习更高阶的用户和项目表示[2]、[9]、[10]。然而,由于基于GNN的MMRS仍然依赖于稀疏的用户-项目交互图进行消息传递,交互稀疏性和传播引起的不一致噪声的放大会大大限制这些模型的性能。受到自监督学习(SSL)[11]成功的启发,最近的方法[12]、[13]利用对比学习来构建多视图目标或实现跨模态对齐,以减轻交互稀疏性并提高推荐的鲁棒性和准确性。此外,研究人员构建了同质图[6]、[9]、[14]来学习潜在的项目-项目关系,并通过更高阶的邻域显式注入多模态语义和协作信号到表示学习中,以提高推荐性能。
尽管现有方法取得了显著的成功,但仍然存在两个限制:(1) 项目-项目图中由模态相似性引起的冲突噪声。现有方法使用余弦相似性和top-K稀疏化[5]、[14]、[15]在空间视图中构建项目-项目图,而没有考虑由模态特定相似性引起的噪声边。这将模态冲突和流行度偏差嵌入到图结构中[16]。如图1(a)所示,由于空间相似性,不相关的项目变得无法区分,最终成为限制推荐性能的噪声。(2) 放大了流行度偏差并加剧了冷启动问题。在仅依赖历史交互进行表示学习的稀疏用户-项目交互图上,新用户或项目的连接很少或没有连接[9]、[17],使得模型难以学习有效的表示,导致收敛缓慢。如图1(b)所示,先前方法存在严重的冷启动问题,并且学习有效表示的速度很慢。此外,由于数据稀疏性,噪声边的权重被夸大,噪声在消息传递过程中传播到更多节点。更严重的是,高流行度节点主导了传播,导致长尾项目被淹没,使推荐偏向于流行项目。
为了解决上述限制,我们提出了一种名为自监督双图重建用于多模态推荐(DuGRec)的新方法。具体来说,我们提出了一种多视图项目-项目图构建方法,该方法整合了空间视图、频谱视图和共现视图来重新权重和修剪项目-项目边,有助于减轻跨模态冲突和噪声连接。通过对图像和文本特征应用DCT[18]获得频谱视图,产生紧凑的频域表示,从而在图构建过程中实现更可靠的相似性估计。然后,我们使用重建的项目-项目图中的内容关系来重建用户-项目交互图,以消除流行度偏差。此外,我们设计了一个用户偏好注意力模块(PAG)为每个用户分配不同的模态偏好权重。随后,我们在重建的双图上进行消息传递,以生成更高阶的用户和项目表示。最后,我们引入了一个多视图对比学习任务,将跨模态表示与来自用户、项目和图的扰动视图对齐。这种机制稳定了用户偏好注意力,增强了项目语义一致性,并最终在提高整体推荐性能的同时减轻了冷启动问题。所提出技术的总体贡献在于通过重建的双图传播生成更干净、更具信息量的表示,同时利用多视图对比学习更准确地捕捉多模态用户偏好。
为了评估DuGRec的性能,我们在四个亚马逊数据集(Baby、Sports、Clothing和Electronics)和一个多媒体数据集(MicroLens)上进行了广泛的实验。实验结果表明,DuGRec在三个公共数据集上的表现优于现有的最佳基线模型。我们进一步进行了系统的消融研究,以验证每个关键组件的有效性和各自贡献。
我们的主要贡献可以总结如下:
•我们首先关注项目侧和交互侧信息的未充分利用。为此,我们提出了一种双图重建(DGR)策略,该策略使用多视图先验重写图结构,以去除图中的噪声并减轻模态相似性冲突以及冷启动问题。
•我们提出了DuGRec,它在重建的双图上进行图学习,并包括一个多视图对比学习任务。它采用用户个性化注意力和多层次一致性对齐,在数据稀疏性下显著提高了表示质量和推荐准确性。
•我们在五个公共基准数据集上进行了广泛的实验。在Recall@10和NDCG@10方面,DuGRec分别实现了平均7.94%和9.78%的性能提升。
本文的其余部分结构如下:第2节提供了相关工作的全面回顾。第3节介绍了我们方法的详细架构和实现。第4节展示了实验结果和深入的实证分析。最后,第5节提供了本文的总结。
节选
相关工作
我们将相关工作分为三组,包括第2.1节的多模态推荐系统、第2.2节的图神经网络在推荐中的应用以及第2.3节的自监督推荐。
符号定义
给定用户集和项目集,用户-项目交互矩阵定义为。然后,我们从交互矩阵构建用户-项目交互图。然后,我们根据观察到的交互建立边集。对于每个模态,项目i的多模态特征表示为,其中dm是该模态的维度。我们将注意力限制在行为、文本和视觉模态上,但该方法也可以轻松应用于其他模态
实验
在本节中,为了全面评估所提出的DuGRec的有效性,我们在五个广泛使用的真实世界数据集23上进行了广泛的实验。首先,我们提供了实验设置的详细介绍,包括数据集描述、基线模型和评估指标。此外,我们对实验结果进行了深入分析
结论
在本文中,我们研究了以往工作中图构建策略的局限性,并进一步揭示了项目-项目同质图和用户-项目异构交互图之间的互补能力。为此,我们提出了一种自监督增强的双图重建学习框架用于多模态推荐,名为DuGRec。更具体地说,我们精心构建的项目图指导了交互图的重建,显著
CRediT作者贡献声明
马洪健:撰写——原始草稿、验证、方法论、形式分析、数据策划、概念化。张燕:撰写——审阅与编辑、软件、资源获取。周雅辉:撰写——审阅与编辑、方法论、调查、
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号