推荐系统通过交互行为获取用户偏好,以提供定制的物品建议(Chen, Chen, Xu, Zhang, Cao, Qin, Zha, 2019, Isinkaye, Folajimi, Ojokoh, 2015)。作为这一领域的一个子集,多模态推荐系统获取物品的多个特征,以更全面地捕捉用户偏好,从而提供更准确的建议(Dang, Pan, Zhang, Chen, Cai, Chen, 2025, Lei, Cao, Yang, Ding, Zhang, 2023)。通过联合建模文本、图像和交互信号,这些系统可以生成更符合个人品味的推荐(Wang et al., 2025)。使用多种模态可以更深入地理解用户偏好,提供比单模态系统更个性化和相关的建议。这种方法还有助于减轻仅依赖一种信息来源进行推荐的局限性。
多模态推荐系统面临着准确理解用户个性化偏好的挑战(Liu, Hu, Xiao, Zhao, Gao, Wang, Li, Tang, 2024, Rafailidis, Kefalas, Manolopoulos, 2017)。这些系统通常整合多种数据类型,如文本和图像,以全面捕捉用户偏好并提高推荐性能(Zhang et al., 2021)。近年来,图卷积网络(GCNs)(Bruna, Zaremba, Szlam, & LeCun, 2014)在这些系统中得到广泛应用,通过建模用户和物品之间的复杂关系来提高推荐准确性。尽管如此,GCNs在处理长尾节点和噪声数据时仍面临挑战——这些因素对个性化推荐至关重要,但在数据中往往较为稀疏。新的方法如MMGCN(Wei et al., 2019)和DualGNN(Wang et al., 2021)被引入到创新的均匀图结构中,以增强模型捕捉更深层次的用户-物品关系的能力。
尽管基于用户交互和多模态信息的用户偏好学习方法取得了显著成功,但仍存在一个关键限制:简单地沿用户交互历史连接多模态信息通常不足以完全表示个性化偏好。此外,仅依赖余弦相似性构建物品间关系无法准确反映由交互驱动的物品间相似性。文本或图像中的噪声,如无关词汇或图像背景,可能会扭曲相似性计算,导致相似性估计不准确(Jian, Luo, Li, Zhang, Zhang, Xiao, Hou, 2025, Xv, Li, Xie, Lin, Liu, Xia, Kang, Lin, 2024a)。当交互主要集中在热门物品上时,这个问题尤为明显。热门物品通常反映了许多用户的共同兴趣,而不是某个用户的独特兴趣,使它们容易主导偏好聚合。因此,模型可能会倾向于推荐大多数用户广泛喜欢的物品,而不是与特定用户个人偏好相匹配的物品,因为微妙的用户特定信号被流行度稀释了。当热门物品主导学习到的表示时,系统可能会产生过于泛化的建议,无法匹配个人品味,从而降低推荐质量。
为了更好地理解这一现象,使用在线购物场景来说明推荐过程,如图1(a)所示。传统系统通过利用所有用户-物品交互以及物品的多模态信息来推荐物品。由于用户交互过的物品大多是黄色的,模型通过物品-物品图计算相似性得分,最终推荐黄色裤子。然而,这种交互级别的连接和基于相似性的检索可能无法忠实反映用户偏好或行为驱动的物品关系,从而降低推荐性能。同时,数据显示出明显的长尾分布,如图2所示,少数头部物品占据了大部分交互,这可能会进一步放大基于相似性的图中的“头部物品主导”效应。在这种情况下,推荐系统应同时考虑物品的流行度和用户的负偏好,并结合物品共现关系来更好地捕捉用户品味。如图1(b)所示,惩罚过于相似的邻居同时加强共现相似性可以更好地使推荐与用户偏好对齐,最终推荐用户更喜欢的裤装。然而,大多数现有研究忽略了这一方面。
为全面解决上述问题,强调了现有多模态推荐解决方案中的两个关键问题:
•用户偏好学习不足。现有的用户偏好聚合方法未能充分整合关于物品流行度和负偏好的信息,导致用户偏好学习不足。
•物品间图谱缺乏语义。物品间图谱通常捕捉模态相似性,但未能考虑物品间的共现相似性,削弱了常见购买物品之间的表示接近性。
为了解决这些问题,提出了一种动态偏好聚合策略,结合物品共现并对均匀图进行边缘校正,最终通过带有负采样的对比学习优化推荐模型。这种解决方案称为
Corective Aggregation and
Preference-
Aware for Multimodal
Recommendation Systems
(CoPARec)。在提出的CoPARec框架中,模型首先基于物品度设计了一种动态聚合策略,动态调整物品的重要性,从而更精确地聚合用户偏好。接下来,模型利用用户-物品相似性矩阵进一步探索用户的负偏好,从而提供其整体偏好的更全面表示。然后,模型增强物品共现图以优化物品间关系的表示,引入图谱校正技术来减少图结构中的噪声和失真,从而减轻图中过于相似物品的主导地位。最后,为了增强跨模态学习能力,模型提出了一个基于负采样的对比学习模块,有效整合了来自视觉和文本模态的信息,提高了推荐系统的跨模态学习性能。基于这种算法结构,在三个数据集上的结果显著优于大多数基于图的多模态推荐系统。三个主要贡献可以总结如下:
•开发了一种基于度的加权策略用于偏好学习,实现了来自所有交互物品的特征的全面整合。此外,设计了一种基于相似性矩阵的机制,从用户-物品关系中推断用户负偏好。
•构建了一个共现图来增强物品-物品图,并开发了一种动态图谱校正机制来适应性地调整边权重。同时,引入了基于负采样的对比学习来改进跨模态整合。
•在三个公共数据集上的广泛实验表明,CoPARec的性能优于最先进模型,在NDCG@10指标上平均提高了22.05%。
本文的其余部分组织如下。第2节回顾相关工作。第3节介绍提出的CoPARec框架,包括校正聚合、偏好感知学习以及图谱校正和对齐机制。第4节详细说明实验设置、数据集、基线和评估指标,并对实验结果进行深入分析和讨论。第5节总结本文并概述未来方向。最后,第6节讨论所提出方法的伦理和社会影响。