多模态推荐系统的修正性聚合与偏好感知

《Expert Systems with Applications》:Corrective Aggregation and Preference-Aware for Multimodal Recommendation Systems

【字体: 时间:2026年03月06日 来源:Expert Systems with Applications 7.5

编辑推荐:

  多模态推荐系统通过融合文本、图像等多模态信息缓解数据稀疏性问题,但现有方法存在用户偏好学习不足和物项关系语义缺失问题。本文提出CoPARec框架,通过动态聚合策略调整物项权重、负偏好机制抑制噪声影响、同构图修正优化物项关系,并引入对比学习增强跨模态表示一致性,在三个基准数据集上平均提升NDCG@10指标14%,有效缓解头部物项过占主导的问题。

  
周东升|侯晓菊|张燕|周雅慧|余敦辉|李志飞
湖北大学计算机科学学院,武汉,430062,中国

摘要

多模态推荐系统旨在通过利用物品的多模态信息来解决数据稀疏性问题。现有方法尝试通过聚合用户交互过的物品来捕捉用户偏好。然而,这种聚合方法存在偏好偏差,包括(1)用户偏好学习不足和(2)物品间图谱缺乏语义,这最终影响了性能。为了解决这些问题,提出了一种名为Corective Aggregation and Preference-Aware for Multimodal Recommendation Systems (CoPARec)的新框架。首先,从交互图中提取物品交互度权重,并将其与物品融合以增强个性化偏好学习。然后,设计了一种负偏好机制,该机制聚合与用户特征最不相似的物品,从而减少噪声的影响。此外,提出了一种均匀图谱校正机制,通过利用物品之间的成对跨模态欧几里得距离动态校正用户-用户和物品-物品图谱中的噪声偏好。最后,引入了一种基于负采样的双重表示对齐机制,以确保表示的一致性。在三个基准数据集上的广泛实验表明,与最先进模型相比,该框架的平均性能提高了14%,验证了其在多次实验和不同任务中的优越性能。除了提高准确性外,CoPARec还提供了一种通用且实用的方案,用于减轻聚合引起的偏好偏差并净化多模态关系,从而在稀疏交互和异构模态质量下增强真实世界多模态推荐系统的鲁棒性。代码可在https://github.com/Et3m/CoPARec处获取。

引言

推荐系统通过交互行为获取用户偏好,以提供定制的物品建议(Chen, Chen, Xu, Zhang, Cao, Qin, Zha, 2019, Isinkaye, Folajimi, Ojokoh, 2015)。作为这一领域的一个子集,多模态推荐系统获取物品的多个特征,以更全面地捕捉用户偏好,从而提供更准确的建议(Dang, Pan, Zhang, Chen, Cai, Chen, 2025, Lei, Cao, Yang, Ding, Zhang, 2023)。通过联合建模文本、图像和交互信号,这些系统可以生成更符合个人品味的推荐(Wang et al., 2025)。使用多种模态可以更深入地理解用户偏好,提供比单模态系统更个性化和相关的建议。这种方法还有助于减轻仅依赖一种信息来源进行推荐的局限性。
多模态推荐系统面临着准确理解用户个性化偏好的挑战(Liu, Hu, Xiao, Zhao, Gao, Wang, Li, Tang, 2024, Rafailidis, Kefalas, Manolopoulos, 2017)。这些系统通常整合多种数据类型,如文本和图像,以全面捕捉用户偏好并提高推荐性能(Zhang et al., 2021)。近年来,图卷积网络(GCNs)(Bruna, Zaremba, Szlam, & LeCun, 2014)在这些系统中得到广泛应用,通过建模用户和物品之间的复杂关系来提高推荐准确性。尽管如此,GCNs在处理长尾节点和噪声数据时仍面临挑战——这些因素对个性化推荐至关重要,但在数据中往往较为稀疏。新的方法如MMGCN(Wei et al., 2019)和DualGNN(Wang et al., 2021)被引入到创新的均匀图结构中,以增强模型捕捉更深层次的用户-物品关系的能力。
尽管基于用户交互和多模态信息的用户偏好学习方法取得了显著成功,但仍存在一个关键限制:简单地沿用户交互历史连接多模态信息通常不足以完全表示个性化偏好。此外,仅依赖余弦相似性构建物品间关系无法准确反映由交互驱动的物品间相似性。文本或图像中的噪声,如无关词汇或图像背景,可能会扭曲相似性计算,导致相似性估计不准确(Jian, Luo, Li, Zhang, Zhang, Xiao, Hou, 2025, Xv, Li, Xie, Lin, Liu, Xia, Kang, Lin, 2024a)。当交互主要集中在热门物品上时,这个问题尤为明显。热门物品通常反映了许多用户的共同兴趣,而不是某个用户的独特兴趣,使它们容易主导偏好聚合。因此,模型可能会倾向于推荐大多数用户广泛喜欢的物品,而不是与特定用户个人偏好相匹配的物品,因为微妙的用户特定信号被流行度稀释了。当热门物品主导学习到的表示时,系统可能会产生过于泛化的建议,无法匹配个人品味,从而降低推荐质量。
为了更好地理解这一现象,使用在线购物场景来说明推荐过程,如图1(a)所示。传统系统通过利用所有用户-物品交互以及物品的多模态信息来推荐物品。由于用户交互过的物品大多是黄色的,模型通过物品-物品图计算相似性得分,最终推荐黄色裤子。然而,这种交互级别的连接和基于相似性的检索可能无法忠实反映用户偏好或行为驱动的物品关系,从而降低推荐性能。同时,数据显示出明显的长尾分布,如图2所示,少数头部物品占据了大部分交互,这可能会进一步放大基于相似性的图中的“头部物品主导”效应。在这种情况下,推荐系统应同时考虑物品的流行度和用户的负偏好,并结合物品共现关系来更好地捕捉用户品味。如图1(b)所示,惩罚过于相似的邻居同时加强共现相似性可以更好地使推荐与用户偏好对齐,最终推荐用户更喜欢的裤装。然而,大多数现有研究忽略了这一方面。
为全面解决上述问题,强调了现有多模态推荐解决方案中的两个关键问题:
  • 用户偏好学习不足。现有的用户偏好聚合方法未能充分整合关于物品流行度和负偏好的信息,导致用户偏好学习不足。
  • 物品间图谱缺乏语义。物品间图谱通常捕捉模态相似性,但未能考虑物品间的共现相似性,削弱了常见购买物品之间的表示接近性。
  • 为了解决这些问题,提出了一种动态偏好聚合策略,结合物品共现并对均匀图进行边缘校正,最终通过带有负采样的对比学习优化推荐模型。这种解决方案称为Corective Aggregation and Preference-Aware for Multimodal Recommendation Systems (CoPARec)。在提出的CoPARec框架中,模型首先基于物品度设计了一种动态聚合策略,动态调整物品的重要性,从而更精确地聚合用户偏好。接下来,模型利用用户-物品相似性矩阵进一步探索用户的负偏好,从而提供其整体偏好的更全面表示。然后,模型增强物品共现图以优化物品间关系的表示,引入图谱校正技术来减少图结构中的噪声和失真,从而减轻图中过于相似物品的主导地位。最后,为了增强跨模态学习能力,模型提出了一个基于负采样的对比学习模块,有效整合了来自视觉和文本模态的信息,提高了推荐系统的跨模态学习性能。基于这种算法结构,在三个数据集上的结果显著优于大多数基于图的多模态推荐系统。三个主要贡献可以总结如下:
  • 开发了一种基于度的加权策略用于偏好学习,实现了来自所有交互物品的特征的全面整合。此外,设计了一种基于相似性矩阵的机制,从用户-物品关系中推断用户负偏好。
  • 构建了一个共现图来增强物品-物品图,并开发了一种动态图谱校正机制来适应性地调整边权重。同时,引入了基于负采样的对比学习来改进跨模态整合。
  • 在三个公共数据集上的广泛实验表明,CoPARec的性能优于最先进模型,在NDCG@10指标上平均提高了22.05%。
  • 本文的其余部分组织如下。第2节回顾相关工作。第3节介绍提出的CoPARec框架,包括校正聚合、偏好感知学习以及图谱校正和对齐机制。第4节详细说明实验设置、数据集、基线和评估指标,并对实验结果进行深入分析和讨论。第5节总结本文并概述未来方向。最后,第6节讨论所提出方法的伦理和社会影响。

    部分摘录

    多模态推荐

    多模态推荐系统通过利用物品的多模态信息捕捉用户的潜在偏好,有效解决了数据稀疏性问题并提高了推荐的准确性(Deldjoo, Schedl, Cremonesi, Pasi, 2020, Zhou, Zhou, Zeng, Zhang, & Shen)。例如,VBPR(He & McAuley, 2016)利用卷积神经网络(CNNs)提取视觉特征,将用户视觉偏好整合到协同过滤中。为了更准确地捕捉

    方法论

    在本节中,首先阐述了多模态推荐问题,然后概述了CoPARec框架,并详细描述了每个组成部分。

    实验

    在本节中,我们在三个公开可用的数据集上进行了彻底的实验,以评估提出的CoPARec模型的有效性。这些实验旨在评估模型在各种场景下的性能,全面评估其优势及潜在的局限性。实验结果有效地解决了六个关键研究问题,每个问题都旨在评估模型性能的特定方面,包括其

    结论与局限性

    本文首先分析了现有方法在捕捉用户偏好方面的局限性,并指出了由均匀图中过大的边权重引起的“主导学习”问题。为了解决这个问题,本文提出了一种偏好感知的多模态推荐方法CoPARec,该方法更好地捕捉了个性化用户偏好并减少了偏差。具体来说,本文设计了一种基于物品度权重的动态用户正面偏好融合策略,该策略

    伦理考虑和社会影响

    该方法旨在抑制热门物品的主导地位并提高长尾覆盖率。然而,其对流行度的关注和图谱校正可能会影响曝光度,尤其是在不同的数据分布或超参数选择下,因此应检查并报告这些效应。负偏好挖掘和缺失的模态也可能通过间接联系对敏感属性产生不均匀的结果。未来的工作将报告按流行度分组的结果和覆盖情况,并在

    CRediT作者贡献声明

    周东升:方法论,写作——原始草稿。侯晓菊:方法论,写作——原始草稿。张燕:概念化,写作——原始草稿。周雅慧:数据整理,写作——审阅与编辑。余敦辉:资源,写作——审阅与编辑。李志飞:监督,写作——审阅与编辑。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号