基于颗粒球表示的条件图扩散算法在多模态推荐中的应用
《Expert Systems with Applications》:Conditional Graph Diffusion with Granular-Ball Representation for Multimodal Recommendation
【字体:
大
中
小
】
时间:2026年03月24日
来源:Expert Systems with Applications 7.5
编辑推荐:
GBDiff通过粗粒度全局关联建模和条件图扩散技术解决多模态推荐系统中的远节点关联捕捉与噪声抑制难题,实验验证其优于现有基线方法。
朱晓菲|谭玲
重庆理工大学计算机科学与工程学院,重庆,400054,中国
摘要
多模态推荐系统(MRSs)旨在通过整合多模态信息来提升推荐性能。尽管最近取得了进展,但仍存在两个关键挑战。首先,现有的基于图的方法主要关注基于细粒度交互图的局部传播,忽略了从粗粒度全局视角来看远距离节点之间的潜在关联。其次,现有方法往往难以减轻用户历史记录中的固有噪声,尤其是在多模态场景中。为了解决这些问题,我们提出了一种名为“基于颗粒球表示的条件图扩散”(GBDiff)的新方法。具体来说,我们提出利用颗粒球计算技术来捕获粗粒度的全局用户兴趣信息,以补充细粒度的用户-物品交互建模。此外,我们开发了一种新的条件扩散模型,该模型利用多模态信号来指导去噪过程。在两个广泛使用的数据集上的大量实验表明,我们提出的GBDiff方法始终优于所有现有的基线方法。所提出的GBDiff模型的源代码可在以下链接获取:
https://github.com/dddorren/GBDiff。
引言
随着在线多媒体平台的迅速普及,多模态推荐系统已成为提供个性化服务的关键(Xu等人,2025年)。通过利用视觉、听觉和文本特征(Luo、Cao、Sun、Yu、Huang、Yuan等人,2025年;Wang、Wang、An、Gao、Tian,2020年),这些系统可以对用户偏好进行建模。然而,有效整合多样化的多模态信息以捕捉复杂用户兴趣仍然是一个重大挑战。
为了解决推荐系统中的多模态集成问题,已经提出了多种方法。例如,VBPR(He & McAuley,2016年)通过结合视觉特征和物品ID来扩展矩阵分解,以增强偏好建模。ACF(Chen等人,2017年)采用分层注意力网络来捕捉组件级别的用户偏好。最近,基于图的方法如MMGCN(Wei等人,2019年)构建了具有模态意识的图,并利用图卷积网络(GCNs)来优化用户和物品的表示。LATTICE(Zhang等人,2021年)进一步通过多模态特征探索物品之间的关系,并将其整合到GNN消息传递过程中以增强语义聚合。这些进展激发了高效模型的出现,如MICRO(Zhang等人,2023a年),它通过引入对比学习将LATTICE(Zhang等人,2021年)扩展为融合多模态特征,以捕捉模态共享和模态特定的信息。此外,自监督学习(SSL)技术,如SGL(Wu等人,2021年)和NCL(Lin、Tian、Hou、Zhao,2022年),将数据增强整合到协同过滤中。
尽管多模态推荐系统取得了显著进展,但仍存在几个关键挑战。传统的基于图的推荐模型(如LightGCN(He、Deng、Wang等人,2020年)通过基于细粒度图结构的多次图卷积来学习用户和物品的表示。虽然图卷积能够有效聚合局部信息,但它们往往无法捕捉图结构中远距离节点之间的潜在粗粒度全局关联,从而阻碍了模型从全面的角度理解用户兴趣。从人类认知的角度来看,“全局优先”(Xia、Wang、Gao等人,2023a年)的感知机制与认知推理过程更为一致,在进行细粒度判断之前首先理解宏观信息(Xie、Cheng、Xia、Hua、Wang、Gao,2025年;Yang、Zhao、Wang、Pedrycz、Xia、Liu、Zhang,2025c年)。因此,仅依赖细粒度建模不足以完全捕捉用户的真实兴趣,需要粗粒度建模来提供全局语义支持。
此外,现实世界的推荐场景经常遇到嘈杂的用户-物品交互数据,例如误点击行为或探索性操作。这种噪声交互会削弱真实的偏好信号,特别是在交互稀疏的情况下,显著降低学习到的表示的质量。最近的研究探索了扩散模型来减轻交互中的噪声,利用其强大的生成能力进行有效去噪(Jiang、Xia、Wei等人,2024a年;Jiang、Yang、Xia等人,2024b年)。然而,这些方法往往无法充分利用多模态信息来生成精确的用户-物品交互结构,从而限制了去噪效果。
为了解决这些挑战,我们提出了一种名为“基于颗粒球表示的条件图扩散”(GBDiff)的统一框架用于多模态推荐。受到人类“从粗到细”认知机制的启发(Li、Ouyang、Pan等人,2025年),我们引入颗粒球计算将用户和物品节点语义地划分为稳定的、粗粒度的颗粒球,并设计规则来构建用户和物品颗粒球之间的二分交互矩阵。通过卷积聚合,我们获得了全局用户兴趣信息,以补充细粒度的用户-物品交互建模。此外,为了减轻用户和物品之间的噪声交互,我们引入了一种新的条件扩散模型,该模型利用多模态信号作为条件来指导反向扩散过程,生成去噪后的用户-物品交互矩阵。在两个公开可用的数据集上的实验证明了我们提出方法的有效性。我们进一步进行了消融研究,以验证每个主要组件的贡献。总结如下:
- •
我们设计了一个基于颗粒球的表示学习模块,通过进一步建模粗粒度的全局用户兴趣信息来提升模型性能。
- •
我们提出了一个多模态引导的条件图扩散模块,该模块利用多模态信息作为条件指导,用于基于扩散的用户-物品交互结构的重建。
- •
在两个广泛使用的数据集上的实验验证了GBDiff的有效性以及每个组件的贡献。
相关工作
相关工作
在本节中,我们简要回顾了相关领域的最新进展,包括多模态推荐、推荐中的扩散模型和颗粒球计算。
提出的方法
在本节中,我们将详细介绍GBDiff。整体框架如图1所示。GBDiff包括三个主要组件:(a) 颗粒球表示学习模块,(b) 模态引导的条件图扩散模块,(c) 图学习模块。
预备知识
设, 分别表示用户和物品的集合。遵循主流推荐方法(Guo等人,2024年),我们随机初始化用户和物品ID嵌入,表示为,其中d是嵌入维度。此外,每个物品都与多模态特征相关联,其中dm是原始的模态嵌入维度,
实验
我们进行了广泛的实验来解决以下研究问题:
- •
RQ1:所提出的模型GBDiff与现有的通用和多模态推荐系统相比表现如何?
- •
RQ2:GBDiff中的关键组件对其整体效果的贡献是什么?
- •
RQ3:超参数的变化如何影响所提出模型的性能?
- •
RQ4:GBDiff在不同数据稀疏程度下的表现如何?
- •
RQ5:GBDiff如何影响...
结论
在本文中,我们提出了一种名为“基于颗粒球表示的条件图扩散”(GBDiff)的统一框架用于多模态推荐。具体来说,GBDiff包括两个关键模块:模态引导的条件图扩散模块和颗粒球表示学习模块。为了增强去噪能力,我们提出应用特定于模态的语义信号来指导反向图扩散过程。此外,我们引入了...
CRediT作者贡献声明
朱晓菲:概念化、资金获取、资源、监督、撰写——审阅与编辑。谭玲:概念化、方法论、验证、调查、撰写——原始草稿、可视化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号