基于ID引导的多模态专家与对比扩散算法在序列推荐中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：ID-Guided Multimodal Experts with Contrastive Diffusion for Sequential Recommendation

【字体：大中小】 时间：2026年01月18日 来源：Neural Networks 6.3

编辑推荐：

　　多模态序列推荐通过ID嵌入引导的混合专家模块解决跨模态语义不一致，结合模态特定向量量化抑制噪声，利用对比扩散生成降低偏差，实验表明优于现有方法。

吕一宏|奚武东|邢星星|万伟|王长东

中山大学计算机科学与工程学院，中国广州，

摘要

多模态序列推荐通过整合文本和图像模态来丰富用户-物品交互建模。然而，现有方法往往忽略了不同模态之间的固有不一致性，并且无法有效过滤模态特定特征中的冗余噪声，从而导致推荐性能不佳。为了解决这些问题，我们提出了一个名为ID引导的多模态专家与对比扩散序列推荐（IMECD）的新框架。具体来说，IMECD引入了一个新颖的ID引导的多模态专家混合模块，该模块独特地利用ID嵌入中编码的长期用户偏好来动态指导文本和图像特征的提取。这个模块有助于解决跨模态语义不一致性问题，并抑制无关信号，从而提高多模态表示的质量。为了进一步减少用户交互序列中的噪声，我们引入了一个模态特定的向量量化模块，通过独立量化每个模态来对序列特征进行去噪。此外，我们提出了一个对比扩散生成模块，该模块根据序列表示条件化扩散过程，并采用对比损失来减轻生成偏差。在四个基准数据集上的广泛实验表明，IMECD的性能始终优于现有的最佳方法。我们的代码可在https://anonymous.4open.science/r/IMECD-LYH获取。

引言

推荐系统帮助用户从庞大的商品库中发现他们喜欢的物品，序列推荐（SR）旨在通过用户的历史行为序列来预测他们的下一次互动（He等人，2025年；吕等人，2023年；彭等人，2025年；张和洪，2021年；张和王，2023年）。传统的SR方法主要依赖于物品ID进行建模（Kang和McAuley，2018年；李等人，2023a年；邱等人，2022年），但它们存在冷启动问题（Schein等人，2002年），并且忽略了丰富的多模态物品语义（张等人，2025年）。为了克服这些限制，多模态序列推荐成为一个有前景的方向。现有研究整合了文本/图像模态（崔等人，2020年；侯等人，2022年；梁等人，2023年），并探索了自适应融合机制（胡等人，2023年；王等人，2023a年），以通过细粒度的物品理解和准确的用户兴趣建模来提升序列表示的质量。

尽管在多模态序列推荐方面取得了显著进展，但现有方法通常假设产品描述和图像等模态在语义上是对齐的，可以直接融合以增强物品表示（傅等人，2024年；侯等人，2022年；梁等人，2023年）。在真实的电子商务环境中，这种假设很少成立。同一产品的视觉和文本内容通常是独立创建的，并针对不同的目标进行优化：图像强调美学吸引力或生活方式背景，而文本则突出功能细节或搜索关键词。如图1所示，一个儿童积木玩具的图像可能展示了一个泰迪熊和彩色的积木，而文本描述的是“数字学习”和“早期教育”，这揭示了两种模态之间的明显语义不一致性。此外，两种模态都可能包含噪声，例如无关的视觉线索或模糊的文本表达。当模态被不加区分地融合时，这些不一致性和噪声可能会误导推荐模型。因此，需要一种更精细的方法——一种能够根据用户不断变化的偏好来适应性地评估每种模态的可靠性和对齐性的方法。

为了解决这个问题，我们提出使用物品ID嵌入作为稳定的语义锚点，以将文本和图像特征与用户的偏好对齐。虽然一些先前的工作（如UniSRec（侯等人，2022年）、MISSRec（王等人，2023a年）和HM4SR（张等人，2025年）将ID嵌入整合到多模态推荐中，但它们主要将其作为辅助特征使用，并没有明确建模其在解决跨模态语义不一致性中的作用。现有方法隐含地假设所有模态都应该对齐，ID嵌入仅仅是辅助信号。然而，在序列推荐中，ID嵌入编码了长期的身份级语义，而文本和图像模态反映了更易受噪声和不一致性影响的短期、上下文依赖的观察结果。如果没有稳定的语义参考，直接整合多模态特征往往会将模态特定的噪声和不一致性传播到后续的序列建模阶段。相比之下，我们的方法将ID嵌入从辅助信号提升为语义锚点，利用它们来指导模态特定的表示并过滤掉噪声或不一致的特征，从而实现更连贯和可靠的多模态建模。如图1所示，物品ID嵌入可以提供长期偏好特征，如年轻年龄、实体玩具和基本认知。基于这些长期偏好信号，我们为文本和图像模态的各种特征分配不同的重要性，引导它们反映用户的持久兴趣。这种方法有效地过滤掉了噪声和跨模态语义不一致性，确保生成的多模态表示与用户的长期偏好更加一致。

基于这一见解，我们提出了一个名为ID引导的多模态专家与对比扩散序列推荐（IMECD）的新框架。首先，ID引导的多模态专家混合（ID-MoE）模块使用物品ID嵌入作为外部锚点来执行模态级去噪，以抑制跨模态不一致性并消除物品级文本和图像特征中的噪声信号。这种设计明确地将ID嵌入的角色从辅助标识符重新定义为多模态对齐的语义参考。在去噪的物品表示基础上，我们进一步引入了模态特定的向量量化（MS-VQ）模块来处理序列级噪声和冗余。MS-VQ通过将模态特定的序列表示量化为离散的码本向量来稳定多模态交互轨迹，从而在过滤冗余的时间变化的同时保留必要的行为语义。在分层去噪表示的基础上，我们最终开发了一个对比扩散生成（CDG）模块，根据去噪的序列表示生成下一个物品的表示，并采用对比学习来进一步减轻生成偏差。这些组件构成了一个统一的框架，桥接了语义对齐、序列稳定性和生成建模，为多模态序列推荐中的跨模态不一致性问题提供了实用的解决方案。本文的贡献总结如下：

1.
我们提出了一个新颖的ID引导的多模态专家混合模块，其中ID嵌入被用作门控信号，从其他模态输入中选择性地提取长期用户偏好信息。这种方法减少了模态之间的不一致性并降低了噪声，确保提取的特征更好地反映了用户的长期偏好。
2.
我们提出了IMECD，它执行渐进式去噪和基于扩散的生成。ID-MoE模块在物品级别减轻了跨模态不一致性和噪声，MS-VQ模块通过向量量化进一步稳定了序列表示，CDG模块采用基于对比的生成目标来减轻偏差并增强多样性。
3.
我们在亚马逊评论数据集上进行了全面实验，以验证IMECD模型的有效性和适应性。实验结果表明，我们的模型显著优于现有方法。

本文的其余部分组织如下。我们在第2节简要回顾了相关工作。第3节详细描述了提出的IMECD。第4节报告了实验结果。最后，我们在第5节得出结论。

部分摘录

传统序列推荐

在序列推荐的早期阶段，许多方法依赖于马尔可夫链（He和McAuley，2016年；Kabbur等人，2013年），这些方法假设下一个物品仅依赖于序列中的前一个物品。随着深度学习、循环神经网络（RNNs）、卷积神经网络（CNNs）和自注意力的出现，它们被广泛用于建模序列行为（Li等人，2023b年），从而能够更好地表示用户随时间的变化的兴趣。

方法

图2展示了提出的IMECD框架。该模型由三个关键组件组成：ID引导的多模态专家混合（ID-MoE）模块、模态特定的向量量化（MS-VQ）模块和对比扩散生成（CDG）模块。具体来说，ID-MoE模块首先在ID嵌入的指导下对齐并去噪物品级多模态特征，过滤文本和图像模态之间的不一致或无关信号。

数据集

遵循现有方法（王等人，2023a年；张等人，2025年），我们在一个真实世界的推荐数据集——亚马逊评论数据集（Ni等人，2019年）上评估了IMECD。具体来说，我们选择了四种类型的数据集：玩具和游戏（Toys）、视频游戏（Games）、乐器（Instruments）以及食品和美食（Food）。我们使用了5核子集，其中所有用户和物品都有至少5条评论。

为了支持多模态

结论

为了解决现有多模态序列推荐方法中常见的不一致性和噪声问题，我们引入了IMECD，这是一个结合了扩散模型和多模态信息优势的新框架，以提升序列推荐性能。我们的方法利用了物品ID嵌入中编码的长期稳定语义，通过MoE机制指导文本和图像模态。此外，我们引入了MS-VQ模块进行量化和

CRediT作者贡献声明

吕一宏：撰写——原始草稿，验证，方法论，调查，形式分析，数据整理。奚武东：撰写——审阅与编辑，撰写——原始草稿，方法论，形式分析。邢星星：撰写——审阅与编辑。万伟：撰写——审阅与编辑。王长东：撰写——审阅与编辑，监督，项目管理，方法论。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（62106079、61876193、U1811263和61772211）、广东省自然科学基金（2020A1515110337）、中山大学计算科学广东省重点实验室（2020B1212060032）以及广东省公共财政与税收大数据应用重点实验室开放基金的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号