用于多模态推荐系统的双空间特征表示学习网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Dual-space feature representation learning network for multimodal recommender systems

【字体：大中小】 时间：2026年02月28日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　多模态推荐中现有方法存在模态对齐抑制独特特征和单一模态图无法捕捉跨模态交互的问题。本文提出DRNet，通过双空间特征分解（模态对齐与独特空间）、跨模态图构建（对齐空间合并边，独特空间建立跨模态连接）和多头注意力融合机制，有效整合模态对齐与独特特征，并在四个数据集上验证优于基线。

作者：Yuzhuo Dang、Wanyu Chen、Zhiqiang Pan、Xin Zhang、Yuxiao Duan、Fei Cai、Honghui Chen

中国湖南长沙，国防科技大学，国家信息系统工程重点实验室

摘要

多模态推荐系统因其能够同时利用用户与物品的交互行为以及关于物品的多模态数据而受到广泛关注，这使得用户偏好的建模更加准确。尽管现有方法通过模态对齐和辅助的物品-物品图学习来增强物品的表示学习，但它们面临两个关键问题：（1）对齐不同模态之间的语义差异往往会导致模态独特特征的丢失；（2）仅依赖单模态的物品-物品图无法捕捉物品之间的跨模态交互。为了解决这些问题，我们提出了一种新颖的双空间特征表示学习网络（DRNet）用于多模态推荐系统。具体来说，为了保留全面的物品特征，我们设计了一个双空间解耦模块，将物品的原始模态特征映射到两个独立的空间中，并为每个空间引入专门的损失函数，以帮助模型学习准确的模态对齐特征和模态独特特征。此外，为了弥合跨模态挖掘的差距，我们开发了跨模态物品-物品图构建（CGC）策略。通过识别两个空间的异质性，我们在对齐空间中使用边连接操作，并在独特空间中建立跨模态节点连接，从而实现模态内部和模态之间的交互同时挖掘。最后，我们采用多头注意力特征融合（MAFF）机制来动态适应性地整合双空间特征表示。在四个公开可用的数据集上的广泛实验表明，DRNet的性能优于基线方法。DRNet的代码和数据可在以下链接获取：https://github.com/Yuzhuo-Dang/DRNet

引言

推荐系统作为一种关键工具，通过提供信息过滤和个性化服务，在包括在线市场、社交网络服务和短视频服务在内的多种平台上发挥着重要作用[1]、[2]、[3]。传统的推荐系统通常依赖于单一类型的数据（如用户行为）来分析用户兴趣并提供个性化推荐[4]、[5]。然而，随着在线平台上多模态数据的出现，用户在决策过程中越来越多地整合了多种模态（例如图像、文本和音频）。因此，研究人员将重点转向推进多模态推荐系统（MMRS），该系统结合用户行为数据和物品的多模态特征来学习用户的综合偏好[6]、[7]、[8]、[9]。此外，多模态数据的处理和整合为传统推荐系统中普遍存在的数据稀疏性和冷启动问题提供了有效的解决方案，从而提高了它们的泛化能力和鲁棒性[10]、[11]、[12]。

MMRS的主流方法通常利用预训练模型进行多模态特征提取，随后将这些特征与历史交互信号结合，以捕捉多粒度用户偏好[13]、[14]、[15]。早期的方法主要通过求和、连接或注意力机制[16]、[17]、[18]来融合交互嵌入和多模态特征。最近，研究重点转向通过图神经网络（GNN）[19]在用户-物品二分图和物品-物品亲和图[20]、[21]上捕捉更高阶的关系。一个代表性的工作LATTICE[20]通过评估物品之间的特征相似性指标来构建单模态物品-物品亲和图，从而揭示每种模态中的潜在结构关系。此外，一些研究将自监督学习（SSL）[22]、[23]整合到这一领域中，利用模态特征之间以及这些特征与交互信号之间的内在监督信号来对齐和细化物品表示[24]、[25]。

尽管取得了这些显著成就，现有方法仍然面临充分挖掘多模态特征的挑战，这主要体现在以下两个方面：

(1) 多模态对齐会抑制模态独特特征。 现有方法主要关注对齐不同模态之间的语义差异以生成融合的多模态特征[26]、[27]。然而，这一过程是一把双刃剑，虽然有效捕获了模态对齐的特征（即跨模态共享的语义共性，如类别或品牌），但同时也导致了模态独特特征的丢失（即特定于单一模态的非重叠属性，如视觉轮廓或文本中的功能描述）。忽略这些模态独特特征可能导致用户偏好建模偏差，最终降低推荐准确性。如图1所示，当使用基线DiffCL[28]学习的模态对齐特征时，交互物品和推荐物品之间的余弦相似度达到75.3%。然而，Lisa的潜在意图在文本模态中是“fleece”，在视觉模态中是“black”。这些模态独特特征在多模态对齐中被丢弃，导致目标物品和交互物品之间的余弦相似度下降到53.6%，从而导致目标物品的推荐失败。

(2) 缺乏对物品之间跨模态交互的挖掘。 为了建模物品之间的潜在语义关系，一些研究通常使用从模态感知层[20]学习到的低维物品模态特征或通过预训练模型[21]、[24]提取的原始物品模态特征来构建单模态物品-物品亲和图。基于此，物品节点信息通过图卷积网络（GCN）进行传播和聚合，从而揭示隐藏在物品模态特征中的语义关系。然而，这些方法仅限于学习单模态图结构内的模态内部交互，无法捕捉物品之间的跨模态相关性。我们认为，对物品模态特征的全面图学习不应仅限于挖掘单模态物品-物品图中的模态内部交互，还应构建跨模态物品-物品图以同时捕捉模态内部和跨模态交互。因此，如何从现有的单模态物品-物品图开始构建有效的跨模态物品-物品图是一个值得探索的关键问题。

为了解决上述挑战，我们提出了一种新颖的双空间特征表示学习网络（DRNet），用于多模态推荐系统。首先，为了减轻模态独特特征的丢失，我们设计了一个双空间解耦模块。与追求统一对齐的现有方法不同，我们将从预训练模型中提取的原始物品模态特征解耦到模态对齐空间和模态独特空间中，从而有效地捕获共享特征和特定特征，而不会相互干扰。具体来说，我们设计了对齐损失来捕获模态对齐空间中的共享语义，以及独特性损失来保留与模态对齐特征正交的模态独特空间中的特定细节。其次，为了弥合复杂的跨模态交互差距，我们设计了跨模态物品-物品图构建（CGC）策略。鉴于两个解耦空间之间的特征分布差异导致单模态物品-物品图中的交互逻辑不同，我们为每个空间设计了专门的CGC策略。详细来说，在模态对齐空间中，我们使用边连接操作来聚合不同模态之间的物品交互；而在模态独特空间中，我们建立跨模态节点连接来挖掘不同模态之间的相关性。之后，我们对用户-物品交互图进行图卷积操作，利用学习到的物品模态特征和随机初始化的用户表示来提取高阶协作信号。在四个公开可用的数据集上进行的广泛实验表明，DRNet在召回率@和NDCG@

K

方面优于基线方法。

总结来说，本工作的主要贡献如下：

•
我们强调了模态独特特征在多模态推荐系统特征表示学习中的关键作用。为此，我们设计了一个双空间解耦模块，有效捕获了影响用户偏好的模态对齐特征和模态独特特征。
•
为了适应双空间中特征分布的异质性，我们为每种特征设计了专门的CGC策略，构建的跨模态物品-物品图可以同时挖掘物品之间的模态内部和跨模态交互。
•
我们设计了一个MAFF机制，将注意力机制引入表示融合过程，可以动态适应性地整合模态对齐特征和模态独特特征或用户表示。
•
我们在四个公开可用的数据集上进行了广泛实验，验证了我们提出的DRNet的有效性。实验结果表明，DRNet在多模态推荐方面达到了最先进的性能。

本工作的其余部分结构如下。首先，第2节回顾了基于GCN的多模态推荐系统的相关工作。然后，第3节介绍了符号、任务定义和构建单模态物品-物品图的过程。接下来，第4节全面介绍了我们提出的DRNet。之后，第5节描述了数据集、评估指标、基线和实验设置，第6节对实验结果进行了深入分析和讨论。最后，我们在第7节总结了本工作并概述了未来研究的方向。

初步介绍

在介绍我们的模型之前，我们首先介绍了本工作中使用的符号，并定义了多模态推荐任务。随后，我们回顾了之前工作中构建单模态物品-物品亲和图的传统方法。这是构建跨模态物品-物品图的初步知识和基本过程。

方法

在本节中，我们首先在第4.1节介绍了DRNet的总体框架，然后在第4.2节详细描述了其四个关键模块，包括双空间解耦，在第4.3节介绍了跨模态物品-物品图学习，在第4.4节介绍了用户-物品交互图学习，在第4.5节介绍了融合和预测。最后，在第4.6节介绍了DRNet的优化过程并总结了算法。

实验

我们提出了以下六个研究问题来指导实验，以验证我们提出的DRNet的有效性。

–
RQ1：DRNet在多模态推荐任务中的表现是否优于最先进的基线方法？（见第6.1.1节）
–
RQ2：DRNet在训练时间和内存成本方面与基线方法相比效率如何？（见第6.1.2节）
–
RQ3：DRNet中的各个组件如何有助于提高推荐性能？（见第6.2节）
–
RQ4：

结果与讨论

在本节中，我们以表格或图表的形式提供了实验结果，并进行了深入讨论，以回答这六个研究问题。

结论与未来工作

本研究专注于多模态场景下的推荐，并提出了一种双空间特征表示学习网络，称为DRNet。与现有方法相比，DRNet结合了更全面的特征提取和语义挖掘模块，显著增强了多模态推荐中的表示学习能力。具体来说，DRNet将预先提取的物品模态特征映射到双特征表示空间中，将它们解耦为

CRediT作者贡献声明

Yuzhuo Dang：撰写——原始草案、验证、方法论、概念化。Wanyu Chen：项目管理、方法论。Zhiqiang Pan：撰写——审阅与编辑、验证、调查。Xin Zhang：撰写——审阅与编辑、验证、调查。Yuxiao Duan：调查、形式分析、数据管理。Fei Cai：撰写——审阅与编辑、监督、调查。Honghui Chen：监督、资源获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢国防科技大学系统工程学院COSTA：复杂系统优化团队的支持。本工作得到了国家自然科学基金（编号：62302511）、国防科技大学科研项目（编号：ZK22-11）以及国防科技大学自主创新科学基金项目（编号：23-ZZCX-JDZ-43）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号