《Knowledge-Based Systems》:Beyond Feature Concatenation: Mutual Information-Driven Fusion for Multimodal Sequential Recommendation
编辑推荐:
针对多模态序列推荐中侵入式特征融合易受噪声干扰、交叉注意力计算成本高的问题,提出基于互信息优化的MiFuSR框架,通过图卷积建模用户行为序列,结合MiMax模块渐进式最大化跨模态互信息,MiMin模块最小化同模态互信息以抑制冗余噪声,实现轻量高效的非侵入式融合。在四个真实数据集上的实验验证了其有效性。
朱浩东|杨晨浩|李洪川|孙中川|崔雅娟|刘彦培|朱亮
郑州轻工业大学计算机科学与技术学院,中国河南省郑州市450001
摘要
序列推荐利用历史用户交互来预测未来的偏好,并取得了显著进展。随着物品内容的增长,多模态序列推荐结合了图像和文本等多模态信息,为偏好建模提供了更丰富的信号。然而,当多模态内容存在噪声和冗余时,有效地融合这些异构模态仍然具有挑战性。传统的融合方法(如连接和逐元素相加)会导致特征混合,可能会扭曲模态特定特征并放大跨模态噪声。尽管跨模态注意力机制可以实现非侵入式交互,但通常会引入较大的计算开销。为了解决这些问题,我们提出了MiFuSR,一个基于互信息的多模态序列推荐融合框架。MiFuSR将物品转换图卷积主干与信息论正则化相结合,以实现轻量级的融合。具体来说,MiFuSR在图传播过程中逐层最大化跨模态互信息,从而从浅层表示到深层表示逐步整合互补线索,同时保持模态的唯一性。同时,MiFuSR最小化原始特征与图细化表示之间的模内互信息,抑制冗余和模态特定噪声。这种双重互信息优化实现了推荐中的信息瓶颈原理,无需复杂的跨模态注意力层。在四个真实世界数据集上的广泛实验表明,MiFuSR的表现始终优于现有的最先进多模态序列推荐方法。
引言
随着信息技术的快速发展,用户面临着日益严重的信息过载问题。推荐系统[1]、[2]、[3]通过分析历史行为来过滤个性化内容,以缓解这一问题。同时,移动互联网进一步丰富了物品内容的多模态特性,提供了超出交互行为的补充洞察[4]、[5]。这在电子商务中尤为重要,因为物品的图像和文本往往具有噪声和异构性。如图1(a)所示,现有方法经常难以对齐这种异构语义,并且容易受到跨模态噪声的干扰(例如,图像中的促销水印或文本中的营销短语),导致偏好建模不准确。然而,准确的推荐需要对多模态物品内容有协同的理解。例如,如图1(b)所示,用户可能通过将视觉图案(图像中的复古设计)与功能属性(文本描述中的“棉质面料”)联系起来,从而偏好一件“复古连衣裙”。
有效地融合多模态信号[6]、[7]、[8]对于全面的偏好建模和准确推荐是不可或缺的。一种常见的解决方案是通过连接或逐元素相加[9]将异构特征整合到一个统一的表示空间中,如图2(a)所示。我们称这种侵入式融合为在正向计算中直接混合异构模态特征(例如:
代表性的工作如VBPR[10]、UVCAN[11]和HCGCN[12]采用了这种侵入式融合机制。虽然简单且有时有效,但这些操作可能会扭曲内在特征分布,削弱模态特定线索,并放大跨模态噪声,最终降低推荐系统中的偏好表示质量。
为了减轻侵入式融合的负面影响,跨模态注意力机制[13]、[14]、[15]通过引入显式的跨模态交互操作符来实现非侵入式融合。跨注意力不是直接混合异构原始特征,而是使用另一种模态来计算注意力权重,然后通过加权聚合将跨模态信息注入当前模态。如图2(b)所示,一种模态提供条件信号来生成权重,这些权重用于重新加权并聚合表示,然后通过残差或门控操作将聚合后的上下文融合回当前模态。例如,LUDP[16]使用门控网络动态加权BERT生成的文本和CLIP-ViT图像特征之间的交互。GRCN[17]构建了模态隔离的用户-物品图,并通过注意力加权将它们融合在一起。尽管灵活性有所提高,但这种基于注意力的跨模态交互通常会带来较大的计算开销,对于大规模序列推荐来说尤其具有挑战性。
在这项工作中,我们提出了MiFuSR,一个基于互信息的多模态序列推荐融合框架,它既轻量又符合原理。与通过显式基于权重的聚合注入跨模态信息的跨注意力不同,MiFuSR通过信息论约束实现非侵入式融合,通过最大化互信息来促进跨模态信息传播,并通过最小化模内互信息来抑制模态特定冗余和噪声。MiFuSR整合了三个协同组件。首先,图卷积模块通过聚合物品转换图上的邻域信号来捕捉用户的序列行为。其次,如图2(c)所示,MiMax模块在图卷积层中最大化图像和文本表示之间的跨模态互信息,逐步整合互补语义,同时保持模态的唯一性。第三,MiMin模块最小化原始特征与图细化表示之间的模内互信息,从而在传播过程中过滤与任务无关的冗余和噪声。从信息论的角度来看,MiFuSR实现了推荐中的信息瓶颈原理,保留了跨模态的行为相关共享信息,同时压缩了模态特定噪声,避免了跨模态注意力层的复杂性。
我们注意到,在计算机视觉(CV)和自然语言处理(NLP)的多模态表示学习中已经探索了互信息目标[18]、[19]、[20],其中最大化跨模态互信息主要用于促进模态对齐和共享语义一致性。相比之下,MiFuSR主要利用这一目标进行序列推荐中的多模态信息融合。为此,MiFuSR采用了一种渐进式融合策略,在图卷积传播过程中逐层最大化跨模态互信息,从而从浅层表示到深层表示逐步整合互补线索。这种设计结合了模内互信息最小化以抑制冗余,使互信息优化适用于多模态序列推荐,将物品转换建模与分层多模态融合相结合。
本文的主要贡献总结如下:
•我们指出了侵入式多模态融合在序列推荐中的关键局限性,包括模态扭曲和跨模态噪声传播,并强调了需要非侵入式且高效的融合方法。
•我们提出了MiFuSR,一个基于互信息的多模态序列推荐框架,它将物品转换图卷积与渐进式多模态融合相结合,实现了针对序列交互动态的有效融合。
•我们开发了一个双重互信息目标来支持融合和去噪,其中MiMax通过最大化跨模态互信息来融合互补信息,同时保持模态的唯一性;MiMin通过最小化模内互信息来抑制传播过程中的冗余和模态特定噪声。
部分片段
序列推荐
传统的推荐系统通常以静态方式对用户-物品交互进行建模,因此主要捕捉长期的一般偏好。相比之下,序列推荐将用户行为视为一个动态过程,并利用交互序列中的时间依赖性来推断用户不断变化的兴趣,这更符合现实世界的情况,因为用户偏好和物品受欢迎程度都会随时间变化[21]。
早期的深度序列推荐器通常采用RNN
方法论
如图3所示,我们提出了MiFuSR,一个基于互信息的多模态推荐框架,它结合了具有转换意识的图卷积和信息论正则化。首先,我们从所有用户的行为序列构建了一个物品转换图,以捕捉普遍的转换模式。基于这个图,MiFuSR通过一个层图卷积模块来建模序列偏好。
结论
在这项工作中,我们提出了MiFuSR,一个基于互信息的多模态序列推荐融合框架。MiFuSR通过在物品转换图上进行图传播来建模序列转换模式,同时在传播过程中保持视觉和文本流的分离。为了实现轻量级和非侵入式融合,MiFuSR引入了双重互信息正则化。具体来说,MiMax通过逐层最大化跨模态互信息来实现渐进式融合
CRediT作者贡献声明
朱浩东:验证、监督。
杨晨浩:撰写——原始草稿、软件、方法论。
李洪川:监督、软件、资金获取。
孙中川:撰写——审阅与编辑、撰写——原始草稿、调查、数据整理、概念化、资金获取、监督。
崔雅娟:软件。
刘彦培:软件。
朱亮:软件。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
这项工作得到了中国国家自然科学基金(编号62402454)、河南省科学技术研究项目(编号252102210084)、河南省重点研发专项(编号241111211700)、河南省高等学校重点科研项目(编号24B520040)以及2022年河南省郑州创新创业团队(创新领导团队)项目的支持。