在大数据时代,推荐系统显著缓解了互联网上的信息过载问题(Aljukhadar, Senecal, Daoust, 2010; Aljukhadar, Senecal, Daoust, 2012)。推荐的基本理念是将用户偏好与他们可能感兴趣的物品匹配。出于隐私考虑,用户和物品仅配备了唯一的标识符。典型的推荐算法是对它们进行编码以进行用户-物品匹配,而编码过程基于用户和物品之间的历史交互记录。这种解决方案通常被称为隐式协同过滤(ICF)(Hu, Koren, & Volinsky, 2008; Najafabadi & Mahrin, 2016)。ICF任务分析用户的网络行为数据(如浏览历史和点击率),以推断用户偏好并据此推荐内容或产品。这些系统与网络密切相关,因为它们提供了丰富的用户交互数据,是训练和应用推荐算法的主要平台。
在ICF任务中,主流的解决方案可以采用双塔模型(Huang et al., 2013; Mao et al., 2021; Su et al., 2023; Yang et al., 2020)。双塔模型的输入包括用户-物品交互矩阵以及它们随机初始化的嵌入;输出是用户和物品的表示,用于相似性计算和个性化推荐。之所以称为“双塔”,是因为它由两个并行且独立的编码器组成:用户编码器和物品编码器。为了提高对比学习的效果(Chen, Kornblith, Norouzi, & Hinton, 2020; Chuang, Robinson, Lin, Torralba, & Jegelka, 2020; Khosla et al., 2020; Song & Ermon, 2020),最近的双塔模型经常使用负采样和对比损失通过反向传播来训练这两个编码器。
当前的研究工作致力于设计双塔模型的高级组件:包括用户和物品编码器(Chae, Kang, Kim, & Lee, 2018; Dang & Ngo, 2020; Doddapaneni, Sayana, Jash, Sodhi, & Kuzmin, 2024; He et al., 2017; Jiang, Huang, & Huang, 2023; Li, Ren, & Deng, 2022; Liang, Krishnan, Hoffman, & Jebara, 2018; Liu, Liu, Chen, Du, & Yang, 2024; Wang, He, Wang, Feng, & Chua, 2019; Xiangnan et al., 2020)、负采样算法(Chen et al., 2023a; Chen, Sun, Shi, & Hong, 2017; Chen et al., 2023b; Hsieh et al., 2017; Liu & Wang, 2023; Rendle, Freudenthaler, Gantner, & Schmidt-Thieme, 2009; Tran, Hennequin, Royo-Letelier, & Moussallam, 2019; Wang et al., 2024; Yau, Wai, Raman, Sarkar, & Hong, 2024; Zhang, Chen, Wang, & Yu, 2013)以及对比损失函数(Bao, Xu, Yang, Cao, & Huang, 2022a; Bao et al., 2022b; Chuang et al., 2020; Hsieh et al., 2017; Lee, Kang, Ju, Park, & Yu, 2021; Li et al., 2020; Lin et al., 2024; Robinson, Chuang, Sra, & Jegelka, 2020; Wei, Ma, & Chow, 2023)。例如,NGCF(Wang et al., 2019)引入了图神经网络,递归地传播和聚合来自用户和物品交互的协同信号,以提高编码器的能力。DNS(Zhang et al., 2013)将模型评分矩阵映射到负采样过程中的采样概率。DCL(Chuang et al., 2020)修改了InfoNCE损失函数,以纠正由于假阴性造成的某些偏差。
本文关注双塔模型的编码范式。让我们仔细看看这两个编码器。一个观察结果是,它们的工作机制通常是独立地对个体用户和物品进行编码,而在编码过程之前忽略了用户和物品之间的一些潜在但有趣的关系。实际上,相似的实体往往会形成自然的群体。用户可以根据他们的档案被划分为几个群体;物品也可以根据它们的属性被划分为几个群体。尽管在ICF任务中用户档案和物品属性并不明确提供,但在双塔模型的编码过程中可能会出现有价值的模式。
我们认为,双塔模型的输出,即用户和物品的表示,可能包含一些有益的属性,可以用来挖掘用户和物品之间的有趣关联。特别是,我们认为具有相似档案的用户在嵌入空间中的表示往往彼此接近。同样的情况也适用于物品。这种现象反映了行为模式中的同质性原则。我们进一步认为,实际上具有相似档案的用户可能会对某些特定类型的物品有共同的兴趣,这可以被利用来提高用户和物品匹配的准确性。这些论点引出了一个直接的见解:如何将用户和物品聚类成群体,并利用这些群体信息来提高推荐效果。
受上述考虑的启发,本文研究了如何在模型训练阶段的编码过程中探索和利用潜在的群体信息。由于用户和物品的嵌入是随机初始化的,我们建议在经过一些训练周期后对它们的嵌入进行聚类。更重要的是如何利用潜在的群体信息。在本文中,我们建议在训练过程中将群体嵌入融合到用户/物品的嵌入中。首先,我们使用平均池化从成员的嵌入中获得一个群体嵌入。然后,每个用户/物品都与一个群体嵌入相关联。对于每个用户,我们提取他历史上交互过的物品。我们提出了一种基于流行度的加权方法,对这些物品的群体嵌入进行加权平均,以获得他的交互物品群体(IIG)嵌入。然后我们将用户嵌入与其IIG嵌入融合。对于每个物品,我们提取与其交互过的用户。然后我们使用基于流行度的加权方法对这些用户的群体嵌入进行加权平均,以获得其交互用户群体(IUG)嵌入。然后我们将物品嵌入与其IUG嵌入融合。我们将上述过程称为LG2CF,即从潜在群体信息到隐式协同过滤的简化版本。
我们注意到,我们的LG2CF可以被视为双塔模型中编码器组件的一个插件模块,因为它不改变原始的用户/物品编码器,而是对其进行了补充。我们在四个公共数据集上使用典型的双塔模型对我们的LG2CF进行了实验。结果表明,包含我们的LG2CF模块可以显著提高双塔模型的推荐性能。