关于探索和利用潜在群体信息以改进隐性协同过滤

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月12日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文提出LG2CF模块，通过聚类用户/物品的中间嵌入学习潜在群组信息，并在训练过程中融合群组嵌入到个体嵌入中，有效提升隐式协同过滤推荐性能。

陈二佳|王邦

中国武汉华中科技大学

摘要

隐式协同过滤（ICF）基于历史交互记录对用户和物品进行编码，以实现个性化推荐。然而，现有的方法主要关注个体用户/物品的表示，忽略了潜在的群体信息。实际上，如果用户/物品的档案/属性可用，它们通常可以被划分为不同的群体。这些群体信息有助于提高推荐效果，但问题在于ICF任务中并没有明确提供这些信息。为了解决这一不足，我们提出了LG2CF，这是一个即插即用的模块，用于探索和利用潜在的群体信息来改进ICF的编码过程。

在训练过程中，LG2CF首先对中间用户/物品嵌入（来自双塔模型）进行聚类，以学习潜在的群体嵌入。对于每个用户，它将与其交互过的物品的群体嵌入融合到其个人嵌入中；对于每个物品，它将与其交互过的用户的群体嵌入融合。这种聚类-融合过程与ICF训练交错进行，以细化用户/物品的表示。在公共数据集上的实验表明，LG2CF显著提高了现有双塔模型的性能，验证了利用潜在群体信息在ICF中的价值。

引言

在大数据时代，推荐系统显著缓解了互联网上的信息过载问题（Aljukhadar, Senecal, Daoust, 2010; Aljukhadar, Senecal, Daoust, 2012）。推荐的基本理念是将用户偏好与他们可能感兴趣的物品匹配。出于隐私考虑，用户和物品仅配备了唯一的标识符。典型的推荐算法是对它们进行编码以进行用户-物品匹配，而编码过程基于用户和物品之间的历史交互记录。这种解决方案通常被称为隐式协同过滤（ICF）（Hu, Koren, & Volinsky, 2008; Najafabadi & Mahrin, 2016）。ICF任务分析用户的网络行为数据（如浏览历史和点击率），以推断用户偏好并据此推荐内容或产品。这些系统与网络密切相关，因为它们提供了丰富的用户交互数据，是训练和应用推荐算法的主要平台。

在ICF任务中，主流的解决方案可以采用双塔模型（Huang et al., 2013; Mao et al., 2021; Su et al., 2023; Yang et al., 2020）。双塔模型的输入包括用户-物品交互矩阵以及它们随机初始化的嵌入；输出是用户和物品的表示，用于相似性计算和个性化推荐。之所以称为“双塔”，是因为它由两个并行且独立的编码器组成：用户编码器和物品编码器。为了提高对比学习的效果（Chen, Kornblith, Norouzi, & Hinton, 2020; Chuang, Robinson, Lin, Torralba, & Jegelka, 2020; Khosla et al., 2020; Song & Ermon, 2020），最近的双塔模型经常使用负采样和对比损失通过反向传播来训练这两个编码器。

当前的研究工作致力于设计双塔模型的高级组件：包括用户和物品编码器（Chae, Kang, Kim, & Lee, 2018; Dang & Ngo, 2020; Doddapaneni, Sayana, Jash, Sodhi, & Kuzmin, 2024; He et al., 2017; Jiang, Huang, & Huang, 2023; Li, Ren, & Deng, 2022; Liang, Krishnan, Hoffman, & Jebara, 2018; Liu, Liu, Chen, Du, & Yang, 2024; Wang, He, Wang, Feng, & Chua, 2019; Xiangnan et al., 2020）、负采样算法（Chen et al., 2023a; Chen, Sun, Shi, & Hong, 2017; Chen et al., 2023b; Hsieh et al., 2017; Liu & Wang, 2023; Rendle, Freudenthaler, Gantner, & Schmidt-Thieme, 2009; Tran, Hennequin, Royo-Letelier, & Moussallam, 2019; Wang et al., 2024; Yau, Wai, Raman, Sarkar, & Hong, 2024; Zhang, Chen, Wang, & Yu, 2013）以及对比损失函数（Bao, Xu, Yang, Cao, & Huang, 2022a; Bao et al., 2022b; Chuang et al., 2020; Hsieh et al., 2017; Lee, Kang, Ju, Park, & Yu, 2021; Li et al., 2020; Lin et al., 2024; Robinson, Chuang, Sra, & Jegelka, 2020; Wei, Ma, & Chow, 2023）。例如，NGCF（Wang et al., 2019）引入了图神经网络，递归地传播和聚合来自用户和物品交互的协同信号，以提高编码器的能力。DNS（Zhang et al., 2013）将模型评分矩阵映射到负采样过程中的采样概率。DCL（Chuang et al., 2020）修改了InfoNCE损失函数，以纠正由于假阴性造成的某些偏差。

本文关注双塔模型的编码范式。让我们仔细看看这两个编码器。一个观察结果是，它们的工作机制通常是独立地对个体用户和物品进行编码，而在编码过程之前忽略了用户和物品之间的一些潜在但有趣的关系。实际上，相似的实体往往会形成自然的群体。用户可以根据他们的档案被划分为几个群体；物品也可以根据它们的属性被划分为几个群体。尽管在ICF任务中用户档案和物品属性并不明确提供，但在双塔模型的编码过程中可能会出现有价值的模式。

我们认为，双塔模型的输出，即用户和物品的表示，可能包含一些有益的属性，可以用来挖掘用户和物品之间的有趣关联。特别是，我们认为具有相似档案的用户在嵌入空间中的表示往往彼此接近。同样的情况也适用于物品。这种现象反映了行为模式中的同质性原则。我们进一步认为，实际上具有相似档案的用户可能会对某些特定类型的物品有共同的兴趣，这可以被利用来提高用户和物品匹配的准确性。这些论点引出了一个直接的见解：如何将用户和物品聚类成群体，并利用这些群体信息来提高推荐效果。

受上述考虑的启发，本文研究了如何在模型训练阶段的编码过程中探索和利用潜在的群体信息。由于用户和物品的嵌入是随机初始化的，我们建议在经过一些训练周期后对它们的嵌入进行聚类。更重要的是如何利用潜在的群体信息。在本文中，我们建议在训练过程中将群体嵌入融合到用户/物品的嵌入中。首先，我们使用平均池化从成员的嵌入中获得一个群体嵌入。然后，每个用户/物品都与一个群体嵌入相关联。对于每个用户，我们提取他历史上交互过的物品。我们提出了一种基于流行度的加权方法，对这些物品的群体嵌入进行加权平均，以获得他的交互物品群体（IIG）嵌入。然后我们将用户嵌入与其IIG嵌入融合。对于每个物品，我们提取与其交互过的用户。然后我们使用基于流行度的加权方法对这些用户的群体嵌入进行加权平均，以获得其交互用户群体（IUG）嵌入。然后我们将物品嵌入与其IUG嵌入融合。我们将上述过程称为LG2CF，即从潜在群体信息到隐式协同过滤的简化版本。

我们注意到，我们的LG2CF可以被视为双塔模型中编码器组件的一个插件模块，因为它不改变原始的用户/物品编码器，而是对其进行了补充。我们在四个公共数据集上使用典型的双塔模型对我们的LG2CF进行了实验。结果表明，包含我们的LG2CF模块可以显著提高双塔模型的推荐性能。

部分片段

隐式协同过滤

ICF任务是根据用户和物品的历史交互记录，将它们的标识符编码为低维实值向量。双塔模型在ICF训练过程中被广泛采用，它包括三个主要模块：用户和物品编码、负采样和损失计算。图1展示了一个典型的双塔模型，其中我们的LG2CF解决方案可以被视为一个插件模块。接下来我们简要回顾这三个模块的相关工作，并介绍我们的

提出的LG2CF模块

在本节中，我们首先简要概述了ICF任务的双塔模型及其符号表示。接下来，我们介绍如何探索潜在的用户和物品群体，以及如何利用潜在的群体信息来更新用户和物品的嵌入。

实验设置

数据集：我们在四个广泛使用的公共数据集上进行实验，包括MovieLens-100k(100k)、MovieLens-1M(1M)^1、Gowalla^2和Yelp2018^3。我们注意到这些数据集的历史交互记录较为稀疏，尤其是Gowalla和Yelp2018。表1提供了这四个数据集的统计信息。我们随机选择了80%的历史记录

讨论

虽然LG2CF模块在隐式协同过滤（ICF）性能上显示出有效的改进，但重要的是要认识到其设计中存在的固有权衡，这为进一步优化提供了机会。

首先，通过DBSCAN聚类进行潜在群体探索会引入非平凡的计算开销。如复杂性分析（第3.3节）所述，聚类步骤占据了LG2CF总计算成本的很大一部分，主要是由于基于密度的搜索

结论

本文研究了探索和利用潜在群体信息以提高隐式协同过滤推荐性能的潜力。为了其适用性，我们设计了LG2CF模块来补充双塔模型。LG2CF模块根据用户的嵌入将用户和物品聚类为潜在群体，并学习一种群体嵌入。对于每个用户，它将用户交互过的物品的群体嵌入融合到他自己的嵌入中；而对于每个

CRediT作者贡献声明

陈二佳：概念化、方法论、软件、数据整理、验证、写作——原始草稿。王邦：可视化、调查、监督、写作——原始草稿、写作——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言