一个利用联邦学习进行隐私保护推荐的高效框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：A Potent Framework for Privacy-Preserving Recommendations using Federated Learning

【字体：大中小】 时间：2026年05月04日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　M. Robinson Joel | M. Navaneethakrishnan | R. Selvi | E. Munuswamy 计算机科学与工程系，KCG技术学院，泰米尔纳德邦，602117，印度 **摘要** 隐私保护推荐系统旨在提供个性化内容，同时不泄露用

　　M. Robinson Joel | M. Navaneethakrishnan | R. Selvi | E. Munuswamy
计算机科学与工程系，KCG技术学院，泰米尔纳德邦，602117，印度

**摘要**
隐私保护推荐系统旨在提供个性化内容，同时不泄露用户隐私。通过推荐系统收集的个人信息增加了这些信息被不必要的公开的风险。为了解决这个问题，引入了一种基于联邦学习的Shepard卷积神经网络来进行隐私保护推荐。联邦学习（FL）通过一个由客户端节点和中央聚合服务器组成的去中心化架构运行。首先在各个数据集上进行本地训练，然后将学到的参数传输到中央服务器。之后，在服务器上进行模块聚合。然后，使用下载的数据更新全局模型，这个过程对每个时代重复进行。以下步骤概述了训练模块中执行的程序：首先确定累积矩阵的计算；接着使用贝叶斯模糊聚类（BFC）对目录进行分组；这里根据Kumar Hassebrook和Kulczynski相似性度量来匹配查询和组；最后利用Shepard卷积神经网络（ShCNN）提供个性化的网络目录推荐。平均化方案用于优化本地更新和服务器聚合。此外，设计的FL_ShCNN取得了0.907的准确率、0.093的损失函数、0.023的均方误差（MSE）、0.158的均方根误差（RMSE）、0.086的假阳性率（FPR）以及0.926的平均精度（MAP）。

**引言**
联邦学习（FL）是一种新兴的去中心化机器学习范式，它能够在保护用户隐私和数据安全的同时，实现跨分布式数据源的协作模型训练[1]。与传统集中式学习不同，FL允许数据保留在本地设备或节点上，只将模型更新发送到中央服务器，从而最小化敏感数据泄露的风险。FL可以应用于涉及多个移动或边缘设备的跨设备场景，以及涉及多个具有大型数据集的组织之间的跨部门场景。FL的概念由Google在2016年提出，他们最初将其应用于Google键盘，以实现来自各种Android手机的协作训练[2]。FL是一种分配式的去中心化协作机器学习（ML）结构，不会暴露FL成员的未处理数据。实际上，为了防止在集体信息处理过程中敏感信息的泄露[3]，FL还通过DP、HE、MPC等隐私保护方法进行了增强[4]。鉴于FL可以应用于任何边缘设备，它有可能改变医疗保健、智能家居、交通和金融等危险领域。一个重要的例子是，来自世界各地的研究人员和临床从业者合作开发了一个AI流行病引擎，用于通过胸部扫描诊断COVID-19。另一个激励性的应用是在交通网络中，用于调整车辆以实现自动驾驶和规划城市路线。尽管有许多应用，但FL也存在一些缺点。这些缺点通常可以分为两类：与训练相关的挑战和安全挑战。与训练相关的缺点包括多次训练迭代带来的通信开销、参与学习的设备的异构性以及用于调整的数据的异构性[5,6]。

在当今信息过载的时代，推荐系统已成为在各个领域提供个性化建议的重要工具。这些系统严重依赖用户数据，通过分析过去的行径和偏好来预测未来的兴趣和行为。尽管在多个行业中得到了广泛采用和重视，但由于噪声数据或恶意数据的存在，推荐系统面临着重大挑战。最近，在2021年，《卫报》揭露了Facebook上影响25个国家的30多起政治操纵事件。这种被篡改或误导性的数据可能会降低推荐准确性，损害用户体验，并减少商业价值。因此，确保推荐系统的稳健性至关重要，因为它反映了即使在部分数据受损的情况下也能提供可靠和稳定建议的能力[7]。推荐系统广泛用于帮助用户找到他们可能感兴趣的类似物品。这些物品种类繁多：书籍、餐厅、观光地点、电影、网页或在线新闻[8]。传统的推荐系统在智能上是集中的，服务提供商会收集所有用户的偏好和评分，并通过运行学习算法来计算推荐[9,10]。虽然这样的推荐系统对用户和服务提供商都非常有用，但其代价也是高昂的：完全丧失了隐私[11]。尽管推荐过程的好处很重要，但它也对个人隐私构成了威胁。特别是，社交推荐允许单个用户对其他用户的偏好做出适当的推断。虽然这种威胁在传统的、不考虑社交因素的推荐系统中也存在，但社交推荐系统更容易受到隐私攻击，并且便于进行简单但强大的隐私攻击[12]。此外，为了保护个人隐私并免除推荐服务提供商的责任，隐私保护技术可以为社交推荐提供更广泛的贡献，从而让用户“安心”；这对各方来说显然是双赢的[13]。由于用户隐私、数据安全以及GDPR等政府法规的严格规定，隐私保护推荐最近受到了越来越多的关注[14]。FL被认为是一种有效的隐私保护方案，因为它可以在不泄露任何FL贡献者本地未处理数据的情况下，连接数据存储库。因此，推荐系统与FL的整合受到了广泛关注，导致了许多联邦推荐（FedRec）算法的开发[4]。

传统的FedRec算法主要基于协同过滤（CF）[15]开发，后者私下利用用户的通信历史来预测推荐的主要重要项目。基于CF的FedRec表现出可接受的性能；然而，它并未超越传统的CF方法。此外，由于冷启动问题，基于CF的FedRec也存在不足[16]。基于CF的FedRec的缺点促使人们引入了FedNewsRec，这是一种面向内容的联邦推荐模型，它在为新闻推荐量身定制的深度学习框架中使用了FL的FedAvg。尽管如此，其适用范围仍然有限。因此，传统FedRec的缺点激励我们进一步解决冷启动问题和推荐性能问题[4,17]。为了提高框架的隐私性，开发了多种混合技术。然而，不同隐私性的噪声可能会降低准确性。为了消除噪声，Hybrid-One模块结合了DP和MPC，既不牺牲准确性，又减少了通信消息，并且比传统的本地DP产生的噪声更少。然后开发了有效的HybridAlpha，它使用SMC协议实现了功能加密，从而在不牺牲隐私的情况下获得了更高的性能。此外，所描述的算法非常适合FL，因为数据身份不会被存储，需要额外的方案来追溯原始数据[18]。

进行这项研究的主要原因是解决推荐系统中用户隐私的关键问题。现有的推荐方法存在许多局限性。它们通常不使用高质量的分类器[19]，由于耗时过多而效率低下[20]，并且依赖于过于复杂的架构来解决局部最优问题[21]。此外，它们在没有泄露私人信息的情况下不探索FL环境中的学习嵌入[22]，并且缺乏在实时平台上的测试[23]，这限制了结果的泛化能力。所提出的FL_ShCNN有效地解决了这些问题。它将ShCNN与BFC结合，以确保高质量的分类，并通过FL框架内的本地计算减少训练时间。通过优化的架构和基于平均值的聚合，减轻了与局部最优相关的挑战。隐私保护嵌入使得有效学习成为可能，而不会暴露敏感数据，迭代的全局更新确保了实时场景中的适应性和可靠性。因此，FL_ShCNN克服了现有方法的主要缺点，提供了一个可扩展、高效且注重隐私的推荐框架。在这个FL框架中，考虑了两个主要元素：本地节点和中央服务器。首先，每个节点在其本地数据集上进行训练。然后在服务器上聚合结果更新，从而在FL框架内同步多个节点。在服务器上执行数据聚合，接着全局模型分发更新。每个节点根据全局模型更新其本地训练，这个循环在所有时代中持续进行。训练模型中的过程通过后续步骤演示：首先输入网络目录使用文件，然后计算相应的访问者-目录累积矩阵。接下来使用BFC组织目录，并使用Kumar-Hassebrook和Kulczynski相似性度量进行查询-组匹配。最后提取用户偏好的目录，并通过ShCNN提供个性化的网络目录推荐。平均化方案用于优化本地更新和服务器上的聚合。

**提出的FL_ShCNN用于隐私保护推荐**：介绍了一种名为FL_ShCNN的隐私保护推荐新方法。这里，FL_ShCNN是通过结合FL和ShCNN开发的。本文的结构如下：第2节描述了传统模块及其局限性，第3节介绍了提出的方法论和FL_ShCNN框架，第4节详细阐述了结果，第5节总结了研究。

**动机**
数字平台的指数级增长产生了大量用户生成的数据，如果有效利用，这些数据可以显著提高个性化推荐的准确性。然而，这类个人数据的收集和处理引发了严重的隐私问题，因为在传统的集中式推荐系统中，敏感信息可能会被泄露或滥用。因此，在保持高推荐准确性的同时确保隐私是现代数字时代的一个关键挑战。

**提出的方法论**
隐私保护推荐通过增强用户隐私和数据安全而受到关注。FL是最有效的隐私保护方法之一，它能够在保护数据隐私的同时实现数据存储库之间的连接。选择FL是因为它允许在本地用户数据上进行模型训练，而无需共享原始信息，从而在保持隐私的同时仍允许协作学习。与需要将所有用户数据收集到单个服务器中的传统集中式系统不同，

**结果和讨论**
本节描述了开发的FL_ShCNN，并根据多个评估指标对其进行了说明，同时检查了时间步长的变化以展示FL_ShCNN的有效性。

**结论**
个性化推荐系统的主要目标是为用户提供有关多种物品的有用建议。为了创建推荐，需要访问各种类型的用户数据，如之前的产品购买历史、人口统计和生物信息。这里的FL框架包含节点和服务器。首先，通过本地数据进行本地训练。收集的数据随后上传到服务器。之后执行模型聚合和训练。

**CRediT作者贡献声明**
M. Robinson Joel：软件、方法论、概念化。
M. Navaneethakrishnan：写作——审阅与编辑、原始草稿撰写、资源管理、项目协调、数据策划。
R. Selvi：验证、调查、形式分析。
E. Munuswamy：资源管理、数据策划。

**利益冲突声明**
作者声明没有利益冲突。

联系信箱：

粤ICP备09063491号

热点排行