编辑推荐:
提出 FedEGL 边缘服务器辅助联邦图学习方法,通过边缘服务器交换中间层近似节点特征实现跨客户端特征对齐和动态加权聚合,结合自适应差分隐私保护节点隐私,在减少通信延迟的同时提升模型精度至集中式学习水平,分类准确率最高提升8%。
王海涛|罗傲杰|徐文超|王浩钊|李一晨|齐颖宁|张瑞|李瑞轩
华中科技大学网络空间安全学院,武汉,430074,中国
摘要
联邦图学习在处理分布在多个客户端上的图结构数据方面表现出色。然而,图数据的划分导致每个客户端仅拥有一个子图,缺少其邻居节点,这会显著降低准确性。尽管交换原始节点可以解决这个问题,但它需要与远程服务器进行交互,不仅会导致显著的通信延迟,还会泄露数据隐私。为了解决这个问题,本文提出了一种基于边缘服务器的联邦图学习方法,即FedEGL,该方法通过第三方边缘服务器聚合和交换近似节点的中间特征,执行跨客户端特征对齐和动态加权聚合,并通过自适应差分隐私动态分配隐私预算来保护节点隐私。此外,差分隐私被引入以保护近似节点特征的隐私。实验结果表明,我们的方法在准确性上接近集中式设置,与最新的基线相比,分类准确性提高了高达8%。这种方法可以在保护隐私的同时提高模型准确性,为联邦图学习中的子图划分问题提供了有效的解决方案。
引言
联邦图学习(FedGL)[1]使客户端能够在保持图数据去中心化的同时协作训练图神经网络(GNN),从而避免在客户端之间共享敏感信息,并应用于金融系统[2]和医疗分析[3]等广泛的现实世界应用中。在典型的FedGL框架中,每个训练客户端从全局服务器获取模型,使用其本地子图进行训练,然后将更新后的参数发送回服务器进行聚合。这个过程迭代进行,服务器聚合本地模型以更新全局模型。尽管简单,但FedGL中的每个客户端仅拥有一个本地子图,缺少一些重要的客户端间连接。由于GNN学习节点表示的关键组成部分是从邻居节点聚合信息,因此缺乏跨客户端节点信息会大大降低模型准确性。
本文旨在解决那些通过边逻辑连接但在不同客户端上存在的缺失跨客户端节点的问题。实际上,一种直观的解决方法是通过服务器直接交换原始的跨客户端节点。然而,这种方法需要与远程服务器进行交互,不仅会导致由于长通信链路而产生的显著通信延迟,还会泄露图节点的隐私。为了解决这个问题,许多先前的方法提出了生成缺失节点[4]、[5]、[6]、[7]的方法,其主要思想是利用各种生成器在本地生成缺失节点和边,从而提高本地子图的信息完整性。然而,生成的节点与原始节点之间存在本质差异,可能无法完全发挥跨客户端节点的价值,特别是当生成器通常难以训练时。
考虑到上述限制,本文提出了一种基于边缘服务器的联邦图学习方法,即FedEGL,该方法通过第三方边缘服务器聚合和交换中间GNN层输出的近似节点特征,执行跨客户端特征对齐、动态加权聚合和自适应差分隐私预算更新。如图1所示,FedEGL首先随机初始化缺失的跨图节点的特征,即生成近似的跨图节点。然后,它在边缘服务器上不同客户端之间交换这些近似跨图节点的中间特征,并使用这些特征来反馈随机初始化的跨图节点的优化。此外,边缘服务器还会聚合具有相同索引的节点特征。通过这种方式,FedEGL不仅通过近似节点间接交换了缺失节点的信息,还避免了客户端与远程服务器之间的频繁交互,从而实现了数据隐私保护和通信延迟的减少。此外,我们引入了一种自适应差分隐私机制,通过动态分配隐私预算来保护训练过程中跨图节点的特征隐私。
总结来说,这项工作强调了联邦图学习中的三个主要挑战:
•挑战1:缺失的跨图节点。由于客户端之间图数据的分割,跨图节点的关键信息往往不可用,这会对模型性能产生负面影响。
•节点交换的隐私风险。客户端-服务器通信的直接解决方案会暴露敏感的节点信息,导致潜在的隐私违规。
•高通信开销。客户端与主服务器之间的频繁通信会导致过多的带宽消耗,尤其是在处理大型数据集时。
我们的贡献和解决方案如下:
•解决方案1:交换中间GNN层输出的近似节点特征。我们提出通过近似节点在客户端之间交换中间节点特征,这些近似节点作为枢纽来交换实际节点信息,而不是生成的信息。
•使用第三方边缘服务器对近似节点特征应用差分隐私。我们采用的跨图节点是近似的,并且是随机初始化的,而不是原始节点。我们还对近似节点特征应用了自适应差分隐私技术,并进行了动态预算分配。此外,我们使用边缘服务器来交换特征,而中心服务器用于参数交换,从而分离了第三方获取的信息,防止任何聚合器恢复原始数据。
•在边缘服务器中本地聚合节点特征。通过使用通常靠近客户端的边缘服务器来处理近似跨图节点的聚合,我们减少了交互的通信链路长度,同时也减轻了主服务器的通信负担。
在许多数据集和设置上的广泛实验表明,我们提出的方法的有效性,其性能下降与集中式学习范式相当,同时比基线提高了高达8%。
章节片段
图神经网络
图神经网络(GNN)[8],特别是图卷积网络(GCN)[9],是处理图结构数据(节点分类、链接预测)的核心工具。像SGC [10]这样的简化版本使用低通滤波器来平滑邻居特征,这些模型在推荐[11]、自然语言处理[12]和多视图聚类[13]中已被证明是有效的——为联邦图学习奠定了基础。图神经网络
一个具有个个节点和条边的图表示为,其中是节点集,是边集。图中的边表示为一对(u, v),其中u和v是边的端点,表示这两个节点之间的连接。图的结构也可以用邻接矩阵A来表示。对于每个节点,存在一个特征向量,所有节点的特征集表示为。对于每个
FedEGL框架
由于子图的分割,子图之间的边丢失了,导致跨图节点信息的丢失。在本地子图上训练GNN模型可能会降低节点分类的准确性。为了解决这个问题,FedEGL利用边缘服务器交换跨图节点嵌入,以补偿信息丢失。如图2所示,FedEGL包括三个主要组成部分:•主服务器(MS):负责从客户端接收模型并通过
实现
FedEGL框架以及其他联邦GNN方法是在Flower平台[38]上实现的。我们通过集成DGL来增强Flower框架以支持GNN训练。数据集。我们的实验使用了三个广泛使用的图数据集:Ogbn-Arxiv [39]、Reddit [40]和Ogbn-Products [39]。Ogbn-Arxiv是一个计算机科学论文的引用网络,其中定向边表示引用关系。Ogbn-Products是一个来自OGB的无向且无权的图
结论
在本文中,我们提出了一种基于边缘服务器的联邦图学习方法,该方法整合了三种核心机制来应对联邦图学习中的关键挑战:基于边缘服务器的跨客户端特征对齐和动态加权聚合以减轻由于缺失跨图节点导致的准确性损失,随机初始化近似跨图节点作为信息交换的枢纽,以及自适应差分隐私和动态预算分配以保护节点资助
本项工作得到了中国国家重点研发计划(项目编号2024YFC3307900);国家自然科学基金(项目编号62376103、62302184、62436003和62206102);湖北省重大科技项目(项目编号2024BAA008);湖北省科技人才服务项目(项目编号2024DJC-078);以及蚂蚁集团通过CCF-Ant研究基金的资助。CRediT作者贡献声明
王海涛:撰写——原始草稿、项目管理、方法论、概念化。罗傲杰:可视化、验证、软件、数据整理。徐文超:调查、形式分析。王浩钊:撰写——审阅与编辑、资源获取。李一晨:验证、监督、资源。齐颖宁:软件、资源、调查。张瑞:可视化、验证、监督。李瑞轩:撰写——审阅与编辑、资金获取。利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。