《Expert Systems with Applications》:FEDGE: Privacy-Preserving Heterogeneous Graph Neural Network Based on Federated Graph Enhancement
编辑推荐:
隐私保护联邦异构图学习框架FEDGE提出伪节点生成机制与自适应参数聚合策略,解决跨客户端元路径中断和结构差异问题,实验验证其性能优于现有方法。
孙伟青|马宝金|谢立勋|赵晓虎
中国矿业大学互联网应用技术国家级与地方联合工程实验室,徐州,221008,中国
摘要
随着异构图(HGs)在现实世界场景中的广泛应用,如社交推荐、知识图谱和学术网络,异构图神经网络(HGNNs)已成为学术界的研究热点。然而,大多数现有的HGNN方法通常依赖于集中式训练范式。由于隐私法规(例如GDPR)的限制,现实世界应用中的数据往往以分布式方式存储。联邦学习(FL)提供了一种可行的解决方案,可以在不直接共享原始数据的情况下实现多个客户端之间的协作训练。然而,现有的联邦图学习(FGL)研究主要集中在同构图任务上,在处理具有更复杂结构和语义的异构图时仍面临以下挑战:(1)客户端子图之间的元路径断裂;(2)在全局参数聚合过程中难以有效适应客户端子图之间的结构差异。为了解决这些问题,我们提出了一种基于联邦图增强(FEDGE)的隐私保护异构图神经网络。具体来说,我们设计了一种基于关系感知的伪节点生成机制,该机制通过元路径引导策略在本地生成伪邻居节点,并构建伪元路径上传到服务器。然后,我们使用一种隐私保护的联邦图增强机制来有效恢复客户端之间的缺失信息,而不会泄露原始数据。同时,我们提出了一种由联邦聚类因素引导的自适应参数聚合策略,在全局参数更新期间为每个客户端分配权重。最后,在三个数据集上进行的广泛实验表明,FEDGE的性能优于现有的主流基线方法,充分证明了这项工作的有效性。
引言
目前,大多数异构图表示学习方法都是建立在集中式数据存储的假设之上。如图1(a)所示。在这种设置下,异构图的整体结构是完全可观察的,节点及其跨类型邻接关系可以完全访问,使模型能够直接捕捉多跳和多类型节点之间的潜在语义关联(Kong等人,2024年)。然而,这种集中式计算范式在现实世界场景中往往不切实际。实际上,异构图数据通常来自多个分布式数据源,如不同的组织、平台或终端设备。由于隐私保护、安全合规性等因素的限制,参与者通常无法共享原始图结构或节点特征(Xie、Xiong和Yang,2023年;Yan等人,2024年)。这一挑战在金融、医疗和教育等敏感领域尤为关键,因为这些领域的数据通常涉及用户隐私或核心业务信息。集中式存储和处理不仅存在严重的数据泄露风险,还可能违反日益严格的数据保护法规,如通用数据保护条例(GDPR)。因此,传统的集中式异构图学习方法在这些场景中面临重大挑战。
为了解决上述挑战,联邦学习(FL)作为一种新的分布式学习框架应运而生,为隐私敏感场景下的图表示学习提供了有效的解决方案(Chang和Shokri,2023年;McMahhan、Moore、Ramage、Hampson和Arcas,2017年)。FL允许所有参与者在不共享本地原始数据的情况下实现跨方协作训练,从而提高模型的泛化能力,同时确保数据隐私(Li、Diao、Chen和He,2022年;Zhang、Shao、Wu、Yang和Zhang,2025年)。具体来说,如图1(b)所示,每个参与者使用本地子图进行训练,仅将模型参数或嵌入向量上传到中央服务器进行融合,有效保护数据隐私。在此基础上,联邦异构图学习(FHGL)进一步将HGNN与FL结合起来,解决多个参与者持有异构子图数据的联合建模问题。FHGL框架允许每个客户端根据本地持有的异构子图数据独立训练模型,并通过联邦机制将本地模型参数聚合到中央服务器,无需交换图中原始节点或边的属性信息(Fu和King,2023年;Xie等人,2023年)。FHGL特别适合具有分布式异构图数据的实际应用场景(Li、Li、Li、Yang和Weng,2025b)。例如,在医疗领域,不同的医院或医疗机构通常分别持有患者的医疗记录、诊断和治疗记录,这使得共享患者隐私信息变得困难。借助FHGL框架,所有参与者可以协作训练模型,而不暴露本地数据,从而提高疾病预测和治疗计划推荐等模型的性能(Ghilea和Rekik,2023年)。
然而,尽管近年来在联邦图学习研究方面取得了令人兴奋的进展,遗憾的是,大多数现有研究仍然集中在结构相对简单的同构图场景上,对于结构复杂的异构图场景还需要进一步研究[8]。异构图(HGs)包含各种类型的节点和边,其中包含更丰富和多样的语义信息(Sun、Cheng和Zhao,2025年)。这使得使用简单的一跳邻居聚合方法难以覆盖高阶语义依赖性,迫切需要使用更复杂的策略(如元路径)来有效探索深层语义(Zhang、Xu、Zhang、Zhao、Chen、He、Cui,2024a;Zhang、Wu、Liu、Zhou、Cao、Xu、Cui、Miao,2024b)。更重要的是,由于数据隐私和法律合规性等因素,异构图数据通常分散在不同的机构中,客户终端图之间缺乏直接连接,导致全局结构信息碎片化(Yan等人,2024年)。图2显示了一个“作者-论文-主题”的异构学术协作网络,其中客户端之间的边连接被切断。从图中可以看出,由于两个机构之间缺乏跨客户端边连接,客户端1中的节点A2无法通过元路径“A2-P4-S2-P5-A4”与客户端2中的节点A4建立高阶语义关联,这使得模型难以完全学习节点A2的潜在表示。由此可见,与仅包含本地信息的元路径相比,包含全局语义的元路径在提高节点表示质量方面起着更重要的作用。因此,在隐私约束下如何恢复不同客户端之间的缺失边连接是FHGL中亟需解决的关键问题。
此外,传统的FL框架在聚合阶段通常采用简单的平均聚合策略(如FedAvg(McMahhan等人,2017年)),该策略假设每个客户端持有的数据是同质的,并且对全局模型的贡献相同。然而,在FHGL场景中,这一假设显然难以成立。这是因为不同客户端持有的图结构存在显著差异,使用平均聚合无法有效识别和区分客户端侧本地模型的重要性,这可能导致聚合过程中关键结构信息的削弱(Tang,2024年)。特别需要注意的是,某些客户端的数据质量可能较低或图结构较为稀疏(Zhou等人,2025年)。如果它们直接参与平均聚合,可能会将不必要的噪声引入全局模型,导致模型性能下降。因此,如何在服务器端自适应地聚合模型参数也是一个需要解决的挑战。
为了解决上述挑战,我们提出了一种基于联邦图增强(FEDGE)的新的隐私保护异构图神经网络框架。该框架设计了一种基于关系感知的自注意力的伪节点扩展机制,然后将生成的伪节点连接起来形成新的伪元路径实例。这些伪元路径在服务器端融合,以补偿由于客户端之间的隐私限制导致的拓扑信息碎片化问题,从而实现跨子图信息的有效传输。总体而言,我们的主要贡献体现在以下三个方面:
•为了解决联邦环境中由于数据隔离导致的跨客户端元路径碎片化问题,我们提出了一种基于关系感知的自注意力的伪节点扩展机制。该机制在客户端侧本地生成语义一致的伪邻居节点,并构建伪元路径上传到服务器,以协助全局信息恢复。同时,我们提出了一种自适应阈值计算方法,使服务器能够有效地对客户端之间的语义相似伪节点进行聚类和融合,从而提高跨客户端结构重建的准确性。
•我们提出了一种由联邦聚类因素引导的自适应参数聚合策略,以解决不同客户端持有的图结构存在显著差异的问题。该策略通过基于元路径的联邦聚类因素来表征客户端侧本地子图的结构紧凑度,允许服务器根据这一因素调整每个客户端在全球模型参数聚合过程中的贡献权重,从而更好地增强全局模型对异构结构差异的泛化能力。
•我们在多个真实世界数据集上进行了广泛的实验,结果表明,我们提出的方法在性能方面优于现有的最先进技术,充分证明了该方法不仅实现了隐私保护,而且性能优异。
本文的其余部分组织如下。第2节回顾了相关工作。第3节介绍了一些重要概念。第4节详细介绍了FEDGE算法。第5节通过广泛实验评估了FEDGE的有效性。最后,第6节总结了我们的研究工作。
相关工作
相关工作
在本节中,我们从三个维度回顾了与本研究相关的代表性工作:异构图神经网络、联邦学习和联邦图学习。
初步
在本节中,我们定义了本研究中涉及的一些基本概念,这些概念为后续的方法描述提供了统一的表达系统。
定义1:异构图。
异构图是一种包含不同类型节点和边的图结构。形式上,它可以表示为, 其中V表示节点集,E表示边集。此外,?: V→A是节点类型映射函数,它将每个节点映射到节点类型集A中的特定类型。类似地,ψ: E
提出的方法
在本节中,我们首先详细阐述了FEDGE的总体框架。随后,我们介绍了其核心组件:(1)基于关系感知的自注意力的伪节点扩展机制;(2)隐私保护的联邦图增强;(3)本地模型训练;(4)由联邦聚类因素引导的自适应参数聚合策略。
仿真实验
在本节中,我们对提出的FEDGE框架在多个真实世界数据集上进行了实验评估,并将其与现有的代表性方法进行了比较,以验证我们研究的有效性和优势。具体来说,本节旨在通过实验回答以下关键研究问题(RQs):
•RQ1:提出的FEDGE在整体性能上是否优于现有的基线方法?(第5.2节)
•FEDGE中的关键组件有多有效?(第
结论
本研究提出了一种基于联邦图增强(FEDGE)的隐私保护异构图神经网络框架,为在严格隐私约束下实现高效的FHGL提供了实用且可行的解决方案。具体来说,我们开发了一种基于关系感知的伪节点扩展机制,该机制在客户端侧根据元路径引导生成伪邻居节点,并构建相应的伪元路径上传到中央
CRediT作者贡献声明
孙伟青:概念化、方法论、软件、验证、调查、资源管理、数据整理、写作——原始草稿、写作——审阅与编辑、可视化。马宝金:软件、数据整理、项目管理。谢立勋:验证、形式分析、监督。赵晓虎:概念化、形式分析、调查、资源管理、可视化、监督、项目管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争财务利益或个人关系。