FedG2:通过双图匹配实现跨域联邦图学习
《Pattern Recognition》:FedG2: Cross-Domain Federated Graph Learning via Dual Graph Matching
【字体:
大
中
小
】
时间:2026年03月25日
来源:Pattern Recognition 7.6
编辑推荐:
联邦图学习框架FedG2通过图凝聚技术提取整合拓扑与语义的校准数据,结合双图匹配机制实现特征与输出模式的同步校准,有效缓解数据异质性带来的模型漂移问题。
黄胜|傅乐乐|廖天池|邓博文|张传福|陈传
中山大学系统科学与工程学院,广州,中国
摘要
联邦图学习作为一种有前景的分布式范式,能够在保护参与者数据隐私的同时训练图模型。
尽管近期研究在处理去中心化图场景中的异构数据分布方面取得了一些初步进展,但目前的方法在几个关键方面仍然存在不足。具体来说,它们(1)缺乏能够自然结合拓扑和语义信息的稳定校准参考;(2)未能有效利用结合了语义和拓扑特征来进行联邦模型调整;(3)校准能力有限,导致过高的调整成本和潜在的信息丢失。为了解决这些问题,我们提出了FedG2,一个基于双图匹配的跨领域联邦图学习框架。具体而言,通过图浓缩技术,FedG2直接从客户端数据中提取校准参考,这些参考自然地结合了拓扑和语义信息,而无需依赖于正在训练的模型。FedG2在客户端同时进行特征流形匹配和输出模式匹配,使用聚合的校准参考显著提高了适应准确性。所提出的方法的可扩展参考架构大大增加了校准量,同时降低了调整成本。在两个真实世界数据集上的全面实验表明,FedG2的性能优于现有的最佳基线。
引言
人工智能技术将数据利用提升到了前所未有的水平。然而,随着公众对隐私问题的关注日益增加,确保数据隐私合规性已成为一个关键考虑因素[1]、[2]、[3]。联邦学习作为一种保护隐私的分布式学习范式[4],在利用大量训练数据的同时有效保护了数据隐私[5],因此成为了一个吸引大量研究关注的有前景的技术[6]、[7]。作为一种变革性的分布式学习范式,联邦学习已在多个领域找到了应用[8]。例如,在医疗系统中[9],它使机构能够在保护患者隐私的同时协作训练模型;在环境监测中[10],它促进了来自多个来源的数据整合,而不会集中敏感信息。将联邦学习与优化相结合的入侵检测技术也可以应用于工业物联网(IIoT)环境[11]。然而,联邦环境本质上是一个去中心化的环境,数据在多个地点生成和存储,这经常导致数据的分布发生显著变化,即所谓的非独立同分布(Non-IID)现象[12]、[13]。这个问题经常在联邦系统中的参与设备之间引起客户端漂移[14]、[15]。因此,开发有效的策略来减轻这种不利影响仍然是一个重要且未解决的研究问题[16]、[17]。
已经提出了许多方法来解决这一挑战[18]、[19]。模型更新校准是一种常见的解决方案,它通过在更新过程中交换共享的模型参数[20]、[21]或统一的表示[22]、[23]来对齐客户端之间的优化轨迹。另一种方法是数据重放策略,它从各个客户端学习底层的数据组成模式,并通过重放程序生成近似全局分布的合成数据[24]、[25]。使用这种经过偏差校正的数据训练模型可以有效减轻由数据异构性引起的客户端漂移。尽管这些解决方案在传统数据上展示了有希望的结果,但社交媒体和其他类似领域中图结构数据的出现引入了与传统场景不同的新挑战[26]、[27]。图数据独特地结合了语义特征和拓扑结构[28],而在为传统数据格式设计的算法中很少考虑后者[29]。为了解决这一差距,联邦图学习作为一个综合框架应运而生,它结合了联邦学习的隐私保护优势与图神经网络的拓扑挖掘能力,从而同时保护数据隐私并利用结构关系。
基于图的学习[30]、[31]、[32]和大型语言模型[33]、[34]的最新进展展示了结构化表示与智能系统之间的日益增长的协同作用,这进一步推动了诸如联邦学习这样的强大且保护隐私的框架的发展。与传统数据类型类似,图数据也面临数据异构性的挑战[35]。此外,由于图数据的独特性,还必须解决额外的拓扑异构性问题。已经尝试了几种方法来减轻联邦图学习中的数据分布异构性。例如,一些方法[36]、[37]在不同客户端之间建立图数据的邻接关系,而其他方法则类似于传统数据的解决方案,试图提取全局特征[38]、[39]。然而,现有解决方案往往忽略了关键方面。图数据可能来自不同的领域,如不同国家的社交网络,从而导致领域之间的特征和拓扑变化。因此,在这样的数据上挖掘邻接关系可能会导致由于特征变化而产生的误解,或者错误地创建不存在的边。由于拓扑结构和节点语义特征都是图数据的固有特征,将它们视为独立的实体会损害数据的完整性。关于全局图特征,单一的全局标准对客户端的校准能力有限。此外,将目标模型与全局标准匹配难以同时结合拓扑和语义信息。因此,进一步的研究对于更好地减轻图分布异构性对联邦模型的负面影响至关重要。
本文解决了联邦学习中跨领域图数据的三个关键挑战:(1)校准数据中拓扑和语义信息之间缺乏自然整合;(2)校准信息的维度丰富度不足;(3)难以实现全局校准信息与图特征的双重对齐。为了克服这些挑战,我们提出了一个具有双图匹配(FedG
2)的FGL框架。首先,我们使用图浓缩技术提取自然结合了拓扑和语义信息的客户端图数据,为联邦学习系统提供校准数据。其次,我们通过利用潜在流形空间中的多个顶点的多面体匹配来增强校准信息的容量,从而降低本地训练过程中的调整成本。最后,我们引入了一种双图最优传输机制,该机制结合了语义和拓扑信息,在特征流形和输出模式中进行双重校准匹配,以实现更全面的模型校准。如图1a所示,传统的基于点的校准信息由于校准量不足,无法充分表示联邦系统中的标准空间,导致平均模型调整成本较高。相比之下,所提出的方法具有扩展的校准量,提供了更全面的所需校准空间覆盖,显著降低了调整成本,同时防止了由于大的校准步骤而造成的信息丢失。图1b表明,扩展的校准量显著减少了节点表示与校准目标之间的平均距离,从而大幅降低了模型调整成本。图2展示了我们提出的FedG
2框架的架构。我们的主要贡献可以总结如下:
•使用图浓缩技术从每个客户端提取高量的拓扑和语义校准信息,为图数据提供自然的校准形式,同时最小化模型调整成本。
•引入了双图流形匹配策略,以实现特征流形和输出模式之间的最佳校准对齐,从而减少由于过度对齐传输成本导致的信息丢失。
•为了验证FedG2
的有效性,我们在不同的数据集和实验设置中进行了广泛的实验。与现有的联邦图学习方法相比,FedG2能够在分布式图数据上构建有效的联邦模型。章节片段
联邦学习
作为分布式环境中的隐私保护学习范式,联邦学习经常面临数据异构性带来的挑战。作为联邦学习的先驱,FedAvg [40]展示了这一范式的强大潜力。然而,在处理异构数据时,它难以保持稳定的性能[41]。许多研究试图解决这个问题[42]、[43]。一些方法[44]、[45]建议使用跨客户端校准信息
方法论
本节详细介绍了所提出的跨领域联邦图学习框架,包括每种采用技术背后的具体动机。
数据集和方法论
为了验证所提出的FedG2框架,我们在两个真实世界数据集Twitch和Facebook100上进行了实验。对于这两个数据集,我们使用Louvain算法将单域图数据分配到不同的客户端,模拟了更多样化的数据分布场景。从Facebook100数据集中,我们抽取10%的节点作为训练数据,同时保留完整的原始数据作为测试数据,从而构建了Facebook100-lite数据集。关于数据集的更多详细信息
结论
本文提出了一种基于双图匹配的新型联邦图学习方法。通过直接从客户端数据中提取校准信息,而不依赖于正在训练的模型,FedG2为联邦训练提供了自然整合的拓扑和语义校准数据。双图匹配策略通过特征级和模式级的校准促进了对齐,从而充分利用了可用的校准信息。该方法的灵活性
CRediT作者贡献声明
黄胜:撰写——原始草稿、方法论、调查、形式分析、数据整理、概念化。傅乐乐:撰写——审阅与编辑。廖天池:撰写——审阅与编辑。邓博文:撰写——审阅与编辑。张传福:监督、资金获取。陈传:监督、项目管理、资金获取。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
该研究得到了中国国家重点研发计划(2023YFB27 03700)和中国国家自然科学基金(62176269)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号