FedPDM:一种结合隐私保护扩散模型的增强型联邦学习方法

《Knowledge-Based Systems》:FedPDM: Representation Enhanced Federated Learning with Privacy Preserving Diffusion Models

【字体: 时间:2026年02月04日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出FedPDM,一种基于隐私保护扩散模型的半参数共享联邦学习框架,解决了现有方法在代表性鲁棒性、特征不一致和生成器信息泄露问题。通过引入特征级惩罚项和两阶段知识蒸馏聚合策略,有效缓解模型漂移并降低信息泄露风险,理论收敛速度为O(1/T)。实验表明,相比基线方法,FedPDM平均准确率提升1.78%-5.56%。

  
郭伟|庄福珍|童一琦|张晓|胡兆军|赵洁洁|董金
北京航空航天大学人工智能学院,中国北京100191

摘要

大多数现有的半参数共享联邦学习(FL)框架利用生成模型与服务器实现部分参数共享,这有效地增强了每个客户端的数据隐私。然而,这些生成模型往往由于表示鲁棒性差而导致模型效用下降。同时,在非独立同分布(non-IID)场景下,本地模型和全局模型之间的表示不一致性加剧了客户端漂移问题。此外,现有的半参数共享FL框架忽略了与生成器共享相关的表示泄露风险,同时未能平衡隐私和效用。为了缓解这些挑战,我们提出了FedPDM,这是一个基于隐私保护扩散模型(PDM)的半参数共享FL框架。具体来说,我们提出的PDM能够在不直接暴露隐私提取器的条件下,使模型与提取器的特征对齐,有效减轻了由于表示鲁棒性差导致的效用下降。此外,我们在PDM的优化目标中引入了特征级惩罚项以避免表示泄露。我们进一步设计了一种两阶段聚合策略,通过高斯约束进行初始化校正来解决表示不一致性问题。最后,我们提供了半参数共享FL的首个理论收敛性分析,证明了我们的框架以O(1/T)的速率收敛。在四个数据集上的广泛实验表明,与各种最先进的基线方法相比,FedPDM的平均准确率提高了1.78%至5.56%。

引言

联邦学习(FL)[1],[2]是一种有前景的分布式学习范式,为解决数据隔离问题[3]提供了新的解决方案。FL的主要思想是通过在分布式客户端和服务器之间传输和聚合模型来协作学习一个集中式模型。由于在本地保留私有数据,FL相比传统的集中式学习范式具有减少网络带宽的优势,已成功应用于计算机视觉[4]、智慧城市[5]、医疗保健[6]和推荐系统[7]等多个领域。
目前,一些研究表明,共享提取器参数使FL方法容易受到基于梯度的隐私攻击[8],[9],[10],例如梯度泄露(DLG)攻击[11]和梯度反转攻击[12]。为了增强数据隐私保护,在早期阶段,差分隐私(DP)[13]和同态加密(HE)[14]是最流行的加密技术,它们可以通过加密或扰动本地模型参数来提供高质量的隐私保护能力。然而,这些方法会导致巨大的计算成本或不可忽视的模型效用下降。
为了解决上述限制,人们提出了各种改进隐私保护性能的方法,这些方法侧重于仅共享本地网络的部分参数,而不是提供全部参数,例如FedSplit [15]、FedGen [16]、FedCG [17]和FedCP [18]。它们侧重于引入生成模型来扩展共享知识,同时不暴露客户端特征提取器的参数。例如,通过利用生成对抗网络(GANs)[19]的判别器,共享的生成器可以通过对抗训练来结合客户端隐藏提取器的知识。然而,由于私有模型没有参与FL,服务器无法完全聚合客户端的共享知识,因此在模型效用方面,这些半参数共享FL方法与全参数共享FL方法之间仍然存在差距。
如图1所示,我们注意到基于生成器的现有半参数共享FL框架仍然存在几个挑战:(1)表示鲁棒性差。对抗生成模型中的模式崩溃[20],[21]导致生成器过度拟合本地数据特征,从而限制了样本多样性。同时,在数据异构性场景下,聚合的全局模型无法跨客户端分布进行泛化。(2)表示不一致性。本地对抗生成器生成的特征分布与全局生成器的特征分布不一致,这会加剧聚合过程中的模型漂移[22]。(3)表示泄露。尽管基于生成器的半参数共享策略增强了客户端数据的隐私,但它忽略了共享生成器所带来的表示泄露。本地生成器泄露的表示可能会导致客户端数据的进一步披露。
基于此,我们提出了一种基于隐私保护扩散模型的新型联邦学习框架,即FedPDM,以在模型效用和隐私方面促进半参数共享FL。FedPDM首先结合了隐私保护扩散模型(PDM)来与提取器的特征提取对齐,避免了私有提取器的直接参数共享,并以迭代训练的方式减轻了表示鲁棒性差的问题。此外,为了在降低泄露风险的同时平衡隐私和效用,我们引入了特征级惩罚项来调节生成器输出。最后,我们提出了一种带有高斯约束的两阶段聚合策略用于知识蒸馏(KD)。这种方法利用KD和校准的初始化来聚合本地生成器和分类器的知识。它有效地减轻了表示不一致性,而无需访问任何公共数据。总之,我们的贡献总结如下:
  • 通过学习在训练私有数据结构中逐步扰动的前向过程,我们提出的FedPDM实现了与本地私有提取器相当的表现能力,减少了现有半参数共享FL框架中的表示鲁棒性问题。这种方法通过使用扩散模型来传递知识,消除了提取器直接与私有数据交互的需要。
  • 与仅关注减少共享参数以实现隐私保护的现有半参数共享FL框架不同,我们提出的FedPDM同时考虑了模型隐私和效用之间的平衡。通过在PDM的优化目标中引入特征级扰动,我们减轻了共享生成器中特征泄露的风险,并增强了模型的表示鲁棒性。
  • 为了解决本地生成器和全局生成器之间的表示不一致性问题,我们在服务器上设计了一种基于KD的两阶段聚合机制,通过全局初始化校正进行知识蒸馏。我们还提供了半参数共享联邦学习的首个理论收敛性分析,证明了FedPDM的收敛速率为O(1/T)
  • 在四个真实世界数据集上的广泛实验清楚地验证了我们提出的FedPDM与各种全参数共享和半参数共享FL基线的优越性。FedPDM的性能提高了1.78%至5.56%。
  • 章节片段

    联邦学习

    联邦学习是一种隐私保护方法,它可以在不需要客户端与服务器交换任何本地数据的情况下促进共享模型的协作训练。尽管如此,一些研究表明,FL仍然存在安全问题,可能导致私有客户端数据的泄露[23],特别是对于共享模型参数或梯度信息的FL方法,这些方法容易受到基于梯度的攻击[24],例如DLG [11]或iDLG [8]。具体来说,

    初步

    在本节中,我们首先介绍了典型联邦学习设置中的问题表述。然后,我们假设用于隐私保护分析的半诚实场景,其中服务器遵循FL协议,同时使用威胁模型尝试恢复客户端原始数据。

    概述

    为了进一步保护客户端的数据隐私,同时使其与全参数共享FL框架具有竞争力,我们提出了一种基于隐私保护扩散模型的新型半参数共享框架,称为FedPDM。如图2所示,FedPDM将每个客户端的网络分为三个主要组成部分:私有编码器E、公共生成器G和公共分类器C。具体来说,给定K个客户端,在FL通信轮次中,客户端k(1?≤?k?≤?K)将首先

    数据集

    为了公平评估我们提出的FedPDM的有效性,我们使用了四个广泛认可的数据集进行了实验,与以往的研究一致:CIFAR-10 [51]、Fashion-MNIST (FMNIST) [52]、Digit-5 [53]和Office-Caltech10 (OFFICE) [54]。我们使用CIFAR-10和FMNIST来模拟独立同分布(IID)设置,其中每个客户端的数据均匀分布在10个类别中。此外,我们还使用了跨领域数据集

    结论

    在本文中,我们提出了一种名为FedPDM的半参数共享FL框架,该框架有效地提高了现有半参数共享FL方法的模型效用,并具有高隐私保护和通信效率。具体来说,FedPDM利用扩散模型解决了表示鲁棒性差的问题。为了解决生成器的表示泄露问题,我们在扩散模型中引入了特征级惩罚项。FedPDM的服务器采用了

    CRediT作者贡献声明

    郭伟:写作 – 审稿与编辑,撰写原始草稿,可视化,验证,资源管理,方法论,调查,数据整理。庄福珍:监督,资金获取。童一琦:写作 – 审稿与编辑,监督。张晓:写作 – 审稿与编辑,监督。胡兆军:形式分析。赵洁洁:写作 – 审稿与编辑,监督。董金:监督。

    利益冲突声明

    作者声明以下财务利益/个人关系可能被视为潜在的利益冲突:庄福珍报告称获得了中国国家自然科学基金的支持。如果有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。

    致谢

    本研究工作得到了中国国家重点研发计划(项目编号2024YFF0729003)和中国国家自然科学基金(项目编号62176014)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号