Per-FedDMA:一种基于深度多采样和超网络动态适应的个性化联邦学习方法
《Computer Communications》:Per-FedDMA: A personalized federated learning method based on deep multisampling and hypernetwork dynamic adaptation
【字体:
大
中
小
】
时间:2026年03月01日
来源:Computer Communications 4.3
编辑推荐:
本文提出基于深度多采样与超网络动态适应的个性化联邦学习方法Per-FedDMA,通过超网络动态生成Transformer的自注意力层参数以适应客户端数据异质性,结合多路径多尺度特征提取机制增强低层细节捕捉能力,并采用自适应优化策略提升通信效率,实验表明在非独立同分布场景下较基线方法通信效率提升显著且模型性能优化。
刘伟|王英|王斌|蔡光军|佘伟|赵天
郑州大学网络科学与工程学院,中国郑州,450000
摘要
联邦学习为安全的数据交换和协作计算提供了一种新的范式。然而,它仍然面临数据异质性和客户端漂移等关键挑战。虽然将超网络或Transformer架构集成到联邦学习中可以解决数据异质性问题并提高模型的泛化能力,但通信效率低和无法充分捕捉细粒度细节等问题仍未得到解决。为了解决这些限制,我们提出了一种基于深度多采样和超网络动态适应的个性化联邦学习方法(Per-FedDMA),旨在在异构场景中平衡联邦学习的通用性和个性化能力。首先,引入超网络来生成Transformer架构的权重参数,以动态适应不同客户端的数据分布。其次,设计深度多采样算法(DMA),通过多路径和多尺度特征提取机制融合局部和全局信息,从而在不同感官领域提取丰富的图像特征,并增强捕捉图像低级细节的能力。此外,Per-FedDMA采用自适应优化策略来加速模型收敛,同时提高通信效率。这种方法提高了联邦学习在异构环境中的鲁棒性和泛化能力。实验结果表明,与基线方法相比,Per-FedDMA在两个基准数据集上分别提高了1.63%和8.80%,并在通信效率方面取得了突破。
引言
在大数据时代,传统的机器学习方法通常依赖于集中式的数据存储和训练,这在大规模分布式应用场景中存在显著的限制。由于隐私要求,数据不仅直接共享,还存储在多个参与者之间。此外,集中式数据处理模型面临高通信开销、单点故障风险高和隐私泄露等问题。为了解决这些挑战,联邦学习(FL)[1]作为一种有前景的分布式机器学习范式应运而生。它允许多个参与者通过共享模型参数来协作训练全局模型,而不影响数据隐私,实现了“数据不动,模型动”的目标[2]。联邦学习为突破传统机器学习的限制提供了创新解决方案,并在交通[3]、医疗保健和卫星-地面集成网络等多个领域展示了广泛的应用前景。一项研究[4]提出了一种基于模糊集成的联邦学习框架,以解决脑电图情感识别中的特征提取、分类准确性和数据隐私问题。Jiang等人[5]引入了一种分割后再进行联邦学习的框架以及结合长短期记忆的联邦分割学习,通过实际电力负荷数据验证了其在卫星-地面集成网络(STINs)中平衡隐私和通信效率的能力。
尽管联邦学习在数据隐私保护和模型优化方面具有显著优势,但它仍然面临一个根本性挑战:数据异质性。在实际应用场景中,不同参与者收集的数据在大小、分布和特征上存在显著差异,即客户端之间的非独立同分布(Non-IID)现象。数据异质性导致全局模型在某些客户端上的性能显著下降,限制了模型的泛化能力和知识转移能力。因此,构建一个能够适应每个客户端本地数据分布的个性化模型成为关键研究方向,即个性化联邦学习(PFL)[6]。PFL旨在通过结合本地数据特征和全局模型信息来平衡模型的个性化和泛化能力,从而提高联邦学习的实用性和鲁棒性。PFL的实现通常依赖于各种技术,如元学习、GANs[7]、Transformer和超网络。Hospedales等人[8]定义了元学习,并提出将其与联邦学习结合以实现个性化联邦学习。Liu等人[9]结合了联邦学习和元学习,提出了FedMeta框架、基于MAML的FedMeta和协作FedMeta等算法,实现了分布式环境中的快速任务适应和隐私保护。许多学者深入研究了超网络技术和联邦学习的结合,以解决某些领域的实际问题[10][11][12][13]。超网络是一种生成其他网络的神经网络,通常用于动态生成模型权重或结构。作为将超网络与联邦学习结合用于个性化联邦学习的第一个方法,pFedHN[14]训练了一个超网络,其参数存储在服务器上。该超网络为每个客户端的本地CNN架构生成个性化权重,增强了模型的鲁棒性。这种交互的通信成本仅与目标模型相关。对于新客户端,只需优化嵌入向量即可实现快速适应。这种方法不仅提高了通信效率,还增强了泛化能力。
尽管上述方案可以解决数据异质性问题,但大多数方法基于CNN模型架构,虽然具有强大的局部建模能力,但在处理全局上下文信息方面存在局限性。Transformer是一种基于自注意力机制的深度学习架构,通过并行计算捕获长距离依赖关系。它在自然语言处理(NLP)和计算机视觉(CV)等领域得到了广泛应用。由于其强大的自注意力机制和全局建模能力,Transformer在联邦学习中显示出显著优势[15]。Qu等人[16]成功将Transformer与FedAvg[1]结合,后续研究[17]通过实验表明,在数据异质性存在的情况下,FedAvg会对自注意力机制产生负面影响。在此基础上,该算法[17]将Transformer架构与超网络结合,保留了全局个性化建模能力,同时提高了模型泛化和通信效率。然而,Chen等人[18]指出,Transformer在所有层都关注全局上下文建模,导致无法充分捕捉图像的低级细节。因此,迫切需要一种能够全面捕捉全局上下文信息和图像低级细节的个性化联邦学习方法,以实现个性化建模,同时保持强大的泛化能力和提高通信效率。
为了解决上述问题,我们提出了一种基于深度多采样算法和超网络动态适应的个性化联邦学习方法(Per-FedDMA)。其核心在于三个阶段的协同机制:“超网络参数生成、多尺度特征提取、自适应优化”。首先,通过超网络为每个客户端动态生成独特的自注意力层参数,使Transformer架构能够适应不同客户端的数据分布特征。其次,DMA算法通过采样和融合客户端本地数据的多路径和多尺度特征生成稳健的特征表示,从而降低模型对数据分布的敏感性并增强其捕捉低级细节的能力。最后,DMA通过优化采样策略和特征融合机制有效降低了计算和通信开销,提高了资源受限环境中的模型运行效率。通过结合Transformer的自注意力机制和DMA的稳健特征提取能力,我们的方法在非独立同分布场景中进一步提高了模型的性能和效率,同时实现了个性化建模。在表1中,我们列出了现有方法的局限性以及Per-FedDMA如何解决这些问题。本文的主要贡献如下。
- •
我们提出了一种个性化联邦学习方法(Per-FedDMA),该方法使用超网络为每个客户端生成独特的Transformer架构的自注意力层参数,实现动态适应不同客户端的数据分布。
- •
我们提出了一种深度多采样算法(DMA),该算法采用并行多路径采样策略,同时提取多个感官领域的局部细节特征和全局上下文信息,显著提高了模型捕捉图像低级细节的能力。此外,DMA结合了自适应优化策略,加速模型收敛的同时提高通信效率。
- •
我们在两个非独立同分布数据集上进行了广泛实验,实验结果表明,与基线算法相比,Per-FedDMA在时间效率和图像任务准确性方面取得了突破。
本文的其余部分组织如下。第2节描述了相关工作。第3节介绍了框架和算法。第4节展示了实验结果和分析。最后,第5节总结了主要贡献和未来工作。
章节片段
相关工作
在本节中,我们回顾了Transformer和超网络在联邦学习中的应用,并总结了之前的研究。
方法论
本节定义了问题,阐述了本文提出的个性化联邦学习框架,并分析了核心算法的细节。同时进行了简单的收敛性和计算复杂性分析。
实验设置
在本节中,我们重点介绍了用于比较的基准测试方法、应用的非独立同分布(Non-IID)设置和模型架构,同时详细阐述了实验实现的某些细节。
结论
在本文中,我们提出了一种个性化联邦学习方法,以解决联邦学习中的数据异质性和客户端漂移问题。同时,它克服了现有方法在通信效率低和无法充分捕捉低级细节方面的局限性。我们引入了超网络来生成特定于客户端的Transformer架构的自注意力层参数,以实现更好的个性化协作。
CRediT作者贡献声明
刘伟:监督、资源管理、项目管理、方法论、资金获取、概念化。王英:写作 – 审稿与编辑、撰写 – 原稿、可视化、验证、软件、方法论、调查。王斌:写作 – 审稿与编辑、监督、调查。蔡光军:调查、数据管理。佘伟:调查、数据管理。赵天:监督、形式分析、概念化。
致谢
本研究由河南省科学技术研究项目(项目编号:252102210185)资助
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号