FedHC:利用Hessian矩阵和余弦相关性进行增强型联邦学习,以实现近端相关性优化

【字体: 时间:2026年03月14日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  联邦学习中的数据异构性导致局部漂移和收敛速度慢,提出FedHC方法通过引入近似Hessian优化器和余弦相关性修正,有效减少全局与本地模型参数差异,提升收敛速度和模型性能,实验验证其优于现有方法。

  
Kushall Pal Singh | Monu Verma | Dinesh Kumar Tyagi | Santosh Kumar Vipparthi | G. Shankara Raju Kosuru | Subrahmanyam Murala | Mohamed Abdel-Mottaleb
计算机科学与工程系,Malaviya国家理工学院,斋浦尔,302017,印度

摘要

联邦学习(FL)是一种重要的分布式学习方法,它结合了参与者的协作式和独立式数据更新。然而,由于数据异构性,FL面临局部漂移的关键挑战。传统的联邦学习方法(如FedDC)依赖于随机梯度下降(SGD)等一阶优化技术,在有效解决这一问题方面存在困难。这些技术在减轻局部漂移或确保最优收敛方面并不完全有效。因此,人们对二阶优化方法越来越感兴趣,以获得更好的收敛性能。然而,这些先进方法在FL框架内引入了新的收敛挑战。为了解决这些挑战,我们提出了一种名为FedHC的新联邦学习方法。FedHC在目标函数中整合了近似Hessian优化器来更新局部模型参数。在多样化的图像分类和合成数据集上进行的实验结果表明,FedHC显著提高了收敛速度,并且在不同的客户端设置下表现优于现有方法。

引言

将基于深度学习(DL)的技术应用于工业AI,在自动驾驶、智能电网、制造业和医疗保健等多个领域解决数据驱动的挑战方面引起了广泛关注。构建和优化高质量的DL模型需要从各种物联网设备或工业节点收集大量数据。传统上,像云服务提供商这样的中心化实体会从所有参与节点收集数据以进行集中学习。然而,这种方法存在两个主要问题:首先,由于工业大数据的巨大规模以及每个节点生成的大量数据,数据聚合在中央服务器上会产生显著的通信成本;其次,数据可能包含敏感或专有信息,从而带来隐私风险。
受这些挑战的启发,联邦学习(FL)作为一种可扩展且保护隐私的替代方案应运而生。在许多需要保护数据隐私的工业应用中,联邦学习得到了应用。例如,在物联网连接场景中,可以通过分析设备网络流量来进行入侵检测,而无需将单个设备的数据共享到中央服务器。一个拥有反应器、冷凝器、压缩机、分离器等不同机械组件的生产工厂,这些独立单元可以单独监控而不需向中央服务器传输数据。边缘云集成联邦学习用于检测与领域无关的故障诊断模型。FL使多个参与者能够以去中心化的方式协作训练全局模型,而不会泄露私人数据。这种新方法代表了深度学习范式的重要进展,为跨多种数据源的安全和协作模型训练提供了新的可能性。尽管取得了巨大进展,研究人员在FL领域仍面临一些显著挑战。一个突出的且不可避免的挑战是参与客户端之间的异构性问题,这源于统计和系统差异。非独立同分布(Non-IID)数据导致客户端局部目标函数和优化方向的不一致性,使得实现高效准确的模型训练变得更加复杂。不同的数据分布会在同时减少全局经验损失时产生根本性的差异。在高度异构的环境中,现有的FL方法(如FedAvg)缺乏收敛保证,仅能实现较低的收敛速度和模型性能。研究表明,数据异构性会导致客户端局部更新的漂移,从而减缓收敛速度。客户端模型与中央学习模型之间的参数漂移由两个因素引起:从前一轮继承的残差参数漂移和当前轮次中发生的梯度漂移。
为了解决FL中的客户端漂移问题,研究人员提出了不同的方法。Li等人提出了FedProx,通过引入近端项来最小化局部模型和全局模型之间的差异,从而减少局部更新的波动性并使其与全局模型对齐。然而,这种方法存在权衡,因为近端项虽然减少了漂移,但可能阻碍全局模型达到最优稳定状态。Karimireddy等人提出了Scaffold方法,使用控制梯度变量来解决这一问题,但无法完全消除局部模型和全局模型之间的偏差,导致训练过程中偏差累积,从而减慢学习速度。
在早期的FL方法中,重点在于确保局部模型与全局模型的一致性以减少梯度漂移。这些方法在一定程度上减少了漂移,但增加了局部模型参数与全局模型参数之间的差异。为了解决这个问题,Gao等人通过引入约束惩罚项来解耦局部模型和全局模型。此外,Lee等人提出了归一化差异扰动方法来减少全局模型和局部模型之间的差异。然而,局部模型与全局模型之间的差异并未完全消除。考虑到FL中局部最优点与全局最优点之间的根本差异,我们提出了一种新的目标函数,其中结合了Hessian和余弦相关性。在FedHC中,我们引入余弦相关性以建立全局参数和局部参数之间的和谐关系,从而减少两者之间的差异。FedHC的主要目标是减轻局部漂移并提高联邦学习过程的总体收敛速度。
深度学习技术经常利用余弦相似性等相似性度量来提升模型泛化能力。余弦相似性主要关注向量方向,在自然语言处理(NLP)任务中特别有效,尤其是在面对单词频率差异较大的情况下。我们注意到客户端之间的梯度存在显著不一致性。为了解决这个问题,我们实施了余弦相似性相关方法,数学证明和实验结果均证明了其有效性。此外,我们还提出了近似Hessian优化器以加速训练过程。通过余弦相关性和近似Hessian优化器的协同作用,提出的FedHC有效减少了局部模型和全局模型之间的差异,实现了比现有最先进(SOTA)FL算法更快的收敛速度。我们的主要贡献如下:
  1. 在目标函数中引入了余弦相关性,以减少全局模型和局部模型之间的差异。
  2. 提出了近似Hessian优化器,以加速联邦学习的模型训练并提高收敛速度。
  3. 我们还结合了近似Hessian优化器和余弦相关性,以加强全局模型和局部模型之间的联系,促进协作学习并加快收敛速度。
我们已经在多种公共数据集上验证了实验收敛结果,如MNIST、EMNIST-L、fashion-MNIST、CIFAR10、CIFAR100和合成数据集。结果表明,提出的FedHC在非独立同分布(Non-IID)、独立同分布(IID)以及客户端数据分布不平衡的情况下,均优于现有的FL方法(例如FedDC [14]、FedDyn [16]、Scaffold [10]、FedProx [12] 和 FedAvg [5]),具有更快的收敛速度和更好的性能。无论是在所有客户端参与还是部分客户端参与的情况下,我们的方法都优于最近的FL方法,证明了其优越性。
联邦学习
联邦学习(FL)是一个快速发展的领域,主要涉及两种类型的更新:服务器更新和设备(客户端)更新。在FL中,目标是最小化每次更新相关的局部损失函数,该函数可以在不同轮次中动态更新。一些方法旨在完全优化更新,而其他方法则采用近似优化。
FedAvg [5] 是一项开创性工作,它使用加权参数平均来更新来自多个客户端的参数。
联邦学习背景
在联邦学习(FL)中,我们考虑了N个客户端组成的联邦,每个客户端i持有其私有数据D_i。FL的主要目标是使用聚合的数据集w*来训练最优的全局模型w,其中 \mrow> \mi>D_i \in \{1, 2, \ldots, N\} \mrow> \math> w = \argmin_{\sum_{i=1}^{N} \left| D_i \right| F(w) \mrow> 在这里,w表示全局模型参数;D_i表示第i个客户端的数据样本数量。
FL过程的目标是训练最优的全局模型w*。
实验结果与分析
在本节中,我们首先介绍数据集和超参数的详细信息,然后评估所提出的FedHC的性能,并将其与几种现有的SOTA方法(FedDC [14]、FedDyn [16]、Scaffold [10]、FedProx [12]、FedAvg [5])进行比较。我们提供了有力的证据,证明FedHC在收敛速度和模型准确性方面优于现有的FL方法。
结论与未来研究方向
我们提出了一种结合近似Hessian优化器和余弦相关性的新近端校正方法用于联邦学习。所提出的近似Hessian优化器能够加速模型训练并提高收敛速度。在目标函数中引入余弦相关性以减少全局模型和客户端模型之间的差异。我们已经证明,整合Hessian对角算子和余弦相关性可以加强两者之间的联系。
CRediT作者贡献声明
Kushall Pal Singh:撰写 – 审稿与编辑、初稿撰写、可视化、验证、方法论、数据分析、概念化。 Monu Verma:撰写 – 审稿与编辑、初稿撰写、可视化、验证、监督、方法论、正式分析。 Dinesh Kumar Tyagi:撰写 – 审稿与编辑、监督、概念化。 Santosh Kumar Vipparthi:撰写 – 审稿与编辑、监督、资源管理、项目协调、资金支持。
利益冲突声明
作者声明没有利益冲突。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号