FedCD:联邦学习中异构数据的对比蒸馏正则化方法

《Pattern Recognition》:FedCD: Contrastive-Distillation Regularization for Heterogeneous Data in Federated Learning

【字体: 时间:2026年03月03日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出FedCD框架,通过二次本地优化结合对比学习和知识蒸馏技术,有效整合异构数据视角,缓解模型漂移和知识遗忘问题,并设计自适应触发机制降低计算开销,实验验证其优于传统方法。

  
顾东一|张建旭|张新宇|任健|梁伟|李晓翠
湖南工商大学,长沙,410205,湖南,中国

摘要

联邦学习允许多个客户端在不共享原始数据的情况下协作训练模型。尽管联邦学习在隐私保护方面取得了显著进展,但客户端之间的数据异质性仍然是一个根本性挑战,这导致了不同的学习视角,从而产生了不一致的局部更新结果。为了解决这个问题,我们提出了一个名为FedCD的联邦优化学习框架,该框架能够有效整合和对齐不同的客户端视角。与传统联邦学习不同,它引入了一个额外的二次局部优化阶段。在二次优化阶段,使用对比学习来对齐异构客户端之间的特征表示,同时知识蒸馏将全局知识传递给局部更新以提供指导。为了减少计算开销,我们引入了一个灵活的触发机制,可以适应性地激活二次优化。在各种知名数据集上的广泛实验表明,FedCD在多样化的异构环境中显著优于现有方法,并且可以集成到不同的联邦学习框架中,以持续提高它们的性能。

引言

在当前的数字时代,机器学习模型的发展从根本上是由数据驱动的。然而,各种机构、设备和个人拥有大量的数据,导致数据分布高度异质。随着隐私问题的加剧和数据保护要求的提高,直接共享原始数据面临着重大挑战。联邦学习作为一种新的分布式机器学习范式应运而生,它允许多个参与者协作训练全局模型,而无需暴露他们的本地数据集,从而确保了隐私保护,并在各个领域表现出强大的性能[1]、[2]、[3]。尽管在隐私保护和分布式优化方面取得了显著进展,但在客户端视角不完整且部分数据缺少标签的情况下训练稳定的全局模型仍然是联邦学习中的一个根本性挑战[4]。此外,有效地整合和对齐来自异构数据视角的信息同样重要[5]、[6]。几个挑战限制了联邦学习的实际应用性,并阻碍了其在现实世界场景中的性能[7]。
一个主要挑战是由不同客户端之间的数据异质性引起的。在联邦学习框架中,客户端仅根据自己的数据更新本地模型。这些不同的视角导致本地训练模型的更新方向与全局目标发散,从而阻碍了有效的对齐。这些发散更新的聚合减缓了收敛速度,并显著降低了模型的准确性和泛化性能[8]、[9]。另一个同样重要的挑战是知识遗忘。由于数据异质性导致不同的更新视角,全局模型逐渐积累了多样化的局部更新[10]。由于客户端之间的分布不断变化,先前学习到的知识逐渐丢失,因为新的局部梯度主导了优化过程,导致灾难性的遗忘和整体性能的下降[11]、[12]。
为了解决这些问题,研究人员开发了许多优化策略来减轻数据异质性和知识遗忘的影响。在解决数据异质性方面,一些研究人员引入了正则化项[12]、[13]、[14]。通过限制本地模型的更新,这些项提高了与全局目标的对齐性,从而减少了数据分布差异的影响。对比学习提高了模型捕获不同数据类型中重要特征的能力,使得模型能够在多样化的数据分布中学习更具代表性的特征,并减轻了知识遗忘[15]、[16]。知识蒸馏将不同客户端模型中的知识传递给全局模型,使全局模型能够学习更好的特征表示,并有效结合新旧知识[17]、[18]、[19]。一些研究探索了二次优化策略,提供了更灵活的优化范式,在高度异构的数据分布下提高了联邦模型的收敛稳定性和泛化能力[20]、[21]。此外,算法效率对于资源受限的联邦学习系统也很重要[22]、[23]。尽管这些方法在一定程度上缓解了数据异质性和知识遗忘的问题,但在更复杂和动态的场景中,它们的有效性仍然有限。
本研究提出了FedCD,即用于联邦学习中异构数据的对比蒸馏正则化方法。在传统的联邦学习框架中,如图1a所示,客户端使用本地数据通过标准局部优化更新本地模型。在传统联邦学习的基础上,二次优化过程使用对比学习和知识蒸馏来更好地保护和利用全局知识,从而实现不同客户端视角之间的特征对齐。此外,我们为二次优化过程设计了一个动态触发机制,以减少计算开销,使得只有在必要时才激活二次优化。具体来说,通过对比学习和知识蒸馏优化本地模型,局部更新被引导以更好地与全局知识对齐,将更新的参数Wt+1
限制在全局模型的合理范围内。这有效地缓解了模型漂移并提高了整体性能。
本文的主要贡献可以总结如下:
  • 我们提出了一个名为FedCD的灵活优化框架,通过结合客户端端的局部二次优化步骤,可以与各种FL方法集成,从而提高整体模型性能。
    • 我们在优化过程中整合了对比学习和知识蒸馏,以将全局模型与本地模型对齐,从而有效地整合了来自客户端的异构信息视角。
    • 我们引入了一个灵活的触发机制,可以适应性地激活二次优化,高效地最小化不必要的计算,同时保持高精度。
    • 我们在不同的联邦设置下进行了广泛的实验,证明了FedCD能够持续提高性能,实现更稳定的训练过程,减少知识遗忘和模型漂移,并且在不同的FL算法中都有效。

    部分内容

    联邦学习

    McMahan等人于2017年首次引入了基础的联邦学习算法FedAvg[24]。在这个框架中,服务器最初配置全局模型参数,并将它们分配给所有参与客户端。每个客户端随后在其私有数据集上进行本地训练,并将更新后的参数上传到服务器。然后服务器根据客户端数据集的相对大小对这些参数进行加权平均。

    问题陈述

    本文提出了一个包括中央服务器和多个客户端的联邦学习系统,每个客户端都有一个本地数据集。该系统的目标是在不共享原始数据的情况下学习全局模型,通过最小化下面定义的目标函数L(w)来实现。minwL(w)=i=1|Di||D|Li(w)其中Li(w)是客户端i的本地损失函数,|Di|是客户端i的数据量,|D|是所有客户端样本的总数。
    然而,客户端之间的数据异质性导致了

    实验结果

    为了评估FedCD的性能,我们在知名数据集上进行了广泛的实验。实验部分旨在回答以下四个问题(RQs):
  • RQ1(准确性):在不同的异构数据设置下,FedCD与其他基线方法相比是否提高了测试准确性?
  • RQ2(知识保留):FedCD是否在不同程度的数据异质性下有效减少了知识遗忘?
  • RQ3(客户端端对齐):FedCD是否改善了对齐
  • 结论

    在联邦学习中,客户端之间的数据异质性导致它们的更新视角不对齐,从而导致知识遗忘和模型漂移。为了解决这些挑战,我们提出了一个名为FedCD的联邦优化学习框架。与传统联邦学习相比,FedCD在训练过程中使用了二次优化。FedCD首先使用局部数据和交叉熵损失训练一个基础模型,然后通过结合

    CRediT作者贡献声明

    顾东一:项目管理、方法论、概念化。张建旭:写作——原始草稿、可视化、软件、方法论。张新宇:软件、方法论、概念化。任健:写作——审稿与编辑、软件、调查、数据整理。梁伟:写作——审稿与编辑、可视化、形式分析。李晓翠:写作——审稿与编辑、监督、方法论。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作部分得到了湘江实验室(项目编号24XJJCYJ01005)、中国国家重点研发计划(项目编号2023YFC3306204)和中国国家自然科学基金(项目编号62502156)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号