FedDCA:一种稳定且统一的Wasserstein适应方法,用于处理联邦概念漂移问题

《Knowledge-Based Systems》:FedDCA: Stable and Unified Wasserstein Adaptation to Federated Concept Drift

【字体: 时间:2026年01月24日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  针对联邦学习中的概念漂移问题,提出FedDCA框架,通过标签剖面(LP)实现漂移感知的客户表示,结合变分Wasserstein聚类稳定协作,并统一漂移检测与适应流程,实验证明其优于现有方法。

  
方丽宇|吴文|郑晓琳
浙江大学计算机科学与技术学院,杭州,310027,中国

摘要

具有概念漂移的联邦学习(FL)面临三个根本性挑战。首先,现有方法缺乏能够直接反映数据分布变化的漂移感知客户端表示。其次,使用漂移客户端的聚类常常会通过污染客户端组结构而导致协作不稳定。第三,许多方法在漂移检测和适应之间存在方法论上的脱节。
为了解决这些挑战,我们提出了FedDCA,这是一个用于联邦概念漂移适应的稳定且统一的框架。FedDCA引入了标签谱(LP),这是一种紧凑的分布表示方法,可以捕捉每个客户端的当前数据概念,并实现基于原则的漂移感知相似性测量。基于LP,FedDCA采用漂移感知锚点聚类,仅在稳定客户端上执行变分Wasserstein聚类,从而形成稳健的锚点中心,从而保持协作稳定性。然后将漂移客户端分配给最近的锚点,允许快速适应而不破坏整个系统的稳定性。通过在相同的Wasserstein度量空间内统一漂移检测和聚类适应,FedDCA能够对动态环境提供一致且有效的响应。广泛的实验表明,在各种概念漂移场景下,FedDCA在准确性和适应速度方面显著优于现有方法。

引言

联邦学习(FL)是一种保护数据隐私的分布式机器学习方法[1]。在典型的FL系统中,中央服务器将全局模型发送给许多客户端。这些客户端使用本地数据训练模型,并将更新后的模型参数发送回服务器。然后服务器汇总这些更新以改进全局模型。由于客户的原始数据从未离开他们的设备,因此他们的隐私得到了保护。
然而,在实际应用中,FL面临两个主要挑战:静态数据异质性(非独立同分布数据)和动态概念漂移[2]。静态异质性意味着不同客户端具有不同的数据分布。概念漂移是一个更严重的问题,即单个客户端的数据分布随时间变化。这种变化可能导致训练有素的模型表现不佳。
为了明确这一概念,我们现在对概念漂移进行形式化定义。设Pt(X, Y)为时间t时的数据生成分布。当Pt+Δ(X, Y)Pt(X, Y对于某个Δ?>?0时,我们区分:(i) 真实漂移——条件Pt(YX)的变化;(ii) 虚拟漂移——在Pt(YX)保持(大致)不变的情况下Pt(X)的变化;(iii) 标签漂移——先验Pt(Y)的变化。
在动态环境中,单一的全局模型通常无效[3],[4]。这是因为不同客户端可能在不同时间经历不同的概念漂移。如图1所示,概念漂移可能导致模型准确性显著下降。例如,图2表明,当政府法规发生变化时,股票价格预测模型可能会失效。此外,代码完成模型在软件库更新后可能会建议错误的代码。像聚类联邦学习(CFL)这样的方法可以解决静态数据异质性问题[5],[6]。然而,它们难以应对连续的概念漂移。这个问题突出了推动我们工作的三个关键挑战。
挑战1:缺乏漂移感知客户端表示当前的CFL方法通常依赖基本指标来评估客户端相似性。例如,它们可能使用模型参数的差异[5]或训练损失[7]。这些方法是“漂移盲”的。它们无法清楚地看到数据本身的变化。当客户端的数据分布发生漂移时,这些方法不知道数据的哪一部分发生了变化。这阻止了系统快速正确地适应漂移。
挑战2:动态环境中的协作不稳定性在概念漂移错开的联邦学习环境中,一个核心挑战是在客户端数据分布演变时保持有效且稳定的协作结构。现有的聚类联邦学习方法通常尝试在每一轮中对所有客户端进行重新分组。然而,当前经历概念漂移的客户端的数据分布本身是不稳定的。将这些“漂移”的客户端包括在聚类过程中会“污染”聚类表示(例如,中心点),导致轮次间的聚类分配严重波动。这种不稳定性阻碍了任何有意义的协作组的形成,反而妨碍了模型对新概念的有效适应。因此,一个关键问题是如何优雅地处理这些暂时“不稳定的协作者”,同时不牺牲协作的好处,确保整个学习过程的稳定性和效率。
挑战3:漂移检测与适应之间的方法论脱节许多现有方法采用两阶段的“检测-然后调整”过程[7],[8],[9],但它们的根本弱点在于检测和适应阶段之间的方法论不一致性。这些方法通常依赖于模型参数空间的间接代理信号(例如,局部更新梯度的大小)来推断概念漂移的发生。然而,它们的适应机制(如客户端聚类或模型聚合)理想情况下需要在数据分布空间中操作才能达到最大效果。从参数空间到分布空间的这种跳跃会导致信息丢失和响应不精确。标量漂移信号(如更新幅度)无法为结构化适应任务提供足够的指导,例如确定客户端应该加入哪个具有相似数据分布的簇。因此,系统只能做出全局的、粗粒度的反应(例如,统一调整学习率),无法实现针对特定客户端和概念的精确、结构化的调整。
这三个挑战共同促使我们设计了一个统一的框架,该框架可以表示客户端概念,稳定协作,并无缝整合漂移检测与适应。
我们提出的FedDCA(联邦漂移感知聚类和适应)框架旨在通过直接在数据分布空间中操作的统一框架来解决上述挑战。FedDCA的核心思想是漂移感知锚点聚类。首先,每个客户端从其本地数据生成一个紧凑且抗噪声的标签谱(LP),该谱在特征空间中准确表示客户端的当前数据概念。服务器利用这些LP通过计算Wasserstein距离来直接量化每个客户端的时间概念漂移。根据漂移程度,客户端被划分为“稳定集”和“漂移集”。随后,FedDCA仅在稳定集的客户端上执行变分Wasserstein聚类(VWC)[10],以生成一组代表网络中当前存在的稳定概念的稳健锚点中心。这种“先稳定后处理漂移”的策略有效地防止了漂移客户端破坏聚类结构,从而确保了协作稳定性。最后,漂移集中的客户端被高效地分配给最近的锚点中心,使它们能够立即与最相关的稳定组协作,并快速适应新概念。这一统一过程在相同的分布度量空间内无缝整合了漂移检测和聚类适应,实现对动态环境的快速、稳定和精确的响应。
我们的主要贡献是:
1. 在分布空间中的漂移感知客户端表示。我们设计了标签谱(LP),这是一种紧凑且抗噪声的表示方法,可以直接在标签条件分布空间中表示客户端的数据概念。这种表示方法实现了基于原则的、细粒度的概念漂移测量,直接解决了缺乏漂移感知客户端表示的问题(挑战1)。
2. 用于稳定协作的漂移感知锚点聚类。我们提出漂移感知锚点聚类来解决动态环境中的协作不稳定性。通过仅使用变分Wasserstein聚类对稳定客户端进行聚类,并将漂移客户端分配给稳健的锚点中心,我们的框架防止了聚类污染,并确保了概念漂移下的稳定协作(挑战2)。
3. 统一的漂移检测和适应框架。FedDCA在相同的Wasserstein度量空间内整合了漂移检测和聚类适应,消除了常见的检测-然后调整流程中的方法论脱节。这种统一设计使得对演变的数据分布进行快速、精确和结构一致的适应成为可能(挑战3)。

相关文献片段

相关工作

本节回顾了与FedDCA相关的文献,重点关注FL中的概念漂移以及客户端如何表示以进行协作。我们强调了最新方法的成功之处以及FedDCA所解决的差距。

问题表述

FedDCA框架解决了动态环境中的个性化联邦学习问题。我们考虑了一个由中央服务器协调的N个客户端的设置,其中数据分布表示为Dc, (x, y,对于时间t的客户端c,这些分布受到数据异质性和概念漂移等复杂变化的影响。核心挑战是学习一组个性化模型和相应的客户端最优划分,其中划分本身必须适应这些变化

实验

本节通过将FedDCA框架与几种先进的联邦学习算法进行比较,对其管理数据异质性和分布式概念漂移的有效性进行了实证评估。评估重点关注FedDCA的整体模型性能、客户端聚类准确性及其对关键超参数的敏感性。

结论与未来工作

本文提出了FedDCA,这是一个用于解决概念漂移下联邦学习核心挑战的统一框架。具体而言,FedDCA解决了三个根本性问题:缺乏漂移感知客户端表示、动态环境中的协作不稳定性和漂移检测与适应之间的方法论脱节。通过直接在标签条件分布空间中操作并利用Wasserstein距离,FedDCA提供了基于原则的

未引用的参考文献

图3

CRediT作者贡献声明

方丽宇:撰写——审阅与编辑、撰写——原始草稿、可视化、验证、软件、资源、项目管理、方法论、调查、形式分析、数据整理、概念化。吴文:撰写——审阅与编辑、验证、监督。郑晓琳:撰写——审阅与编辑、验证、监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号