FLAME：通过自适应的多面特征嵌入，在异构和长尾数据上进行联邦学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：FLAME: Federated learning on heterogeneous and long-tailed data via adaptive multi-faceted feature embeddings

【字体：大中小】 时间：2026年03月24日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　联邦学习框架FLAME通过自适应多视角特征嵌入（全局、类特定、客户端）和动态门控网络，有效解决数据异质性和长尾分布问题，提升模型在长尾类别的泛化能力。

Xing Lai|Zhen Zhang|Shenlong Zheng

济南大学信息科学与技术学院，中国广州

摘要

联邦学习（FL）能够在保护数据隐私的同时，促进分布式数据集之间的协作模型训练。然而，现实世界的FL面临着数据异质性和长尾类别分布的挑战，这些挑战会降低模型性能，尤其是对于长尾类别。现有的方法通常关注数据异质性，而忽视了全局类别不平衡问题，导致模型偏向于头部类别。为了解决这些问题，我们引入了FLAME框架，该框架旨在同时减轻数据异质性和长尾类别分布的影响。FLAME采用了自适应的多方面特征嵌入方法：包括利用知识转移来改善长尾场景下长尾类别表示的类别特定嵌入、减少客户端漂移以保持跨客户端一致性的全局嵌入，以及保持局部数据独特性的客户端特定嵌入。这些嵌入通过一个客户端特定的门控网络动态集成，其参数在本地学习，以适应每个客户端的数据特征和学习目标，从而增强模型的泛化能力。在CIFAR-10-LT、CIFAR-100-LT和Tiny-ImageNet-LT数据集上的广泛实验表明，FLAME显著优于现有的最先进方法，尤其是在提高长尾类别的准确性方面。

引言

联邦学习（FL）是一种分布式机器学习范式[1]，它能够在保护本地数据隐私的同时，促进分散客户端（如移动设备和医疗机构）之间的协作模型训练。这一特性使得FL在医疗保健、金融和个性化服务等需要隐私保护的应用中不可或缺[2]、[3]。作为一个快速发展的领域，FL面临着许多核心挑战，除了隐私问题外，还包括通信效率、系统异质性和统计异质性，使其成为研究的热点[4]、[5]、[6]。其中，两个统计挑战的共存尤其具有破坏性：客户端之间的数据异质性和类别的全局长尾分布。这些相互依赖的因素经常阻碍模型收敛，降低整体性能，并可能损害公平性。

数据异质性，通常被称为非独立同分布（Non-IID）数据问题，是FL中的一个关键且被广泛研究的挑战[7]。它主要源于客户端数据的独特性，这些数据来源于不同的数据收集过程或用户特定的属性[8]。例如，在视觉识别任务中，成像协议或环境因素的差异可能导致某些类别在特定客户端的数据集中完全缺失[9]。同时，长尾分布是机器学习中的一个长期存在的挑战[10]、[11]，表现为全局数据集中的极端类别不平衡。在集中式环境中，这通常通过重采样[12]或基于全局类别频率的权重重置损失（如类别平衡损失[13]）等技术来解决。然而，在联邦架构中，这些解决方案变得不切实际。由于数据隐私限制，服务器无法访问全局类别分布统计信息，因此无法进行精确的权重重置或重采样。此外，数据分割可能会加剧这种固有的不平衡，导致任何给定客户端上的长尾类别数据极其有限或完全缺失[14]。这种分布存在于各种现实世界场景中，包括罕见疾病的医学诊断[15]和异常检测系统[16]，因此迫切需要能够抵御这些挑战的联邦学习方法。

然而，同时解决数据异质性和长尾分布问题存在一个普遍的困境，因为它们的解决方案之间存在结构性冲突。内在的难点在于，旨在强制全局一致性的机制（以减轻异质性）往往会加剧长尾类别的抑制，而针对长尾类别重新平衡的策略则倾向于放大客户端漂移。首先，在标准FL中，聚合过程倾向于头部类别的主导梯度方向。由于异质性，长尾类别的梯度本来就稀疏且噪声较大，因此在统计上被抑制。其次，更重要的是，像FedProx[8]这样的异质性感知方法会限制局部更新以与全局共识保持一致。由于这种共识本质上偏向于头部类别，这样的限制往往会惩罚长尾类别所需的独特特征学习[17]。这种相互干扰表明，应对这些双重挑战需要一个能够动态分离全局一致性目标和局部类别特定适应需求的统一框架。

这些系统挑战的相互作用严重影响了FL的性能。网络中的数据异质性经常导致局部模型更新的分歧，这可能会破坏训练动态，减缓收敛速度，并导致客户端之间的模型质量不一致[4]、[18]。同时，严重的类别不平衡在训练过程中引入了对数据丰富的头部类别的偏见。这系统性地削弱了模型对代表性不足的长尾类别的泛化能力——这在需要检测罕见实例的应用中是一个关键限制，例如识别特定的系统故障或识别不常见但重要的诊断标志[15]、[19]。在联邦环境中，由于缺乏全局分布意识，这种头部类别偏见进一步加剧[17]。因此，依赖简单加权平均的传统聚合方法（如FedAvg）往往不足以应对这些相互关联的复杂性[20]。

为了用一个具体的例子来说明这些问题，图1展示了在Dirichlet分配（

α = 0.5

）和长尾采样（不平衡因子为

IF = 100

）下CIFAR-10的典型FL划分。较深的颜色表示更多的样本。热图揭示了两个显著现象：（i）全局长尾——当跨客户端聚合时，每个类别的样本总数严重不平衡；（ii）局部非独立同分布——每个客户端展示的类别明显不同（且经常缺失），导致局部目标异质。这种组合放大了头部类别的偏见，并导致聚合漂移，使得单一全局模型难以在所有类别和客户端上表现良好。

现有研究在尝试同时解决这两个问题时经常面临实际困境。一方面，针对数据异质性的方法（如FedProx[8]和FedNova[21]）专注于强制局部和全局模型之间的一致性。这有助于稳定训练，但可能会阻止模型在局部数据上有效学习，特别是对于罕见的长尾类别。另一方面，针对长尾分布的方法（如CReFF[14]和RUCR[17]）试图在服务器级别应用统一校正。然而，当客户端的数据特征高度多样化时，这种方法会遇到困难，因为聚合不同质量的特征可能会引入噪声，使校正无效。这突显了一个核心挑战：如何平衡全局一致性和有效的局部学习。

为了解决这一差距并提高适应性，我们引入了FLAME，这是一个专为统一解决这些同时出现的挑战而设计的联邦学习框架。FLAME采用了自适应的多方面特征嵌入——全局的、类别特定的和客户端特定的——以及一个客户端端的门控机制，将这些信号动态集成到学习到的表示中。在应对数据异质性和长尾类别分布的双重挑战时，FLAME的各个组成部分被设计为协同工作，而不是孤立运作。具体来说，全局嵌入建立了共享的一致性基线，以防止客户端漂移。然后，客户端特定的嵌入通过捕捉独特的局部分布变化来个性化这一基线，从而共同解决异质性问题。此外，类别特定的嵌入注入全局类别先验，以补偿长尾类别的知识真空，即使在局部数据稀少时也能确保稳健的表示。最后，学习到的门控网络充当动态仲裁者，它根据每个客户端的上下文动态融合这些信号——在独特性是关键时优先考虑客户端特定的特征，或在局部证据不足时优先考虑类别特定的先验。通过这种协调的集成，FLAME有效地平衡了全局一致性、局部适应性和长尾类别的泛化能力。本研究的主要贡献包括：

•

我们引入了自适应的多方面特征嵌入作为一种灵活的设计策略，以增强联邦学习。这种方法通过利用多视角的特征表示来减轻数据异质性和长尾分布，最终提高了长尾类别的公平性。

•

我们提出了FLAME，这是一个保护隐私的联邦学习框架，实现了这一策略。FLAME集成了用于知识转移的类别特定嵌入、用于减轻客户端漂移的全局嵌入以及用于局部适应的客户端特定嵌入。这些嵌入通过一个门控机制动态融合，明确设计用于解决长尾类别偏见并提高适应性。

•

我们通过在CIFAR-10-LT、CIFAR-100-LT和Tiny-ImageNet-LT数据集上的广泛实验，验证了FLAME的有效性，与几种相关方法进行了比较，包括FedAvg、FedProx、CCVR、FedETF、τ-norm、LWS、AREA、CReFF和RUCR。

小节片段

联邦学习中的数据异质性

由于客户端数据集的非独立同分布（non-IID）特性，数据异质性在FL中仍然是一个普遍存在的挑战。基础的FedAvg[1]在这种环境中经常遭受客户端漂移和收敛缓慢的问题[4]。为了减轻这一问题，一个普遍的研究方向是规则化和校正。像FedProx[8]、SCAFFOLD[20]和MOON[18]这样的方法引入了近似项、控制变量或对比损失，以使局部更新与全局共识保持一致。然而，一个关键的限制是

方法

在本节中，我们介绍了FLAME，这是一个专门为解决之前提到的数据异质性和长尾分布相互交织的挑战而设计的新型联邦学习框架。FLAME的核心策略是利用自适应的多方面特征嵌入来增强模型的鲁棒性和公平性，特别是对于这些复杂环境中的代表性不足的类别。关键符号在表1中进行了总结。我们首先介绍问题的表述和必要的

收敛性分析

在本节中，我们在常见假设下对FLAME框架进行了严格的收敛性分析，为我们的方法提供理论上的收敛保证。我们的分析旨在阐明算法如何在数据异质性和自适应局部组件的存在下确保全局模型的收敛。

设

联系信箱：

粤ICP备09063491号

摘要

引言

小节片段

联邦学习中的数据异质性

方法

收敛性分析

热点排行