基于局部经验风险的个性化知识蒸馏方法在个性化联邦学习中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：Personalized federated learning with personalized knowledge distillation based on local empirical risk

【字体：大中小】 时间：2026年03月07日 来源：Information Fusion 15.5

编辑推荐：

　　个性化联邦学习通过动态调整教师-学生模型实现知识蒸馏，有效整合全局与本地信息，解决数据异构性问题。

Ziyang Zhang|Ran Li|Kailing Guo|Xiangmin Xu

华南理工大学，广州，510641，中国

摘要

为了解决客户端间数据异构性的挑战，个性化联邦学习（PFL）旨在生成针对每个客户端本地数据分布的模型。然而，许多PFL方法过度依赖本地信息，而忽视了全局知识，从而增加了过拟合的风险。尽管知识蒸馏提供了一种自然的方式来整合全局信息，但现有的基于蒸馏的方法往往缺乏对客户端特定训练动态的适应性，限制了个性化的效果。我们提出了联邦个性化知识蒸馏（FedPKD），这是一种新的PFL框架，它利用了由本地经验风险引导的个性化知识蒸馏。关键的是，FedPKD引入了一种动态的教师-学生选择策略：在每一轮中，它评估聚合后的全局模型和客户端上一轮的本地模型在本地小批量上的经验损失，并根据它们的经验风险比的相对变化来确定教师模型。这种自适应机制使得知识转移能够针对特定客户端和阶段进行，有效地将蒸馏过程与每个客户不断变化的学习状态对齐。在六个基准数据集CIFAR-10、CIFAR-100、Fashion-MNIST、SVHN、Tiny-ImageNet和Yahoo! Answers上的实验表明，FedPKD相比现有的PFL方法具有显著的优势。

引言

联邦学习（FL）[1]、[2]、[3]、[4]允许在分布式客户端之间进行协作模型训练，而无需共享原始数据。FL的目标是学习一个能够在分布式数据上泛化良好的全局模型。开创性的方法FedAvg [1]通过允许客户端使用自己的数据集进行本地模型更新来启动这一过程。然后，这些更新后的模型参数在中央服务器上被聚合。得到的全局模型会被重新分配给客户端，用于下一轮训练。为了改进FedAvg，人们开发了一系列方法来解决其关键限制，以减轻由非独立同分布（non-IID）数据引起的模型漂移[5]、处理标签分布不平衡[6]并提高收敛效率[7]。然而，当数据异构性严重时，学习一个对所有客户端都表现良好的单一全局模型变得极具挑战性。这一观察激发了个性化联邦学习（PFL）[8]、[9]的发展，其目标是在仍然受益于协作训练的同时，根据个别客户的特点定制模型。Per-FedAvg [10]使用元学习框架来指导客户端，从而获得适合个性化的共享初始化。为了进一步改进本地适应性，FedRep [11]将表示学习与客户端特定的分类器头分离。虽然这些方法提高了个性化程度，但它们主要关注参数分解或初始化策略，并没有明确促进客户端间的软知识转移。为了增强PFL中的知识共享，一些PFL方法结合了知识蒸馏（KD）[12]，其中来自教师模型的软标签通过Kullback-Leibler（KL）散度来指导学生模型的训练。FedMD [13]使用在公共数据集上计算的全局类别分数来实现对本地模型的知识转移。FedLMD [14]通过选择性地蒸馏与少数类别相关的logits来进一步细化这一过程。这些方法对额外数据集的依赖带来了显著的数据获取成本负担。这可以通过使用本地或全局蒸馏来规避。DKD-pFed [15]不使用额外数据，而是利用上一轮的本地模型在本地数据上进行知识蒸馏，并采用解耦的KL散度。现有方法通常采用固定的知识转移策略：要么始终使用聚合后的全局模型来指导上一轮的本地模型，要么始终使用之前的本地模型将知识蒸馏到全局模型中。这样的设计隐含地固定了整个训练过程中的教师-学生角色，假设一个模型在所有客户端和通信轮次中始终比另一个模型更具信息量。然而，在数据异构性严重的情况下，本地模型和全局模型的相对质量在训练轮次中可能会有很大差异。在这些条件下强制固定教师-学生角色可能导致知识转移效率低下甚至有害：一个次优的教师可能会引入噪声或误导性的监督，而固定的角色分配限制了平衡全局泛化和每个客户端本地特化的能力。这种固定的知识转移最终限制了个性化模型的有效性，并限制了它们在本地数据分布下增强表示能力的效果。为了解决这些限制，我们提出了联邦个性化知识蒸馏（FedPKD），这是一个由本地经验风险引导的动态蒸馏框架，如图1所示。FedPKD将知识蒸馏视为一个双向和自适应的过程。FedPKD不是预先定义教师和学生角色，而是根据每一轮训练中本地模型和全局模型的相对经验风险动态地切换它们的角色。当本地模型变得相对更强时，它作为教师将客户端特定的知识蒸馏到全局模型中；否则，全局模型承担教师角色以指导本地适应。因此，教师和学生的身份在整个训练过程中不断演变，使得在异构学习下实现更加灵活和有效的知识转移成为可能。全局模型在客户端之间聚合知识，通常能够捕捉到更具泛化能力的模式，而本地模型则倾向于偏向于特定客户端的数据分布。因此，两种模型都有潜力成为有效的教师，但它们的相对适用性因客户端和训练阶段而异。主要贡献总结如下：

(1) 个性化蒸馏关系选择策略。 我们提出了一种新的策略，根据本地模型和全局模型的相对经验风险动态切换教师-学生角色，从而实现灵活的知识转移，以适应异构客户端的学习动态和优化阶段。

(2) 无需外部数据。 由于所提出的个性化蒸馏关系选择策略通过彻底的信息交换增强了模型的能力，我们的方法无需利用外部数据即可获得良好的性能。

在六个图像和文本识别基准数据集上的全面实验表明，通过利用本地经验风险进行个性化聚合，FedPKD实现了最先进（SOTA）的性能。

部分片段

典型的联邦学习

典型的联邦学习旨在在分布式客户端之间协作训练一个全局模型，而无需共享原始数据。基础的FL算法FedAvg [1]在理想化的假设下（如独立同分布数据（IID数据）和完全的客户端参与度）之间交替进行本地训练和服务器端聚合。然而，当客户端数据是异构和非独立同分布（non-IID）时，简单的聚合可能导致客户端漂移和收敛不稳定。

初步介绍

假设有一个包含N个客户端的FL系统，其中第n个客户端拥有一个本地数据集

D_{n}

\min_{θ} \sum n a_{n} F_{n} (θ)

a = | D_{n} |

F_{n} (θ)

a = | D_{i} |

F_{n} (θ)

F_{n} (x, y) \in D_{n} L(y, h (θ, x) / D_{n} |

F_{n} (θ)

a = | D_{i} |

F_{n} (θ)

a = | D_{i} |

联系信箱：

粤ICP备09063491号

摘要

引言

部分片段

典型的联邦学习

初步介绍

热点排行