少即是多：利用自适应概率进行异构联邦学习中的聚类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Less is more: Clustering with adaptive probability for heterogeneous federated learning

【字体：大中小】 时间：2026年05月10日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　魏媛|赵胜楠|赵川|林一婷|陈东龙|赵明浩山东大学普适智能计算重点实验室，济南250022，中国摘要联邦学习（FL）是一种分布式机器学习范式，它能够在保持隐私的同时实现去中心化数据上的协作模型训练。然而，由于客户端数据集中固有的统计异质性，其性能往往会受到严重

　　魏媛|赵胜楠|赵川|林一婷|陈东龙|赵明浩
山东大学普适智能计算重点实验室，济南250022，中国

摘要
联邦学习（FL）是一种分布式机器学习范式，它能够在保持隐私的同时实现去中心化数据上的协作模型训练。然而，由于客户端数据集中固有的统计异质性，其性能往往会受到严重影响。尽管基于簇的方法旨在缓解这一问题，但由于静态簇管理和簇内信息交换，它们通常会引入较大的计算开销和隐私风险。为了克服这些限制，本文提出了一种新的框架CAPFed，该框架采用了自适应且保护隐私的聚类策略。CAPFed的核心原则是在信息熵较高的训练阶段 opportunistically（即根据需要）执行聚类，因为在这些阶段进行簇调整对模型优化的影响最为显著。这种适应性是通过评估局部训练性能来动态实现的，确保在计算密集型聚类的影响可以忽略时将其最小化。此外，CAPFed还结合了身份匿名化协议，以防止整个聚类过程中的隐私泄露。作为一种模块化组件，CAPFed可以无缝集成到各种现有的FL优化算法中，以提高它们的性能。实验结果表明，CAPFed可将计算效率提高至6.7倍，并且其性能可以与最先进的方法相匹配或超越。

引言
联邦学习（FL）[1]、[2]、[3] 已经成为一种有前景的范式，因为它有效地解决了数据共享中的实际统计异质性和隐私问题。经典的联邦学习方法主要依赖于联邦平均（FedAvg）[1] 算法，这可以被视为FL领域的第一个最先进方法。在每一轮通信中，FedAvg利用每个客户端的本地计算在其独特的数据集上训练模型，然后依赖中央服务器汇总这些局部模型以生成更有效的全球模型。尽管FL已应用于各种实际应用[4]、[5]、[6]，但它仍然面临着统计异质性的挑战，这是由于每个客户端的生成过程各不相同；因此，他们的数据集通常不是独立同分布（non-i.i.d.）[7]。这种分布差异导致局部计算出的梯度与真正的全球梯度方向显著偏离[8]、[9]，局部模型倾向于过度拟合其特定数据，收敛到不同的次优最小值而不是期望的全局最优值[10]、[11]。这种偏差不仅会降低模型的收敛速度，还会降低其泛化能力，最终削弱整个FL系统的有效性和可靠性。因此，应对统计异质性的不利影响是开发稳健和可信的FL系统的关键前沿。此外，在面对梯度泄露攻击[12]、[13]等安全威胁时，平衡模型性能与强大的隐私保护仍然是一个基本挑战。这种挑战由于现实世界中分散数据集固有的统计异质性而变得更加复杂。

为了解决这一挑战，基于簇的策略被提出作为有前途的解决方案[14]、[15]、[16]、[17]、[18]、[19]。这些方法根据各种标准将客户端分组到簇中——例如局部数据集之间的关系[20]、[21]、模型更新的相似性[22]或设备特性[23]——允许同一簇内的模型从具有更相似数据分布的其他模型中学习。然而，聚类过程本身引入了一个新的关键隐私漏洞。为了确定相似性，客户端必须交换信息，这可能会无意中泄露关于其底层数据的敏感细节。因此，虽然聚类可以解决性能问题，但必须以确保隐私保护的方式进行这一过程。为此，同态加密（HE）等加密技术提供了一个强大的解决方案[24]。HE允许直接在加密数据（例如模型参数或其表示）上执行计算，而无需先解密它们。利用这些特性，客户端可以在不泄露原始模型信息的情况下安全地计算距离或相似性，从而在结构优化需求与严格的数据隐私要求之间取得平衡。

上述方法在解决统计异质性和隐私问题方面取得了显著进展。然而，它们仍然存在以下限制：
(a) 通信约束：FL系统的可扩展性和效率受到客户端之间通信的严重影响，特别是在大规模FL中。客户端对之间的数据交换复杂性增加，这可能是大多数FL方案基于“无客户端间通信”原则设计的原因。
(b) 可扩展性和计算复杂性：在实际FL中，由于客户端的参与度不断变化，聚类需要持续的调整，从而导致额外的计算负担。此外，在大规模联邦学习框架中实现聚类具有挑战性，因为客户端特征的维度较高，以及确保簇稳定性的成本。
(c) 隐私泄露风险：在FL计算外包情况下，使用第三方云服务器的服务提供商在执行聚类和模型聚合等任务时面临泄露客户端相似性的风险。这些信息与其他相关数据结合后，可能进一步推断出客户端之间的相关性[25]、[26]。

受这些挑战的启发，我们的问题是：我们能否开发一种能够在FL中高效实现聚类的方法，该方法能够根据FL阶段进行适应，保持客户端相似性，并确保与其他优化策略的兼容性，以维持可扩展性？为了解决这个问题，本文提出了CAPFed，旨在在存在统计异质性的情况下创建一种有效且保护隐私的聚类策略。CAPFed不依赖于特定的聚类算法，而是通过基于时间的概率来强调高效聚类。此外，CAPFed采用了基于洗牌的匿名技术来无痕迹地形成簇。我们的方法主要受到以下想法的启发：
(a) 受到关于关键学习期（CLP）[9]、[27]、[28]研究的启发，这些研究表明基础FL系统在初始训练阶段达到最大信息熵，我们认为CLP标志着一个关键聚类期（CCP）。在此期间，通过聚类算法可以更有效地改进模型。如图1所示，在CCP期间增加聚类频率可以优化模型改进，而在CCP之外降低聚类频率可以减少计算成本，但仍支持整体训练进度。因此，我们提出了一种动态概率方法，以适应性地调整聚类执行频率。
(b) 聚类本身会暴露客户端之间的相似性，为拥有额外信息的客户端提供了额外的隐私保护。特别是，我们提出了一种匿名化方法，使用洗牌技术来排列客户端标识符，确保在聚类期间它们的相似性保持不可区分。

由于CAPFed专注于服务器端架构，它可以与其他基线无缝配合使用，并且可以轻松集成以提高安全性和效率。我们在不同的实际数据集上进行实验，并将我们的方法融入几种最先进的方法中以评估性能提升。CAPFed显著优于七个最先进的基线，包括最近的聚类算法PACFL和AdaDP-CFL。具体来说，CAPFed的收敛速度比标准FedAvg快6.7倍，并且在不同客户端之间始终保持了模型的有效性。

我们的主要贡献总结如下：
• 我们开发了一种概率方法，用于在FL中自适应地执行聚类，显著减少了与聚类相关的计算负担。该方法与其他基于簇的技术兼容。此外，我们通过基于洗牌技术的易于计算的匿名化方法增强了聚类过程中的隐私保护。
• 我们提出了CAPFed，这是一个简化的模块，用于优化基于簇的FL方法的效率和隐私。该框架在严重非独立同分布（non-i.i.d.）条件下显著提高了训练效率，并实现了最佳训练性能。
• 在真实世界数据集上进行的实验表明，CAPFed可以有效地提高性能，超越了基线。

论文组织：第2节提供了相关工作的概述。我们在第3节概述了主要问题并详细介绍了我们提出的方法，第4.1节分析了CAPFed的安全属性。第5节评估了我们方法的性能。最后，第6节总结了我们的工作。

论文片段
联邦学习中的统计异质性
McMahan等人[1]首次系统地识别了统计上异质或非独立同分布（non-IID）数据对全球模型性能的不利影响。这一基础挑战引发了众多缓解策略的发展。例如，SCAFFOLD [8] 使用控制变量来纠正局部训练期间的客户端漂移，从而减少了局部更新的方差。然而，这种方法会引入显著的威胁。

在本文中，我们考虑了一个典型的FL场景，其中各个客户端使用私有数据在本地训练模型，并将它们发送到远程服务器进行汇总。对手可以分为诚实但好奇的对手和恶意对手。诚实但好奇的对手遵循标准的模型训练过程，但可能会尝试对服务器或客户端进行推断攻击。相比之下，恶意对手旨在修改模型参数或污染数据。

安全分析
我们考虑服务器S={BS,CSP}与一部分客户端U进行交互，并且底层加密原语使用安全参数κ实例化。

命题4.1 善良但好奇的服务器与好奇的安全性
给定一个安全参数κ、一组用户U和一组半诚实服务器S={BS,CSP}，让REALSU,κ是一个随机变量，表示S中各方在真实执行上述协议时的联合视图。存在一个概率多项式时间（PPT）模拟器SIM，使得SIM的输出...

实验设置
我们在四个常用的数据集上进行实验：MNIST、Fashion-MNIST（FMNIST）[51]、CIFAR-10和CIFAR-100 [52]。为了模拟非独立同分布的FL环境，我们应用了基于Dirichlet分布Dir(β) [53]的异构数据分割技术，这导致了客户端之间的数据点数量和类别分布不平衡。较小的β值表示数据分布的非独立同分布程度更高，从而带来更具挑战性和现实性的情况。

结论
本文提出了一种实现自适应聚类的方法，用于联邦聚类学习，命名为CAPFed，该方法通过利用不同学习阶段的性能变化动态调整当前训练轮次中应用聚类的概率，有效减少了聚类引入的冗余计算。这是一种在准确性和效率之间协调良好的模型优化解决方案。此外，考虑到聚类会暴露...

CRediT作者贡献声明
魏媛：撰写——审稿与编辑，撰写——原始草稿，资源，方法论，形式分析，数据管理。
赵胜楠：撰写——审稿与编辑。
赵川：撰写——审稿与编辑。
林一婷：撰写——审稿与编辑。
陈东龙：撰写——审稿与编辑。
赵明浩：撰写——审稿与编辑。

利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢
本工作部分得到了中国国家自然科学基金（62472252）、泰山学者计划（tstp20240828）、山东省自然科学基金（ZR2024QF131, ZR2023LZH014）、山东省科学技术厅（SYS202201）以及全城实验室研究项目（QCL20250204）的支持，还得到了中国青年教师科研创新能力支持项目的部分支持。

联系信箱：

粤ICP备09063491号

热点排行