联邦学习(FL)最早由谷歌在2016年提出[1],它允许在多个设备或组织之间进行协作式模型训练,而无需集中访问原始数据。通过仅允许参与者(客户端)交换模型更新而不是敏感的本地数据,FL提供了强大的隐私保护,并显著降低了数据泄露的风险[2]、[3]。因此,FL已被广泛应用于医疗保健、金融和智能交通系统等对隐私敏感的应用领域。
尽管具有这些优势,但在实际应用中,传统FL面临一些根本性挑战。特别是,客户端数据通常并不符合独立同分布(IID)的假设。由于高度非IID的本地数据集导致的统计异构性常常会导致客户端漂移和收敛行为不稳定。此外,设备能力的巨大差异引入了系统级限制,因为本地训练通常需要大量的计算和内存资源,使得标准FL在资源有限的设备上难以实现。这些问题还因去中心化和异步更新而变得更加复杂,这经常导致收敛速度慢和全局模型性能不佳[4]、[5]。
为此,最近的一些异构联邦学习方法不再交换完整的模型参数,而是共享各种形式的全局知识,以减少通信开销并提高模型性能[6]。其中,基于原型的方法(如FedProto)通过在服务器上进行加权平均来聚合来自不同客户端的局部类原型。虽然这种方法简单且通信效率高,但它隐含地假设所有客户端的局部原型是可比较的且信息量相当。然而,在异构环境中,这种假设很少成立,因为客户端在数据量、数据质量和特征提取能力方面存在显著差异。因此,简单的平均往往无法准确反映每个客户端的真实贡献,导致全局原型存在偏差,从而影响性能[7]。
此外,由不同客户端生成的原型在规模、分散度和分离边界上存在差异。直接对这些异构原型进行平均会导致全局原型的判别能力下降,类间边界变窄——这种现象称为原型边界收缩。尽管FedTGP通过引入可训练的全局原型和自适应边界部分缓解了这一问题,但它仍然依赖于基于均值的局部原型构建和聚合方法。因此,本地数据分布中丰富的类内结构信息未能得到充分利用,限制了局部和聚合后全局原型的准确性,特别是在严重异构性条件下[8]。
更根本的是,基于均值的原型聚合在异构特征提取器下存在固有局限性。当客户端使用不同的骨干架构或学习具有不同几何特性的表示时,局部类原型不再位于一个共享的、可比较的特征空间中。在这种情况下,即使按数据量加权,简单的平均也无法准确反映真实的语义中心。
这种局限性是结构性的,而非算法上的:一旦异构特征分布被压缩到一个中心点,任何聚合权重的选择都无法恢复丢失的类内结构信息。因此,在异构联邦学习环境中,原型偏移和边界收缩不仅是优化过程中的副产品,而是基于均值构建原型的必然结果。
图1展示了不同原型聚合策略的对比。左侧面板显示了原始特征空间,其中橙色圆圈和蓝色三角形代表来自两个不同类的样本。右侧面板分别展示了通过简单平均和提出的自适应聚类策略得到的聚合原型。
与基于均值的聚合不同,后者将同一类的所有样本压缩到一个中心点,从而掩盖了内在的结构差异,而自适应K均值方法动态地为每个类确定适当的聚类数量,并识别多个代表性的子中心。通过显式建模类内子结构,该方法保留了细粒度的特征分布,减轻了由异构性引起的原型失真。因此,得到的原型为分类提供了更详细的语义指导,从而在异构和非独立同分布数据下实现了更准确的决策边界和更好的鲁棒性。
此外,大多数现有的异构联邦学习方法要么隐含地假设分类器是同质的,要么采用简单的局部分类器融合策略。这些设计大多忽略了在客户端之间显式协调分类器知识的潜力,从而错过了有效整合全局语义信息与客户端特定决策特性的机会。结果,局部分类器在数据异构性和类别不平衡的情况下往往具有模糊或次优的决策边界[9]。
要解决这些问题,必须超越那些优先考虑最小化计算或通信效率的设计。特别是,要减轻原型失真和有害的分类器协作,需要显式建模类内结构和客户端之间的语义相似性。虽然这不可避免地会增加计算成本,但这种开销对于解决上述结构问题至关重要。
为了解决这些问题,我们提出了FedACA,这是一个将原型优化与基于相似性的分类器协作相结合的异构联邦学习框架。FedACA由三个紧密连接的组件组成:
•自适应K均值聚类(A-KMeans)用于局部原型优化。A-KMeans通过自适应捕获类内子结构,而不是将异构特征压缩到一个中心点,从而减轻了由异构特征提取器引起的原型偏移。
•聚类头匹配(CHM)用于选择性分类器协作。CHM根据原型引导的语义相似性对客户端进行分组,避免了不兼容分类器之间的有害聚合,并减轻了由类别不平衡引起的分类器偏差。
•个性化头融合(PHF)用于平衡全局指导和局部适应。PHF将组级聚合的分类器与局部分类器自适应融合,从而实现更清晰、更可靠的客户端特定决策边界。