基于动态类别感知和门控协同优化的异构联邦学习框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　针对联邦学习中客户端模型异构性导致的特征对齐困难、聚合失衡及个性化不足问题，本文提出FedDCG框架，通过动态类感知特征对齐、加权注意力融合及自适应门控预测头融合机制，实现异构客户端的高效协作学习，在保持全局模型精度的同时提升个性化性能。

Jinquan Zhang|Rendong Yang|Yuncan Tang|Lina Ni

山东科技大学计算机科学与工程学院，中国青岛，266590

摘要

联邦学习（FL）允许在分散的客户端之间进行协作模型训练，而无需共享原始数据，为分布式学习提供了一种保护隐私的解决方案。然而，在现实世界场景中，参与客户端在模型架构、参数配置和计算能力方面往往存在显著差异。这种模型异质性不仅阻碍了本地模型之间中间特征表示的对齐，也降低了服务器端全局知识聚合的效果。因此，客户端模型的个性化和预测性能都可能受到影响。为了解决这些问题，我们提出了FedDCG，这是一个基于动态类别意识和门控协作优化的异构联邦学习框架。具体来说，我们提出了一种投影类别级特征对齐（PCFA）策略，将多样化的高维特征映射到一个统一的低维空间中，从而实现异构客户端模型之间的语义对齐表示。为了提高全局表示的质量，我们设计了一种动态类别感知特征融合（DCAF）方法，该方法以加权方式聚合跨类别的特征，并通过自注意力机制结合语义关系。此外，我们还设计了一种门控自适应预测头融合（GPHF）机制，该机制根据输入特定的特征语义动态整合全局和局部预测头，从而增强模型的个性化和预测准确性。在各种模型异质性设置下的实验结果表明，FedDCG能够有效地支持异构客户端之间的协作学习，同时保持竞争性的准确性和泛化能力。这些结果表明，FedDCG非常适合涉及参与者架构多样性的联邦学习场景。

引言

联邦学习（FL）作为一种有前景的协作机器学习范式，能够在不直接访问原始数据的情况下实现分布式模型训练，从而有效解决分布式环境中的数据隐私和安全问题[1]、[2]、[3]。FL通过仅将模型参数或表示传输到中央服务器来利用本地客户端更新，在医疗保健、移动计算和物联网（IoT）等多个领域得到了应用[4]、[5]、[6]。

尽管FL具有潜力，但在实际部署中仍面临一系列挑战，其中模型异质性最近受到了越来越多的关注[7]、[8]。在异构FL（HFL）场景中，由于计算能力、存储限制或特定应用设计要求的不同，客户端可能会采用不同的模型架构[9]、[10]。例如，移动设备通常配备轻量级模型，而服务器或计算能力较强的客户端则可以支持更深层次和更复杂的架构。这种架构差异阻碍了传统FL算法（如FedAvg[11]）的直接应用，因为这些算法假设所有客户端具有统一的模型结构。这种不匹配使得中间表示的对齐变得复杂，降低了全局聚合的性能，并削弱了异构模型设置中个性化策略的效果。因此，模型异质性仍然是联邦学习系统实际部署的关键障碍[12]、[13]。

尽管存在这些挑战，但在HFL中已经有一些方法在促进具有不同模型架构的客户端之间的协作方面取得了显著进展。这些方法通过特征空间对齐或知识蒸馏实现了跨模型知识转移，将异构输出映射到一个共享的表示空间[14]、[15]。然而，这些方法通常面临（P1）语义不一致的问题，即不同客户端中表示同一类别的特征由于架构差异而编码了不兼容的信息。这种不一致性破坏了跨客户端表示的对齐，可能导致全局聚合产生噪声或效果不佳[16]、[17]。为了缓解架构差异，一些研究探索了部分模型共享或模块化聚合[18]、[19]，其中只同步特定的层或子模块。然而，这些聚合策略通常存在（P2）不平衡聚合的问题，因为它们不考虑客户端的数据量或质量，从而降低了公平性并削弱了全局模型的表达能力。此外，还开发了个性化联邦学习框架来平衡全局泛化和局部适应。然而，大多数现有方案依赖于（P3）僵化的个性化方法，使用固定的权重组合全局和局部预测，而不考虑输入语义或客户端特定特征[20]、[21]。这种缺乏灵活性限制了模型的适应性，并削弱了异构环境中的个性化性能。

为了解决上述挑战（P1-P3），并受到FedGH[22]中用于缓解模型异质性的全局头策略以及pFedMoE[23]中个性化机制的启发，我们提出了FedDCG，这是一个基于动态类别意识和门控协作优化的异构联邦学习框架。具体来说，为了解决P1问题，我们设计了投影类别级特征对齐（PCFA）模块，该模块通过结合正交投影和类别级平均的新型类别级对齐机制，专门解决了由异构客户端之间的架构差异引起的语义不对齐问题。为了解决P2问题，我们提出了动态类别感知特征融合（DCAF）模块，该模块与基于注意力的标准聚合不同，它通过集成样本感知的加权聚合和自注意力来同时建模类间语义依赖性和平衡来自具有不同数据分布和模型能力的客户端的贡献。为了解决P3问题，我们开发了门控自适应预测头融合（GPHF）模块，该模块通过采用新颖的输入感知门控策略和特征自适应调整以及规则化融合，根据输入特定的语义和客户端特征动态平衡全局和局部知识。FedDCG设计了一个统一的动态优化机制，允许语义对齐、自适应聚合和个性化预测相互作用，为解决FL中的模型异质性问题提供了新的视角。

总结来说，本文的主要贡献如下：

•

我们提出了FedDCG，这是一个统一的异构联邦学习框架，通过动态类别感知目标共同优化特征对齐、自适应聚合和门控个性化。与独立解决语义不一致性、聚合不平衡或个性化僵化的现有方法不同，FedDCG引入了一个将这三个方面结合在一起的相互依赖的优化机制。

•

我们提出了PCFA来解决异构客户端模型之间特征表示不对齐的问题。该策略将客户端特定的高维特征映射到一个共享的低维空间，并进行类别级平均，以确保有效的对齐和聚合。

•

我们设计了DCAF来解决全局聚合过程中捕获类间关系的困难。它结合了样本感知的权重和自注意力机制来建模语义依赖性，从而产生更具表现力的全局特征。

•

我们提出了GPHF来解决模型异质性下的个性化挑战。该机制使用轻量级的门控网络根据输入特定的语义自适应地结合全局和局部预测头，使模型能够根据每个客户端的数据分布改进个性化和预测准确性。

•

我们在具有不同模型架构的多个基准数据集上对FedDCG进行了全面评估，证明了其有效性和泛化能力。

本文的其余部分结构如下。第2节讨论了相关工作。第3节详细描述了系统模型和优化目标。第4节介绍了我们框架的方法论组成部分。第5节对FedDCG的收敛性进行了分析。第6节报告了实验结果，以评估所提出模型的性能。最后，第7节总结了本文。

章节片段

系统模型和优化目标

在本节中，我们首先介绍了FedDCG框架的总体架构，并详细介绍了其训练过程。然后，我们提出了所提出方法的优化目标。

方法论

在本节中，基于方程（1）中制定的优化目标（旨在最小化异构客户端之间的聚合经验风险），我们介绍了FedDCG的详细算法组件。该框架通过PCFA实现跨客户端表示的对齐，将多样化的本地特征映射到一个共享的低维空间；通过DCAF通过加权聚合和自注意力捕获类间语义依赖性

收敛性分析

在本节中，我们对算法进行了收敛性分析，以理论证明FedDCG的有效性。

实验

在本节中，我们对所提出的FedDCG框架进行了全面的实验评估。我们首先介绍了实验设置，包括数据集、基线方法和配置。然后，我们在模型异构FL场景下进行了系统实验，进行了准确性比较、敏感性分析和消融研究，以验证我们方法的有效性。

结论和未来工作

在本文中，我们提出了FedDCG，这是一个旨在解决模型异质性挑战的异构联邦学习框架。该框架包括三个核心模块：PCFA用于语义对齐的特征投影和聚合，DCAF用于类感知和注意力增强的全局特征融合，以及GPHF用于根据输入特定的特征语义自适应地整合全局和局部预测头。在各种异构设置下的实验结果表明

CRediT作者贡献声明

Jinquan Zhang：撰写——审稿与编辑，软件。Rendong Yang：撰写——初稿，软件，概念化。Yuncan Tang：撰写——审稿与编辑。Lina Ni：监督，项目管理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了山东省自然科学基金的支持，项目编号为ZR2022MF338、ZR2023LZH018；以及齐鲁工业大学（山东科学院）计算动力网络与信息安全重点实验室的开放项目，项目编号为2024ZD004。

联系信箱：

粤ICP备09063491号

摘要

引言