作为分布式协作范式,联邦学习(FL)能够在不暴露原始数据的情况下实现多源知识共享,有效平衡了边缘协作与分布式设备之间的隐私安全之间的权衡[1]、[2]、[3]。因此,FL在智能医疗[4]、[5]、智能交通[6]、[7]和城市感知系统[8]、[9]等众多领域具有巨大的应用潜力。在典型方法[10]中,中央服务器通过平均边缘设备上部署的客户端模型来迭代构建全局模型,然后将其重新分配用于下一轮的局部训练,试图收敛出一个适用于所有客户端的高性能全局模型。然而,由于现实世界场景中的数据异质性持续存在,这种方法会导致局部和全局优化方向之间的不一致[11],从而降低FL模型的性能,甚至可能阻碍收敛[12]。
为了解决数据异质性问题,许多方法尝试通过利用全局知识[12]、[13]、[14]、[15]来强制局部优化方向与全局目标的对齐,或者通过个性化定制[16]、[17]、[18]、[19]来增强局部优化。然而,这些方法存在三个关键限制:1) 单域假设。它们主要假设客户端数据来自单一的 homogeneous 域,忽略了多域场景中的域迁移挑战[20]——例如素描和油画之间的风格差异,或者沙漠与雨城道路图像之间的天气相关偏差。2) 天真的全局知识。它们依赖于简单的全局知识融合策略(例如模型参数或梯度的线性组合[12]、[18]),这些策略无法准确描述复杂的跨域分布差异,并建立明确的语义优化目标。3) 弱一致性约束。它们缺乏强大的全局一致性约束机制。具体来说,它们在局部训练阶段对全局知识的利用效率低下,例如L2正则化项[15]、[16]所示。
在这三个限制下,大多数现有方法无法获得与域无关的全局目标,并有效地约束局部训练以与其对齐,导致客户端模型优先适应局部数据分布。这表现为图1中的跨域特征空间不对齐、决策边界模糊,以及最终的严重跨域性能下降。因此,现有方法难以同时提升客户端模型的局部性能和跨域泛化能力,从而严重削弱了FL服务的实际效用和质量。例如,当客户端遇到分布外的数据时,泛化能力差的模型无法维持稳定的推理质量。因此,设计复杂的全局知识表示方法并结合高效的局部优化机制来共同提升客户端模型的局部适应性和跨域泛化能力已成为一个关键挑战。
为了丰富全局知识的表达,我们考虑使用原型[15]、[21]作为额外的信息载体。原型定义为同一类别内样本的平均特征向量,它们编码了紧凑且具有区分性的类别级参考知识,同时与传输完整模型参数相比,通信开销可以忽略不计。传统的基于原型的方法(如FedProto[15])通过用客户端原型平均值聚合的全局原型来减少通信成本。然而,这种平均操作降低了特定于域的知识多样性。为了解决这个问题,FPL[20]构建了类别级簇原型以捕捉更丰富的域差异。同时,在FPL中使用无偏原型(簇原型的平均值)作为全局目标信号。然而,这些方法存在潜在的缺点:客户端原型不可避免地将标签语义与域风格信息混合在一起,导致全局原型相互纠缠,干扰了客户端学习与域无关的语义特征的能力。
此外,原型的轻量级本质意味着客户端知识的不完整性。由于它仅依赖原型进行全局知识传输,并且仅使用与类别匹配的全局原型来制定正则化约束,FedProto无法有效地指导客户端学习在域和客户端之间保持不变的与任务相关的特征。这表现为无法为来自不同客户端的相同标签样本在特征空间中形成统一簇的现象(见第4.3节的图4和[15]中的图2)。这一现象表明,客户端模型由于局部过拟合而陷入了明显的归纳偏差,这表明需要严格校准模型参数共享,并充分利用原型的指导潜力。因此,为了对客户端施加强一致性约束并提升客户端模型的泛化能力,我们考虑在构建高效局部优化机制的同时保留模型协作,通过结合对比学习[22]来实现。
为了解决联邦学习中由于域迁移导致的客户端模型跨域性能下降的问题,我们提出了一种基于对比特征解耦(FedCode)的联邦学习框架。该框架通过双重原型学习(DPL)获取更细粒度的全局知识,然后通过对比特征解耦(CFD)充分利用这些知识来进行与风格无关的语义特征学习,从而同时提升客户端模型的局部性能和跨域泛化能力。
首先,在DPL中,每个客户端使用风格感知编码器和通用语义编码器分别提取独立的特定于域的风格特征和跨域不变的语义特征。此外,在服务器端,通过客户端风格原型聚类生成全局域风格原型,而全局语义原型则是通过平均客户端语义原型形成的。全局域风格原型捕获了丰富的域知识,而全局语义原型建立了全局语义收敛目标。
其次,在CFD中,我们在客户端引入了语义对比学习(SemCL)和风格对比学习(StyCL)。SemCL强制相同标签样本的特征对齐,同时区分不同标签样本的特征,从而建立全局一致的语义空间。同样,StyCL使同一域的风格特征趋于统一,同时区分不同域的特征。此外,SemCL和StyCL还强制样本的风格特征和语义特征之间的分离。同时,我们结合了特征解耦正则化(FDR),通过加强风格特征和语义特征之间的正交性来促进解耦,从而防止风格信息干扰语义特征学习。
最后,DPL和CFD的协同效应使FedCode能够学习用于下游任务的跨域不变语义特征。本文的主要贡献如下:
•我们提出了DPL,一种联邦双重原型学习策略。DPL通过差异化的聚合构建全局域风格和语义原型,提供丰富的域知识和与域无关的语义目标。
•我们提出了CFD,一种对比特征解耦优化机制。CFD通过特征对齐和解耦鼓励学习纯化的与风格无关的语义特征,从而提高客户端模型的泛化能力和局部语义区分能力。
•在Digit5 [23]、PACS [24]和OfficeHome [25]上的广泛实验表明,FedCode在局部适应性和跨域泛化能力方面都表现出色。例如,在PACS上,FedCode的准确率提高了7.52%,同时跨域性能下降幅度减少了5.02%。
本文的其余部分组织如下:第2节回顾了最相关的工作。第3节详细介绍了提出的FedCode框架。第4节通过一系列实验和分析验证了FedCode的有效性。第5节讨论了限制和未来的工作。最后,第6节总结了本文。