FedCLIP-Distill：用于多领域视觉识别的异构联邦跨模态知识蒸馏方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：FedCLIP-Distill: Heterogeneous Federated Cross-Modal Knowledge Distillation for Multi-Domain Visual Recognition

【字体：大中小】 时间：2026年01月24日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　针对联邦学习多领域视觉识别中的异构数据分布和领域偏移问题，提出FedCLIP-Distill框架，利用CLIP模型进行跨域语义对齐，结合双领域知识蒸馏和对比关系蒸馏，有效缓解数据异构性并提升模型泛化能力，实验在Office-Caltech10和DomainNet上表现最优。

夏园坤|王辉|周宇峰

浙江师范大学计算机科学与技术学院，金华，321004，中国

摘要

在多领域视觉识别中，联邦学习（FL）面临显著挑战，这些挑战源于数据分布的异构性和领域间的差异，这些因素严重削弱了现有方法的语义泛化能力。为了解决这些问题，我们提出了FedCLIP-Distill这一新框架，该框架采用双领域知识蒸馏（KD）和对比关系蒸馏（CRD）技术，利用CLIP在异构FL环境中的强大视觉-语言对齐能力。我们的方法利用一个中央化的CLIP教师模型将稳健的视觉-文本语义蒸馏到轻量级的客户端学生模型中，从而实现有效的本地领域适应。我们提供了理论收敛性分析，证明了我们的蒸馏机制能够有效缓解领域差异，并在非独立同分布（non-IID）环境下促进稳健的收敛。在Office-Caltech10和DomainNet基准测试上的广泛实验表明，FedCLIP-Distill的表现优于其他方法：在Office-Caltech10上实现了98.5%的平均跨领域准确率，在DomainNet上实现了80.50%的准确率。在不同的异构情况下（例如，Dirichlet α = 0.5时），其准确率和泛化能力都有显著提升）。源代码可在以下链接获取：https://github.com/Yuankun-Xia/FedCLIP-Distill

引言

随着边缘计算生态系统的快速发展，由物联网（IoT）传感器、智能手机和医疗成像设备等设备生成的非结构化数据进入了快速增长阶段[1],[2]。然而，将这些数据集中起来用于模型训练引发了严重的隐私问题，并产生了巨大的通信开销[3]。针对用户生成内容的一般数据保护条例（GDPR）[4]严格禁止传输敏感的视觉数据。例如，将患者的MRI图像共享给中央服务器可能会违反患者隐私保护条款和监管合规要求。此外，边缘视觉数据的量巨大，导致通信开销极高。将此类数据传输到中央服务器会饱和网络带宽并引入不可接受的延迟，使得实时边缘应用的部署变得不可行[5],[6]。

联邦学习（FL）已经发展成为一种变革性的学习范式，以解决上述瓶颈[7],[8],[9]。在FL架构中，中央服务器协调多个分布式客户端共同训练一个共享的全球模型：每个客户端使用其私有本地数据训练本地模型，并仅将模型参数更新上传到服务器，服务器再通过聚合这些更新来迭代优化全球模型[10]。这种架构不仅通过将敏感的视觉数据保留在本地来保护数据隐私[11]，还显著降低了通信成本。例如，上传像MobileNetV2这样的轻量级视觉模型的参数更新仅消耗几兆字节的带宽，远低于传输原始数据所需的太字节级带宽。FL在各种计算机视觉任务中展示了其实用性，如图像分类[13],[14]和对象检测[15],[16]。

尽管FL具有巨大潜力，但其实际应用却受到一些根本性挑战的阻碍。主要障碍是数据异构性，表现为客户端数据的非独立同分布（non-IID）[17],[18],[19],[20]。这种现象源于用户行为模式、环境条件以及边缘设备硬件的差异。例如，智能手机拍摄的图像与笔记本电脑拍摄的图像具有完全不同的特征分布。更重要的是，设备的使用场景进一步加剧了数据分布的偏差。例如，低分辨率网络摄像头拍摄的图像通常具有显著的噪声和固定的视角，而高分辨率相机拍摄的图像则具有多样的光照和复杂的背景。这些数据采集设备和风格的差异导致特征分布发生严重偏移，使得客户端之间的数据与独立同分布（IID）假设显著偏离，从而削弱了全球模型聚合的效果。此外，模型异构性也是一个问题，它源于客户端计算资源和网络能力的差异。这种多样性导致本地模型架构和更新计划的不统一[21]，使得传统算法（如FedAvg[22]）采用的直接参数聚合方法无效或完全不可行。

在多领域视觉识别中，这些挑战进一步加剧。客户端数据不仅具有非独立同分布特性，还来自不同的领域[23]。以DomainNet数据集[24]为例（如图1所示），它包含6个具有明显不同视觉风格的领域，涵盖了345个对象类别。由于生成方法或收集场景的不同，每个领域的图像在视觉分布上存在显著差异。例如，“狗”这一类别在不同领域中的表现完全不同[25]。标准的FL框架难以解决这个问题，因为它们只关注参数聚合过程，无法有效对齐跨领域的语义表示，最终阻碍了跨领域泛化的协作学习目标。

为了解决这些相互关联的挑战，我们提出了一个新颖的FL框架FedCLIP-Distill，该框架将预训练的视觉-语言模型（CLIP）[26]与KD[27]有机结合。我们的方法专门设计用于克服传统FL框架在异构和多领域环境中的局限性。通过利用CLIP作为强大的、可泛化的表示作为全球教师模型，我们的方法有效缓解了领域差异的负面影响。同时，这些稳健的知识通过KD传输到轻量级且可能具有异构性的客户端模型中，从而解决了数据和模型的异构性问题。我们的框架能够训练出一种稳健、可泛化的模型，在不同的客户端和领域中实现卓越的性能和适应性，同时保护数据隐私。本文的主要贡献如下：

•

我们设计了一个联邦框架，其中CLIP模型作为中央教师来编码视觉-文本对应关系，而每个客户端上的轻量级学生模型则适应本地领域特征。这允许通过CLIP共享的语义空间进行跨领域知识转移，从而缓解数据异构性的影响。

•

我们引入了一种基于领域的蒸馏损失，使用领域分类器来最小化领域间的特征差异，并通过视觉-语言对齐正则化来强制学生生成的视觉嵌入与CLIP的文本嵌入之间的一致性。这些组件共同增强了领域泛化和语义一致性。

•

在Office-Caltech10和DomainNet上的广泛实验表明，FedCLIP-Distill在跨领域准确率和对抗数据异构性的鲁棒性方面均优于基线方法，验证了我们的跨模态FL方法的有效性。

本文的其余部分组织如下。第2节介绍相关工作。第3节和第4节介绍问题定义和系统架构。第5节提供了我们方案的收敛性分析并证明了其有效性。第6节进行了实验评估。最后，第7节总结了本文。

小节片段

FL中的数据异构性

数据异构性，表现为客户端之间的非独立同分布（non-IID）数据，在FL中构成了重大挑战[28],[29]。早期的缓解策略集中在规范本地训练过程上。例如，FedProx[30]使用近端项来约束接近全球模型的本地更新，而Scaffold[31]使用控制变量来减轻客户端漂移。然而，这些方法通常无法应对严重的分布变化，也无法解决系统异构性问题，如客户端之间的差异

CLIP

CLIP是多模态学习领域的一个开创性框架，专为图像-文本预训练而设计[26]。给定一组（图像，文本）对，表示为

D = {(x_{m}, y_{m}) m = 1 | D |

，CLIP执行了一个关键的图像-文本对齐任务。其核心是优化联合嵌入空间，以最大化相应图像-文本对之间的余弦相似度，同时最小化不匹配对之间的相似度。CLIP架构由两部分组成

FedCLIP-Distill概述

在接下来的部分，我们将详细介绍我们提出的FedCLIP-Distill框架，如图2和算法1所示。在联邦多领域学习（FML）部分，我们介绍了一个协作训练流程，其中全球服务器与本地边缘设备协调训练特定领域的学生模型，同时聚合来自预训练的全球教师模型的知识。随后，双领域KD部分详细阐述了双向知识转移的过程

收敛性分析

考虑到FedCLIP-Distill的异构性情况，我们在明确的数学假设下证明了我们算法的收敛性。

实验设置

为了验证我们方法的有效性，我们使用Office-Caltech10 [46]和DomainNet [24]基准测试对领域适应任务进行了评估。

数据集 我们使用了两个专为领域适应研究设计的数据集：1) Office-Caltech10：该数据集包含四个领域，即amazon(a)、caltech(c)、dslr(d)和webcam(w)。它在Office-31和Caltech-256数据集之间有10个重叠的对象类别。每个领域的图像数量不等

结论与未来工作

在本文中，我们介绍了FedCLIP-Distill，这是一个创新的框架，它将KD机制集成到FL中，并利用预训练的CLIP模型处理多领域场景。我们设计了双领域KD，结合多领域蒸馏来弥合领域间的语义差距，并结合CRD来增强特征的区分能力。我们不仅从理论上证明了模型的收敛性，还通过大量实验验证了模型的有效性

作者协议

提交作品时要求该作品尚未发表。一旦被接受，作者将授权知识系统部分或全部出版和分发该手稿。作者的名字将始终包含在手稿的出版物中。

作者享有以下非独占权利：（1）在作者的教学活动中使用该手稿；（2）出版该手稿，或允许其出版

CRediT作者贡献声明

夏园坤：概念化、方法论、调查、形式分析、数据整理、可视化、写作——原始草稿。王辉：资源获取、资金筹集、写作——审阅与编辑。周宇峰：验证、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了中国国家自然科学基金（项目编号62171413）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言