具有上下文感知客户端协作的联邦学习:挑战、进展与未解决的问题

《TRENDS IN FOOD SCIENCE & TECHNOLOGY》:Federated Learning with Context-Aware Client Collaboration: Challenges, Advances, and Open Problems

【字体: 时间:2026年05月10日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4

编辑推荐:

  索鲁什·扎耶尼贾德 | 萨伊德·萨梅特 温莎大学,加拿大安大略省温莎市,N9B 3P4 **摘要** 联邦学习(FL)是谷歌在2016年引入的一种分布式机器学习(ML)的变革性范式。它解决了分布式ML中的主要挑战,特别是在大数据环境中,如隐私、可扩展性和异构性等问题

  索鲁什·扎耶尼贾德 | 萨伊德·萨梅特
温莎大学,加拿大安大略省温莎市,N9B 3P4

**摘要**
联邦学习(FL)是谷歌在2016年引入的一种分布式机器学习(ML)的变革性范式。它解决了分布式ML中的主要挑战,特别是在大数据环境中,如隐私、可扩展性和异构性等问题。本文回顾了FL的基础知识,包括其在隐私敏感环境以及医疗保健、物联网(IoT)和智慧城市等多样化应用中的优势。同时,也探讨了通信开销、计算成本和异构性等主要挑战。本文引入了一种分类体系,根据数据分布、客户端参与度、通信策略和聚合方法对FL场景进行分类。并对现有技术研究和框架从效率、隐私性和性能方面进行了分析。此外,本文还探索了基于上下文的客户端协作策略,以优化FL并部分应对其中的挑战。提出了利用地理信息将客户端按区域分组以提高效率的方法,并建议在早期阶段优先考虑处理简单数据的客户端,逐步引入处理复杂数据的客户端。通过基于数据相似性对客户端进行聚类,可以提升性能并减少聚合过程中的冲突。还探讨了使用图神经网络(GNN)进行拓扑优化,以根据客户端属性动态调整通信模式。最后,本文概述了开放性挑战和未来研究方向,作为FL领域的潜在研究路线图。

**引言**
机器学习和神经网络通过使系统能够学习模式、进行预测和生成数据,彻底改变了许多行业和研究领域。集中式ML是最初的范式,其中来自单一来源(如传感器)或多个来源(如不同设备或组织)的数据被汇总到一个中央服务器上。这些汇总的数据集使得模型能够实现高精度,因为模型可以均匀地访问所有数据。然而,集中式ML存在一些固有的挑战,例如处理大规模数据集时的可扩展性问题、高昂的计算成本,以及与收集敏感信息相关的重大隐私和安全风险[1]。为了解决这些问题,研究人员探索了分布式学习范式,通过将数据和工作负载分散到多个计算节点上来实现训练过程的去中心化。虽然分布式ML能够支持大规模模型训练,但它也带来了新的挑战,包括同步问题、通信开销以及隐私和安全风险[2]。

在分布式ML中,每个训练节点仅负责对其数据子集进行模型训练。服务器通常为节点提供独立同分布(IID)的训练数据,并确保稳定的连接和足够的计算资源以实现高效训练。FL通过将客户端视为独立实体而非计算资源来改变这一范式,这些客户端的计算能力不同且连接不稳定,导致数据分布不均且非IID[3]。FL不是通过汇总和重新分发数据,而是让模型直接在数据持有者的系统上进行训练。这种方法确保数据保留在原始位置,特别适用于医疗保健等需要保护患者信息的敏感领域[1]。

近年来,许多研究从不同角度对FL进行了调查。一些研究提供了关于挑战和应用的全面概述[4][5],而另一些研究则聚焦于特定领域,如边缘计算[6]、数据挖掘[7]或垂直FL[8][9]。关于FL的安全性和隐私性,也有大量研究分析了威胁、防御措施和政策方面[10][11][12]。还有一些研究讨论了去中心化FL(DFL)[2][13]、个性化与鲁棒性[14]、评估方法[15]以及联邦迁移学习(FTL)[16]。最近的一些综述扩展了对联邦环境中基础模型和大型语言模型的关注[17][18][19][20]。尽管这些研究通过提供有用的分类体系推动了FL的发展,但大多数研究仅关注单一视角或领域,范围较为有限。相比之下,本文提供了一个统一的调查和分类体系,整合了数据组织、客户端参与度、通信架构和聚合方法等多个维度,并从不同角度回顾和比较了现有的FL框架。此外,本文明确引入了基于上下文的客户端选择概念,提出了地理感知分组、基于课程的参与策略、相似性驱动的聚类以及使用GNN进行拓扑优化等方法,旨在改进客户端选择过程,从而提高FL系统的整体效率和性能。

为了明确这些差异,表1总结了以往FL研究的覆盖范围、挑战、分类体系、最新方法、现有框架和创新贡献,并将其与本文采用的统一视角进行了对比。为提高可读性和避免歧义,本文中引用的主要术语和概念在表3中进行了总结和定义。

本节概述了FL及其两个密切相关的范式:大数据和隐私保护ML,并探讨了FL如何应对每个概念的挑战。本文还分析了FL的挑战、应用、评估指标和聚合方法,以全面理解其潜力和局限性。本文的主要贡献包括:
- 提供了FL的概述,包括概念、应用、挑战、框架和评估指标;
- 引入了涵盖数据分布、客户端参与度、通信和聚合的多维分类体系;
- 提出了基于上下文的客户端协作策略;
- 通过概念验证实验展示了所提出的基于上下文的客户端协作策略的潜力。本文强调,虽然这主要是一项调查性工作,但也提出了旨在指导未来基于上下文的联邦学习研究的概念性和实证性贡献。

FL作为解决分布式ML中隐私和可扩展性挑战的方案应运而生。FL的初衷是在不将原始数据传输到中央服务器的情况下协作训练模型。通过在原始位置保留数据,FL在最小化数据传输成本的同时保护了用户隐私。FL允许数据持有者仅与中央服务器或其他客户端共享模型更新(如梯度或权重),从而保护本地数据集的安全。这些本地训练得到的更新被汇总以优化全局模型。FL不仅增强了隐私性,还优化了可扩展性,特别适用于涉及大量、敏感或地理分布广泛的数据的应用。

图1展示了FL的流程概览。它包括一个初始化步骤,随后是三个关键阶段的迭代循环:(1)将全局模型分发给参与节点(也称为客户端);(2)每个客户端在其私有数据上进行本地训练;(3)汇总这些更新以完善全局模型。这个迭代循环会持续进行,直到模型收敛。仅共享模型参数并在客户端上进行训练可以在一定程度上解决大数据、隐私和安全方面的挑战。以下段落简要介绍了这些概念及其挑战,并说明了FL如何缓解这些挑战。

**大数据**指的是来自社交媒体、传感器和交易等各种来源的极具规模和复杂性的数据。大数据的主要特征是“三大V”:体积(Volume)、速度(Velocity)和多样性(Variety)[22]。乐观地看,这些特性通过提供广泛和多样的训练数据集促进了更准确的ML模型的发展。然而,大数据也带来了可扩展性和数据异构性等重大挑战[5][23]。大多数传统ML方法由于无法处理大数据的规模、复杂性和增长速度而无法有效应用。FL通过提供无需集中数据汇总的协作模型训练来应对这些挑战,利用分布式设备的计算能力并通过模型压缩等技术提高通信效率,从而减轻服务器负担[24]。此外,FL通过元学习、联邦迁移学习和新型的FedAF(无需聚合)等方法来适应不同来源的数据分布,从而提升全局模型的性能[23][25]。

另一方面,隐私指的是用户控制个人数据存储、共享和使用方式的权利。隐私保护技术旨在降低识别个体或泄露敏感属性的风险,确保个人数据仅被授权方访问[27]。安全性通过加密、安全存储协议和有效的恢复机制等措施保护数据免受未经授权的访问、篡改和滥用[28]。传统的隐私保护技术最初是为小型和集中式数据集开发的,往往无法应对分布式系统和大规模数据的复杂性问题[27]。随着分布式计算方案的兴起,对强大且可扩展的隐私和安全框架的需求变得至关重要。这些框架必须解决数据完整性维护、防止未经授权访问以及确保系统在潜在漏洞或攻击下的无缝运行等问题[2]。

随着数据驱动技术的发展,关于数据滥用、未经授权访问和隐私泄露的担忧促使制定了严格的规定,如《通用数据保护条例》(GDPR)[29]和《健康保险可移植性和责任法案》(HIPAA)[30]。这些区域性的法规规定了个人和敏感数据的收集、共享和使用方式。欧盟的GDPR和美国管理医疗保健数据保护的HIPAA是最著名的法规。其他法规还包括加利福尼亚消费者隐私法(CCPA)、加拿大的PIPEDA、巴西的LGPD和中国的PIPL以及新加坡的PDPA。这些法规大多遵循GDPR的原则,但根据地区差异有所调整。

现有的FL框架大多集成了隐私保护技术,如安全多方计算(SMC)和差分隐私(DP),以符合这些法规要求。然而,这些方法往往会在模型性能或系统效率方面带来trade-offs[31]。

FL在处理私有和大规模数据的应用中得到了广泛应用。在医疗保健领域,FL使机构能够在遵守HIPAA等隐私法规的前提下协作训练AI模型[4][7][32]。在金融领域,FL用于欺诈检测和风险管理,银行和金融机构可以利用FL训练共享模型而不泄露客户机的敏感数据[4][32]。FL还通过使用设备上的用户数据进行个性化广告推荐[4]。FL也应用于自动驾驶和交通系统,其中车辆和传感器的分布式数据被用于提高安全性和效率,而无需暴露原始数据[7][32]。在智慧城市发展方面,FL通过分析来自各种分布式传感器的数据来优化交通管理、污染监测和能源利用。FL无需传输原始数据(如设备活动日志和监控视频),即使涉及众多设备也确保学习过程的隐私性和安全性[4]。FL特别适合工业物联网(IIoT)环境,因为边缘设备(如传感器、执行器和工业机器)产生的数据量巨大。传统的集中式学习方法在IIoT环境中面临数据迁移、隐私问题和资源限制等挑战。FL通过在设备上进行模型训练来应对这些问题,应用于预测性维护、流程优化和异常检测等领域[4][7]。

FL在解决大数据和隐私挑战方面取得了显著进展,但也引入了一些新的挑战,这些挑战源于其去中心化的特性和应用的多样性,包括技术、运营和伦理方面的问题,如通信开销、可扩展性和隐私问题。在本节中,我们将详细分析这些挑战。联邦学习(FL)中最关键的挑战之一是通信开销。与传统的机器学习(ML)方法不同,后者通常涉及一个中央服务器处理数据集,而FL需要许多去中心化设备之间频繁的通信,可能还需要一个中央服务器。这种模型更新的重复交换会导致显著的通信成本,尤其是在带宽有限和设备能力多样的大规模网络中[4]。客户选择是一种常见的方法,它对联邦模型的效率有重大影响。存在多种客户选择方法,包括随机选择、加权选择和资源感知选择,每种方法都有其自身的特点和局限性。随机选择客户可能会因为某些客户的硬件或网络限制而导致性能低下和效率不足。基于数据量等因素进行加权选择可能会引入偏见并降低参与的公平性。虽然资源感知选择可以解决硬件和网络限制问题,但它可能计算成本较高,并且可能会排除资源有限的客户,从而可能降低模型的泛化能力和公平性[4]。模型压缩是另一种广泛用于减少FL通信开销的方法。这种方法的主要目标是减少客户端和服务器之间传输的参数数量。不同的模型压缩方法包括量化、剪切、稀疏化和知识蒸馏。考虑到它们的缺点,量化会降低模型参数的精度,尤其是在处理复杂任务时。剪切会去除模型中不太重要的权重,如果执行不当,可能会影响模型性能。稀疏化只发送部分模型更新,可能导致收敛速度变慢和性能下降。知识蒸馏通过将知识转移到较小的模型中来减小模型大小,但这种方法可能会引入额外的训练开销,并且对于某些类型的数据或任务效果较差[22]、[23]。系统和数据的异质性是FL中的另一个重大挑战。系统异质性指的是参与训练过程的设备的多样性,这些设备的计算能力、网络连接性和存储容量各不相同。另一方面,数据异质性指的是每个设备收集的数据在性质、质量和统计分布上的差异。例如,非独立同分布(non-IID)数据分布会导致训练集和测试集不匹配、局部更新偏差以及全局模型性能下降[22]。文献中提出了几种方法来解决这些挑战。个性化技术使全局模型更好地适应个别客户的特定数据分布[33]。尽管有这些好处,个性化可能会降低全局模型的泛化能力,并增加客户的计算成本。聚类FL将具有相似数据分布的客户分组,为每个组训练单独的模型。然而,这种方法严重依赖于准确的且计算成本较高的聚类。FL中的元学习允许全局模型在聚合过程中学习通用模式,但通常需要额外的计算和仔细的参数调整[33]。针对系统异质性,资源感知客户选择会根据设备的计算和通信能力来优先选择客户。这种方法优化了训练效率,但可能会排除能力较低的客户,这与FL的公平性原则相悖。异步FL通过允许客户在不同时间更新全局模型来解决系统异质性问题。然而,这种方法可能导致更新过时和模型质量不一致。FL旨在通过将原始数据保留在个别设备上来提高隐私保护。然而,由于在训练过程中共享模型更新仍然可能无意中暴露有关底层数据的信息,因此隐私问题仍然存在[4]、[22]、[27]。FL面临几个直接威胁其隐私和完整性的安全挑战。在数据投毒攻击中,对手将恶意数据注入目标客户的本地数据集中,这会导致全局模型在聚合过程中受到破坏性的更新[34]。类似地,在模型投毒攻击中,对手会操纵客户生成的更新以降低全局模型的性能或功能[35]。后门攻击则是通过在模型中嵌入隐藏的触发器,在特定条件触发时使其表现出恶意行为[36]。还有一种类型的攻击利用漏洞来提取信息或干扰训练,而无需直接修改全局模型。成员推断攻击是这类攻击的重要威胁。在这种攻击中,对手分析共享的模型更新以推断特定数据点是否属于客户的训练数据集[37]。拜占庭攻击发生在恶意客户向中央服务器发送无效或敌对性更新时[38]。此外,中央服务器和客户之间缺乏相互信任会加剧这些风险,因为不可靠的聚合或恶意客户行为会损害联邦系统的鲁棒性和安全性[39]。为了应对这些挑战,需要开发有效的缓解策略,以便在保持效率和性能的同时检测和减轻这些威胁。为了解决这些挑战,已经提出了一些解决方案。安全聚合方法通过在传输过程中加密模型更新来确保其机密性[28]。差分隐私通过添加受控噪声来掩盖敏感信息并防止其泄露[40]。鲁棒聚合技术可以减少恶意更新的负面影响,从而提高全局模型的完整性和可靠性[41]。尽管这些方法加强了FL的安全性和鲁棒性,但在隐私保护、计算效率和模型性能之间实现最佳平衡仍然是FL领域的一个未解决的问题。评估FL模型需要考虑效率、公平性、性能和去中心化环境中的安全性的指标[15]。表2提供了FL实验中考虑的评估指标的紧凑清单。通信效率关注客户端与中央服务器之间交换的数据量。减少通信轮次对于提高可扩展性至关重要,通常使用模型压缩和降低更新频率等技术来实现这一点[42]。研究应明确区分每轮成本(例如,每轮交换的字节或消息数)和总训练成本(每轮成本乘以收敛所需的轮次数)。效率报告应同时说明在所描述的硬件和网络条件下的通信轮次数和墙钟时间[15]。计算开销考察客户端所需的资源和处理时间。对于计算密集型任务,这一指标尤为重要,尤其是在大规模应用中[43]。实验报告应将客户端和服务器端的成本分开指定,包括每轮的平均运行时间、局部 epoch 数量,以及在明确定义的硬件配置下的每个训练运行的大致FLOPs或GPU小时数[15]。确保公平性有助于防止资源丰富的参与者占据主导地位。贡献评估确定个别客户对全局模型的影响[44]。结果不应仅关注全局准确性,还应包括客户端或组间的分布指标,如最差客户准确性或标准差。此外,研究还应报告群体公平性指标(例如,受保护组之间的准确性差距),并清楚地说明所优化的公平性概念[45]。模型性能衡量FL模型在多样性和非独立同分布(non-IID)场景中的准确性,这反映了其有效的泛化能力[15]。对于模型性能指标,研究应报告最终性能和收敛行为,包括测试准确性或相关指标(如AUC和F1分数)、多任务设置中的每任务或每站点性能,以及通过通信轮次或墙钟时间的学习曲线,以明确显示效率-性能之间的权衡[46]。隐私和安全性鲁棒性评估系统对对抗性攻击和数据泄露的抵抗力。研究FL系统的隐私和安全性的研究应报告明确的隐私和威胁参数,包括总差分隐私预算、裁剪或噪声设置,以及考虑的对手模型,并提供鲁棒性指标(如攻击成功率或攻击下的准确性),以便在不同研究之间比较隐私-效用-鲁棒性之间的权衡[47]。这些指标共同为优化FL系统并在实际应用中平衡各种权衡提供了结构化的框架[2]、[15]。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号