用于在非独立同分布(non-IID)医疗数据上进行隐私保护建模的动态掩码联邦学习

《Computer Standards & Interfaces》:Dynamically masked federated learning for privacy-preserving modeling on non-IID medical data

【字体: 时间:2026年05月10日 来源:Computer Standards & Interfaces 3.1

编辑推荐:

  **摘要** 联邦学习(FL)使得医疗人工智能模型能够在不共享集中式患者数据的情况下进行协作训练,但实际的医疗健康部署面临重大挑战,这些挑战源于参与者的动态可见性(客户可能意外加入或退出)以及数据的非独立同分布(non-IID)特性。这些因素会严重降低模型的准确性和收敛性。为

  **摘要**
联邦学习(FL)使得医疗人工智能模型能够在不共享集中式患者数据的情况下进行协作训练,但实际的医疗健康部署面临重大挑战,这些挑战源于参与者的动态可见性(客户可能意外加入或退出)以及数据的非独立同分布(non-IID)特性。这些因素会严重降低模型的准确性和收敛性。为了解决这些问题,我们提出了一种新的FL框架,该框架整合了动态掩码、自适应dropout恢复和差分隐私技术。我们的动态掩码方法使用随机掩码安全地对客户端更新进行加密,当客户端意外退出时,服务器可以重建缺失的更新,从而确保聚合的可靠性和安全性。自适应dropout恢复机制通过智能地重新加权剩余客户的数据贡献或重用已退出客户最后的可用更新来补偿,从而在参与者变化的情况下稳定训练过程。此外,差分隐私噪声注入严格控制了信息泄露,使该框架符合严格的医疗隐私法规。在真实的医疗联邦学习场景下进行的广泛实验证明,我们的方法显著提高了模型的鲁棒性,与基线方法相比,一致实现了更高的准确性和更快的收敛速度。具体而言,我们的结果表明,即使在高度动态和异构的环境中,所提出的方法也能保持良好的性能,同时确保了严格的隐私保护。因此,我们的框架有效地解决了医疗FL部署中的实际问题,提供了一种可靠且符合隐私要求的解决方案,特别适用于参与者动态变化和数据异构性的医疗场景。

**引言**
随着医疗系统的快速数字化转型,大量的患者数据不断在分散的医疗设备和医疗机构中生成和收集[1]。这些数据为精准医疗、实时诊断和个性化医疗服务提供了前所未有的机会[2]。然而,传统的集中式机器学习方法需要将敏感的患者数据汇集到中央服务器中,由于隐私风险增加、监管限制严格以及医疗提供者普遍不愿意共享患者数据,这些方法遇到了显著障碍。因此,这类集中式方法在医疗领域变得越来越不可行。为了解决这些问题,联邦学习(FL)作为一种有前途的分布式机器学习范式应运而生[3]。FL允许多个分散的客户端(如医院和个别医疗设备)通过仅共享模型参数而不是原始敏感数据来协同训练全局模型。这种方法本质上降低了隐私风险,并且很好地符合监管要求,促进了机构间的协作学习,同时不损害患者隐私。值得注意的是,这种分布式学习范式也为医疗领域的机器学习即服务(MLaaS)奠定了基础,使得无需集中聚合患者数据即可提供模型训练服务[3][4][5]。

尽管联邦学习具有固有的隐私保护优势,但最近的研究表明,它仍然容易受到复杂的隐私威胁。各种推理攻击,包括梯度反转攻击和成员推理攻击,已经证明能够重建敏感患者数据或推断参与者的身份,从而即使在联邦框架内也会严重损害患者隐私[6]。为应对这些威胁,差分隐私(DP)被广泛集成到FL中作为一种强大的隐私保护机制,通过在模型更新中添加经过校准的噪声来提供严格的数学保障[7][8]。然而,传统的DP-FedAvg解决方案经常忽略了医疗环境中普遍存在的动态和现实条件,例如客户异质性、非独立同分布的数据、波动的客户可用性和频繁的客户退出,这些因素共同限制了它们的实际应用性和有效性[9][10]。重要的是,基于静态密码学掩码的隐私机制[11][12]在面对医疗FL的动态现实时显得力不从心。在实际部署中,客户经常在不可预见的时间退出或加入。静态掩码方案无法有效应对这些变化;任何尝试这样做都会导致过度的计算和通信开销,或者破坏核心的安全保障。因此,这些方法在参与者集不断变化的真实医疗环境中变得不可行。换句话说,当FL作为连续的医疗AI服务部署时,缺乏对客户动态加入和退出的支持会严重影响服务的可靠性和可用性[13][14]。然而,现有的结合差分隐私与加密或安全聚合的混合隐私解决方案在动态联邦环境中仍然缺乏支持。许多此类设计隐含地假设参与者的参与相对稳定且协议执行同步;当客户频繁退出和重新加入时,协议可能需要额外的协调以刷新密钥和重新同步,以及额外的恢复处理,这实际上加剧了系统层面的开销。此外,当参与客户的数量在各轮中变化时,差分隐私噪声校准和隐私计算变得更加复杂,进一步加剧了隐私与效用之间的权衡。

在这种复杂的设置中,由于对不可预测的客户退出和数据分布的不当处理,传统的FL算法常常失败,这凸显了迫切需要一种更具弹性和隐私保护能力的解决方案,专门适用于动态医疗场景。大多数现有的FL研究关注的是参与者固定和数据分布理想的静态场景,使用诸如安全聚合或差分隐私等单独的方法。然而,当客户不可预测地退出或数据在医疗站点间本质上是非独立同分布(non-IID)时,很少有研究关注如何保持模型的鲁棒性能。特别是在医疗服务中,动态的客户流动和严格的隐私法规使得同时保持模型准确性和隐私性变得极其具有挑战性。因此,传统的FL方法在现实条件下准确性和可靠性显著下降,我们必须解决这一问题。因此,本研究致力于通过探讨以下研究问题来应对这一挑战:是否可以设计一个FL框架,以确保(i)严格的隐私保护,(ii)对动态客户退出的韧性,以及(iii)在现实医疗数据上的高模型效用?

为了回答这个研究问题,我们设计了一个新的FL框架,其中包含了三个关键创新:动态密码学掩码、自适应dropout恢复和差分隐私噪声注入。动态掩码方法实现了安全的聚合和灵活的更新重建,有效防止了由于客户意外退出导致的聚合错误和信息泄露。自适应dropout恢复机制能够主动检测参与者丢失,并补偿缺失的更新,即使在面对间歇性客户可用性时也能保持模型收敛的稳定性和准确性。此外,通过精心校准的噪声注入集成差分隐私提供了正式和严格的隐私保障,这对于遵守严格的医疗数据保护法规至关重要。总体而言,这些创新系统地解决了动态参与者可用性和非独立同分布数据交织带来的挑战,而之前的方法通常分别处理这些挑战。

更具体地说,在这项工作中,我们提出了《动态掩码联邦学习》(DMFL),这是一个专为分散式医疗应用量身定制的新FL框架。DMFL通过实际和自适应机制实现了上述理论创新。首先,引入了一个可信的第三方实体——密钥生成中心(KGC),用于动态生成、分发和管理密码学掩码。这使得服务器能够在无缝处理客户意外退出的情况下安全地聚合客户更新,从而消除了与静态掩码方法相关的聚合偏差和潜在隐私漏洞。其次,DMFL中实现的自适应dropout恢复协议能够智能地调整客户更新权重或使用已退出客户的最后可用更新来替代缺失信息,从而在参与者变化的情况下保持模型收敛的稳定性。第三,DMFL结合了自适应差分隐私噪声注入,根据当前的参与率和数据异质性动态调整高斯噪声的水平。这确保了隐私保护与模型效用之间的平衡。这些自适应机制共同使DMFL在以频繁客户流动、高度非独立同分布的患者数据和严格隐私要求为特征的实时医疗场景中表现出色。后续的全面实验评估展示了DMFL在联邦医疗AI部署中的卓越鲁棒性、准确性和实际效用。我们进一步强调,DMFL采用了服务导向的设计:动态掩码、dropout恢复和差分隐私组件都可以封装为标准服务接口,使得这种隐私保护的FL解决方案能够高效地部署并作为模块集成到基于云的医疗MLaaS系统中[15][16]。

**总结**
我们的贡献如下:
1. 我们开发了一个创新的DMFL框架,将动态密码学掩码与自适应DP相结合,有效最小化了隐私风险并解决了医疗信息环境中的异质性问题。
2. 我们提出了一种自适应机制,根据实时活动调整DP噪声和客户权重,高效地平衡了隐私保护和资源利用。
3. 我们提出了一种新颖的dropout恢复协议,专门设计用于在频繁客户断开连接的情况下确保连续、安全的全球模型聚合,从而在不需要额外计算负担的情况下保护隐私和系统鲁棒性。
4. 我们提供了全面的理论分析和实证评估,证明了DMFL在实现增强隐私保护、在客户异质性下的鲁棒性能以及对动态客户可用性的韧性方面的有效性。

本文的其余部分结构如下:第2节回顾了FL和隐私保护技术的相关工作。第3节介绍了DMFL的基础概念、关键假设和系统组件。第4节详细描述了所提出的DMFL框架,强调了密码学掩码同步、自适应DP集成和强大的客户dropout处理机制。第5节提出了验证DMFL隐私保障和鲁棒性的理论分析。第6节通过针对真实医疗数据集的实验,实证评估了DMFL的有效性和实际适用性。最后,第7节总结了本文的主要贡献和意义,并提出了未来研究的方向。

**附录**
**FL中的密码学隐私机制**
保护隐私的FL经常采用诸如安全多方计算(SMPC)和同态加密(HE)等密码技术,以安全地聚合模型更新,而不暴露原始客户数据[17]。通过掩码化梯度或在加密参数上进行计算,这些方法确保服务器仅访问聚合后的信息。诸如安全聚合[18][19]之类的方案提供了强大的隐私保护,但会带来大量的计算和通信开销。

**初步部分**
本节正式阐述了支持所提出的DMFL框架的系统模型、威胁假设、核心隐私保护措施和协议工作流程。这里介绍的所有符号和定义与第4节中使用的定义一致。

**方法论**
DMFL框架旨在解决FL中的动态隐私风险、客户异质性和不稳定的网络条件。为了确保清晰性和可重复性,本节系统地详细阐述了三个阶段的工作流程:初始化、带有动态调整的迭代训练和dropout恢复。图1提供了框架的概览,而算法2总结了端到端的过程。从服务架构的角度来看,这三个阶段可以对应于……

**隐私–效用权衡分析**
所提出的DMFL框架在隐私保护(通过DP噪声和动态掩码)[7][22]和模型效用(通过控制收敛)[22]之间实现了可量化的平衡。我们通过以下组件形式化了这种权衡:

**实验设置**
本节详细说明了实验配置,以确保不同方法之间的可重复性和公平比较,符合计算机标准和接口中的评估和报告实践。

**数据集和数据分割**
我们在PathMNIST数据集上进行实验,这是一个包含九个组织类别的病理图像基准。遵循常见做法,我们通过基于狄利克雷的概率分布将训练数据分配给N=100个客户端,模拟了一个跨部门的FL场景。

**结论**
本研究表明,可以设计一个联邦学习框架,同时提供(i)严格的隐私保护,(ii)对动态参与(例如,客户退出和重新加入)的韧性,以及(iii)在本质上非独立同分布的医疗数据下的强效用。所提出的DMFL框架通过集成动态掩码、自适应dropout恢复和差分隐私,在服务导向的训练流程中实现了这一目标。本文提出了一种新的医疗FL框架。

**作者贡献声明**
Kai He:写作——审阅与编辑、撰写初稿、监督、概念化。
Zhiyang Li:写作——审阅与编辑、撰写初稿、软件开发、方法论。
Chunxiao Yin:写作——审阅与编辑、验证、形式分析。
Fei Zhu:写作——审阅与编辑、方法论。
Yepeng Ding:写作——审阅与编辑、可视化。
Alsharif Abuadbba:数据整理、概念化。
Xun Yi:写作——审阅与编辑、监督。

**未引用的参考文献**
表5、[34][35][36][37][38]

**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系,这些可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号