编辑推荐:
准确预测乳腺癌分子分型中的ER、PR、HER2等多标签生物标志物对早期诊断至关重要,但数据隐私限制导致传统联邦学习框架误判率高。本文提出FLRisk框架,通过隐私保护的 decentralized 风险分析机制,动态识别各客户端的高风险样本,结合自适应联邦学习策略优先优化高风险预测,显著提升多中心异构数据下的模型性能。
Gul Sheeraz|王旺李|陈群|周凤金医学博士
中国陕西省西安市西北工业大学计算机科学学院
摘要
准确及时地预测乳腺癌生物标志物,特别是雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2),对于早期诊断和个性化治疗至关重要。这些生物标志物通常从乳腺癌活检样本中鉴定出来,通过免疫组化处理和染色后,再利用高分辨率显微镜进行数字化处理,生成用于基于人工智能预测的组织病理图像。这类图像是复杂的高维数据,需要先进的化学计量学和机器学习技术来提取具有临床意义的信息。尽管深度学习展现了强大的预测能力,但误判仍然常见,主要是因为大多数研究依赖于集中式学习,数据仅限于单一实验室或医院,这引发了关于患者隐私和数据共享的担忧。联邦学习提供了一种保护隐私的替代方案,可以在不交换原始数据的情况下实现模型协作开发。然而,传统的联邦学习方法在异构实验室条件和多标签生物标志物分类任务中常常面临误判问题。
在本文中,我们提出了一种新的联邦学习框架,以解决多标签乳腺癌生物标志物分类中频繁出现的误判问题。我们引入了一种安全的分散式误判风险分析方法,允许客户端仅与服务器共享匿名化的风险特征,并获得风险排名作为回报,从而在保护隐私的同时实现有效协作。此外,我们还提出了一种基于风险识别的自适应联邦学习方法,在模型更新过程中优先处理高风险实例。在真实世界数据集上的广泛实验表明,所提出的框架能够有效降低误判风险,并在保持强隐私保护的同时提高预测性能。我们的项目代码可在以下链接获取:
https://github.com/SheerazNWPU/FLRisk。
引言
全球范围内,乳腺癌是女性中最常见的癌症,也是女性癌症相关死亡的第二大原因[1]。这是一种异质性疾病,根据ER(雌激素受体)、PR(孕激素受体)和HER2(人表皮生长因子受体2)等生物标志物分为不同的亚型[2]、[3]。这些生物标志物的检测在癌症亚型分类和治疗计划中起着关键作用,早期准确的识别可以显著降低死亡率。
在计算机辅助诊断(CAD)系统[4]、[5]、[6]、[7]中,这些生物标志物通常是从通过活检收集的H&E染色组织病理图像中鉴定出来的,通常结合免疫组化(IHC)技术,该技术利用抗体检测组织切片中的特定蛋白质,提供关于生物标志物的空间和分子信息。然而,由于严格的隐私法规、数据保护法律以及机构不愿分享敏感患者信息[4]、[5],高质量标注数据的获取仍然有限。这一根本性的隐私挑战严重阻碍了基于学习的CAD系统的开发。
最近在保护隐私的机器学习方面的进展,特别是联邦学习(FL)[8]、[9]、[10]、[11],通过允许多个机构在不暴露原始患者数据的情况下进行模型协作训练,提供了有希望的解决方案。在这种范式中,客户端机构(例如医院)在本地训练模型,并仅与中央服务器共享模型更新,从而在利用分布式数据集的同时保护数据隐私。
然而,将FL应用于生物标志物预测时,需要仔细考虑临床实践。虽然大多数现有的CAD方法将每个生物标志物视为独立的二元分类任务[12]、[13],但在临床病理学中,由于生物标志物之间众所周知的共表达模式[14],它们是联合评估的。例如,ER和PR经常共同表达,而在ER+/PR+肿瘤中HER2的过表达较为少见。这些生物标志物之间的依赖性突显了该任务的本质上是多标签的,这促使我们提出了一种更好地反映临床评估的模型形式。
更重要的是,在联邦环境中进行多标签生物标志物预测会放大该任务固有的误判风险。由于患者人口统计学特征、染色协议和机构工作流程的差异,每个客户端只能观察到联合标签分布的偏置子集。结合学习生物标志物依赖性的内在挑战,这种异质性导致系统性的、特定于客户端的失败模式,对某些生物标志物的影响尤为显著。传统的FL方法如FedAvg[8]、FedProx[9]和FedBN[11]优化了全局平均性能,但对这些高风险误判视而不见,导致联邦基线的性能低于集中式训练,如表1所示。这一性能差距凸显了需要一个能够在临床确立的多标签生物标志物预测任务中明确减少误判的联邦框架。
为了解决这些挑战,我们提出了一个基于误判风险分析的自适应联邦学习框架,用于幻灯片级别的多标签乳腺癌生物标志物预测。我们的方法分为三个关键阶段:(1)多标签生物标志物的联邦预训练;(2)通过匿名化风险特征生成进行保护隐私的分散式误判风险分析;(3)利用风险排名优先处理高风险样本的自适应训练,并结合回滚机制来完善问题预测。至关重要的是,所有组件都设计为保持端到端隐私,确保没有原始数据或识别信息离开客户端机构,同时明确考虑任务的多标签性质,同时针对所有生物标志物进行训练。
总之,我们的贡献有三个方面:
- 我们提出了一种全面的、保护隐私的分散式误判风险分析机制,用于联邦学习,该机制:
–允许客户端在本地提取风险特征而无需共享原始数据。
–使服务器能够根据匿名化特征构建全局风险模型。
–向客户端提供风险排名以指导模型更新。
我们提出了一种基于风险识别的自适应联邦学习框架,使实验室能够在学习中协作,包括两个主要阶段:–联邦预训练阶段:在客户端之间协作初始化模型。
–自适应学习阶段:在训练过程中利用风险排名优先处理高风险实例,并结合回滚机制来完善预测。
我们的实验表明,我们的基于风险识别的自适应联邦学习方法在数据异质性环境下有效降低了误判风险,并提高了预测性能,同时保持了乳腺癌诊断的强隐私保护。我们的项目代码可在以下链接获取:https://github.com/SheerazNWPU/FLRisk。相关工作
相关文献从三个正交角度进行了回顾:乳腺癌生物标志物预测、联邦学习和误判风险分析。
方法论
在联邦学习环境中,假设每个客户端拥有一个本地数据集,其中表示生物标志物的多标签注释。目标是在不共享原始数据的情况下,协作训练一个全局模型,以最小化多标签误判。
所提出解决方案的核心组成部分是误判风险分析。每个客户端计算本地风险特征并估计风险分数,量化误判的可能性
实证研究
本节对我们的方法进行了实证评估。第4.1节详细介绍了实验设置,随后是关于分散式风险分析(4.2)、自适应联邦学习(4.3)和鲁棒性分析(4.4)的结果。
结论与未来工作
本文提出了FLRisk,这是一种用于从组织病理图像中预测多标签乳腺癌生物标志物(ER、PR、HER2)的新联邦学习框架。通过将分散式误判风险分析与基于风险识别的自适应学习策略相结合,FLRisk实现了实验室和医院之间的协作学习,同时保护了患者隐私。该框架使用分散式误判风险分析处理复杂的高维组织病理数据
CRediT作者贡献声明
Gul Sheeraz:撰写——原始草稿、验证、软件开发、形式分析、数据整理、概念化、方法论。王旺李:验证、调查、形式分析。陈群:撰写——审稿与编辑、监督、资金获取。周凤金医学博士:数据整理、资金获取、可视化、撰写——审稿与编辑。
写作过程中使用生成式AI和AI辅助技术的声明
作者在某些部分使用了ChatGPT来提升写作流畅性。之后他们审查并编辑了内容,对最终手稿负全责。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作得到了中国国家重点研发计划(项目编号2023YFB4503600)和国家自然科学基金(资助编号62172335)的支持。