基于聚类的联邦因果发现方法在多中心临床数据分析中的应用

《Journal of Biomedical Informatics》:Clustering-based federated causal discovery for multicenter clinical data analysis

【字体: 时间:2026年06月07日 来源:Journal of Biomedical Informatics 4.5

编辑推荐:

  张明阳|王洪年|赵茹|吴丽娟摘要目标传统的因果结构学习算法在分布式和隐私敏感的环境中面临挑战,尤其是在处理非独立同分布(non-IID)数据时。为了解决这些限制,本研究提出了基于聚类的联邦因果发现(CFedCD)框架,旨在提高多中心临床数据分析中的因果学习准确性和适用性。方法CF

  
张明阳|王洪年|赵茹|吴丽娟

摘要

目标

传统的因果结构学习算法在分布式和隐私敏感的环境中面临挑战,尤其是在处理非独立同分布(non-IID)数据时。为了解决这些限制,本研究提出了基于聚类的联邦因果发现(CFedCD)框架,旨在提高多中心临床数据分析中的因果学习准确性和适用性。

方法

CFedCD框架结合了确定性表示编码和联邦优化技术,以应对分布式因果学习任务中固有的数据异质性和隐私约束。每个客户端使用Deep Sets模型从本地电子病历(EMR)中独立提取高维特征摘要,该模型在保护隐私的同时捕捉复杂的数据分布。这些本地计算出的摘要随后在服务器端进行聚合,应用K-means聚类将具有相似数据特征的客户端分组到联邦簇中。在每个簇内,通过自适应聚合策略和正则化技术促进特定于簇的因果图的协作构建,以减轻分布偏移。该框架的有效性通过eICU合作研究数据库中的EMR数据进行了验证,用于急性肾损伤(AKI)风险预测,性能评估使用接收者操作特征曲线下面积(AUROC)进行。

结果

CFedCD成功识别出导致AKI的关键候选因果因素,包括肺部疾病、高血压、糖尿病、中风和血尿素氮水平。它在不同客户站点上的因果学习和预测性能方面都显示出显著改进。具体来说,仅使用基线联邦学习时,AUROC降低了0.025(p<0.01' role="presentation">p<0.01),而结合聚类驱动的个性化因果学习后,整体性能提高了0.014 AUROC(p<0.05' role="presentation">p<0.05)。跨簇的因果图可视化揭示了患者群体和临床实践的显著异质性,发现了不同亚群体的新关联。

结论

CFedCD框架为异构环境中的联邦因果结构学习提供了有效的解决方案,生成的图形模型代表了基于观察数据和临床知识的候选因果关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号