《Briefings in Bioinformatics》:PheCode-guided multi-modal topic modeling of electronic health records improves disease incidence prediction and GWAS discovery from UK Biobank
编辑推荐:
本研究针对传统表型关联研究依赖诊断代码定义疾病、未能充分利用电子健康记录丰富信息的局限性,开发了MixEHR-SAGE模型。该PheCode指导的多模态主题模型整合诊断、手术和用药数据,从UK Biobank数据中识别出1000多个可解释表型主题。应用显示,其衍生的风险评分能准确预测2型糖尿病和白血病发病,并通过连续风险评分发现传统二元定义遗漏的新遗传位点(如T2D的PPP1R15A和白血病的JMJD6/SRSF2),为多模态EHR的概率表型分析推动遗传发现提供了新范式。
随着生物银行和电子健康记录的普及,表型关联研究成为识别遗传变异与疾病关联的重要工具。然而,传统方法主要依赖国际疾病分类代码定义的二元疾病状态,未能充分利用EHR中丰富的多模态信息,包括药物治疗、手术操作等临床数据。这种简化处理限制了表型表征的精度和全面性,可能导致遗传关联信号的遗漏。
为突破这一局限,McGill大学Li实验室团队在《Briefings in Bioinformatics》发表了题为"PheCode-guided multi-modal topic modeling of electronic health records improves disease incidence prediction and GWAS discovery from UK Biobank"的研究,开发了MixEHR-SAGE模型。这一创新方法通过融合专家知识(PheCode)与概率推断,实现了对多模态EHR数据的深度挖掘,显著提升了疾病预测能力和遗传发现效能。
研究人员采用三项关键技术方法:首先,对UK Biobank队列的35万例欧洲裔个体进行多模态EHR数据构建,包括ICD诊断代码、药物治疗和手术操作代码;其次,利用高斯混合模型初始化表型主题先验概率;最后,通过变分推断算法求解潜在变量后验分布,生成连续疾病风险评分。
研究结果显示,MixEHR-SAGE能够从UK Biobank数据中发现可解释的表型主题。在糖尿病和白血病案例中,模型识别出的顶级EHR代码展现出显著的临床相关性。例如,2型糖尿病主题包含"E11.9非胰岛素依赖型糖尿病"等诊断代码,以及二甲双胍等关键药物代码;白血病主题则涵盖"C91.1慢性淋巴细胞白血病"等诊断和伊马替尼等治疗方案。主题纯度分析表明,64%的主题达到0.60以上的纯度,证实了模型生成临床相关表型的能力。
在疾病预测方面,MixEHR-SAGE显著提升了发病诊断的预测准确性。模型基于基线特征,对2型糖尿病和白血病等疾病实现了精准的风险分层。特别值得注意的是,模型在样本量较小的白血病(仅178例)中也表现出良好的预测性能,展示了其对罕见疾病的适用性。
基因组关联分析结果尤为突出。与传统二元表型定义相比,MixEHR-SAGE发现的连续风险评分揭示了新的疾病关联位点。在2型糖尿病中,识别出PPP1R15A基因位点,该基因在细胞应激反应和胰岛素信号通路中起关键作用。在白血病分析中,发现了JMJD6/SRSF2基因座,其中SRSF2基因突变已知与髓系恶性肿瘤密切相关。这些发现通过FinnGen等独立队列得到验证,证实了新位点的可靠性。
研究的讨论部分强调了多模态数据整合的价值。通过同时利用诊断、药物和操作代码,MixEHR-SAGE能够捕获更全面的临床表型谱。连续风险评分的引入使得能够检测到传统二元定义可能遗漏的细微遗传效应。此外,模型对低流行率疾病的处理能力扩展了基因组关联研究的应用范围。
结论部分指出,MixEHR-SAGE为大规模生物银行数据的表型优化提供了有效解决方案。其能力不仅限于疾病风险预测,更重要的是为遗传学研究提供了更精确的表型工具。随着多组学数据的不断积累,这种数据驱动的方法有望在精准医学领域发挥更大作用,推动复杂疾病的机制解析和靶点发现。
该研究的创新性在于成功将专家知识与数据驱动方法相结合,既保持了表型解释的临床合理性,又充分利用了EHR数据的丰富信息。未来工作可进一步整合实验室检查等连续型数据,扩展至更多疾病领域,并在多族群中进行验证,推动个性化医疗的发展。