利用基于注意力的图融合网络,实现临床数据和多组学数据的协同整合,以早期诊断轻度认知障碍(MCI)

《Journal of Neuroscience Methods》:Synergistic Integration of Clinical and Multi-omics Data for Early MCI Diagnosis Using an Attention-based Graph Fusion Network

【字体: 时间:2026年01月04日 来源:Journal of Neuroscience Methods 2.3

编辑推荐:

  A-MGFN通过整合临床、基因组、表观基因组及转录组数据,采用注意力机制和图卷积网络实现多组学融合,在ADNI队列中AUC达0.86±0.03,F1-score 0.88±0.03,优于传统方法及GCN模型。

  
双宇|赵静|欧阳静|王晓明|寇鹏|朱凯颖|刘萍
中国人民解放军总医院第六医学中心全科医学系,北京,100048,中国

摘要

背景

轻度认知障碍(MCI)是阿尔茨海默病(AD)的前兆,需要精确的早期诊断。单一组学方法常常无法捕捉疾病的复杂性,因此需要综合性和可解释的解决方案。
新方法
我们提出了基于注意力的多模态图融合网络(A-MGFN),该网络通过生物学上精心策划的特征——临床遗传风险评分(CGRS)、策划的表观基因组特征(CES)和差异表达特征(DES)来整合临床、基因组、表观基因组和转录组数据。每种模态都由一个特定于模态的图卷积网络进行编码,以捕捉更高阶的模内相互作用,下游的注意力模块则根据需要动态调整各模态的权重以实现融合。

结果

在ADNI队列中,A-MGFN的AUC为0.86 ± 0.03,F1分数为0.88 ± 0.03。消融分析和注意力加权分析证实了多组学的协同作用,其中CES带来了最大的性能提升。
与现有方法的比较
A-MGFN的表现优于传统的机器学习基线和图卷积网络(GCN)框架(MO-GCAN、AD-GCN),F1分数提高了5-7个百分点,这归功于注意力引导的融合机制,而非固定的或统一的图谱方案。

结论

A-MGFN提供了一个强大且可解释的多组学框架,用于早期MCI的检测,并提供了关于各模态贡献的见解,这些见解可能对临床应用具有指导意义。其设计也可扩展到其他神经退行性疾病(如帕金森病)。

引言

阿尔茨海默病(AD)是全球最常见的神经退行性疾病,其特征是认知能力逐渐下降,给患者、家庭和社会带来了巨大负担(Yu等人,2020年)。轻度认知障碍(MCI)作为AD的早期阶段,为干预提供了关键窗口,以延缓或预防疾病进展为痴呆(Anderson,2019年)。然而,由于MCI的病因多样性、症状的微妙性以及缺乏客观生物标志物,其准确早期诊断仍然具有挑战性(Blanco等人,2023年)。主要依赖于神经心理学评估的传统方法存在敏感性低、特异性差和主观偏见的问题,这突显了需要生物学驱动的客观诊断工具来实现疾病的及时和个性化管理(Jack等人,2018年)。
多种基于组学的技术的发展极大地加深了我们对AD病理生理学的理解,揭示了不同的生物学层面(Ma等人,2025年)。基因组学识别出风险变异,如载脂蛋白E(APOE)ε4(Park等人,2021年),表观基因组学突出了DNA甲基化修饰(De Plano等人,2024年),而转录组学揭示了基因表达的变化(Marques-Coelho等人,2021年)。单一组学分析提供了有价值但不完整的快照(Aerqin等人,2022年)。例如,在轻度认知障碍的诊断中,基于单核苷酸多态性(SNP)的基因组分析可以识别遗传风险,但常常忽略了表观基因组修饰(如DNA甲基化模式的改变)与动态转录组调控之间的相互作用(Brito等人,2020年)。这一限制降低了诊断敏感性,并未能捕捉到导致疾病异质性的环境-基因相互作用(Tripathi等人,2024年)。同样,单一转录组方法可能揭示与神经炎症相关的基因表达变化,但忽略了临床认知评分和神经影像学证据的整合,从而导致较高的假阴性率(Arbaizar-Rovirosa等人,2023年)。
相比之下,将多组学数据与临床信息整合起来可以更全面地理解疾病机制,从而提高诊断的精确性和稳健性(Kodam等人,2023年)。然而,这种整合面临几个挑战,包括高维度(数百万个SNP和CpG位点)、数据异质性和噪声。这些问题导致了“维度灾难”和数据分析过程中的计算效率低下(Mohr等人,2024年;Olexiouk,2023年;Wang等人,2025年)。为了克服这些障碍,严格的特征工程至关重要,包括跨组学层的特征筛选、提取和降维,以构建紧凑的判别特征集。这些策略减少了冗余,增强了模型的稳健性,并支持有效的多模态数据融合。
传统的多组学融合机器学习方法,如简单的特征连接和决策级投票,常常忽略了模内和互补的模间信息,导致性能不佳和可解释性有限(Reel等人,2021年)。这些局限性凸显了一个关键的研究空白:缺乏能够动态捕捉模内和模间高阶相互作用,并自适应地优先考虑最具信息量的数据源的先进框架。
近年来,基于图的深度学习方法,特别是图卷积网络(GCNs),通过利用样本、特征或基因之间的拓扑关系,在建模复杂的生物医学网络方面显示出巨大潜力。注意力机制通过为不同数据模态分配与任务相关的权重进一步改进了融合过程(Zhou等人,2023年;Kc等人,2022年;Schulte-Sasse等人,2019年;Yin等人,2022年)。除了标准的GCNs之外,还应用了图注意力网络(GATs)和图自编码器(GAEs)等变体,在生物医学背景下捕捉异构节点关系并学习潜在的特征嵌入(Chen等人,2025年;Wang等人,2023年)。此外,最近的融合架构越来越多地将基于图的编码与跨模态的注意力驱动加权相结合,使得不同组学通道的集成更加灵活和适应性强(Tanvir等人,2024年;Valous等人,2024年)。在图构建中,节点通常代表组学实体,边反映了样本-样本或特征-特征之间的相似性以及已知的生物学关系。这一过程生成了异构的多组学图,作为下游图神经网络(GNN)模型的基础(Wu等人,2024年;Yan等人,2024年;Yin等人,2022年)。然而,当前的基于GCN的方法很少以模态适应的方式整合多组学和临床数据,且常常忽略针对生物学相关性进行定制的特征工程。例如,MOGONET使用GCNs为每种组学类型学习特定视图的网络,但依赖于视图相关性发现网络(VCDN)的固定融合策略,缺乏动态自适应加权(Wang等人,2021年)。同样,IGCN引入了用于嵌入融合的个性化注意力,但在AD/MCI应用中未充分强调生物学相关的特征工程(Chen等人,2023年)。
为了解决这一空白,我们提出了基于注意力的多模态图融合网络(A-MGFN),这是一个旨在协同整合临床、基因组、表观基因组和转录组数据以实现准确MCI诊断的新框架。A-MGFN引入了三个关键创新:(1)使用定制的特征构建特定于模态的患者相似性网络(PSN):临床遗传风险评分(CGRS)、策划的表观基因组特征(CES)和差异表达特征(DES),以确保生物学上有意义和具有区分力的输入;(2)使用多视图GCN编码器学习高阶模内表示;(3)结合下游注意力模块进行自适应的跨模态融合,根据诊断相关性动态分配各模态的权重。与传统方法相比,A-MGFN捕捉了复杂的拓扑关系,促进了智能的多模态整合,从而增强了模型的稳健性,并优于简单的融合策略。
我们假设A-MGFN通过利用多组学的协同作用将优于基线方法,这一点在阿尔茨海默病神经影像学倡议(ADNI)队列中得到了验证(Oka等人,2024年;Veitch等人,2023年)。这项研究不仅推进了早期MCI的检测,还对精准神经学具有更广泛的意义。提高诊断准确性可以促进及时干预,可能改变疾病进程,减轻社会负担,并为神经退行性疾病提供个性化的治疗。

部分摘录

概述

本研究整合了来自ADNI队列的临床、基因组、表观基因组和转录组数据,通过提出的A-MGFN实现轻度认知障碍的早期诊断。如图1所示,分析工作流程采用端到端设计,包括数据采集、预处理、特征工程、多组学整合和消融分析。
具体来说,ADNI队列的数据经过策划和预处理,生成了三个生物学上有意义的特定于模态的数据

模型比较

为了全面评估所提出的A-MGFN的诊断性能,我们与多种传统的多组学融合策略和先进的GCN框架进行了系统比较。如表8所示,A-MGFN在所有评估指标上均表现出最佳性能,包括AUC、准确性和F1分数,优于基线和最先进的方法。
基于传统机器学习的融合方法表现中等。

讨论

在这项研究中,我们开发了A-MGFN来整合临床、基因组、表观基因组和转录组数据,以实现轻度认知障碍的早期诊断。本研究得出了四个主要发现:首先,A-MGFN显著优于传统的机器学习和现有的基于图的融合框架,AUC为0.86 ± 0.03,F1分数为0.88 ± 0.03,证明了其稳健性和卓越的诊断精度。其次,特定于模态的特征工程策略

结论

总之,A-MGFN代表了多组学驱动的MCI诊断方面的重大进展,通过整合图卷积和自适应注意力,超越了现有方法,并揭示了表观遗传学驱动因素。未来的工作应探索纵向扩展,并结合神经影像学来进一步提高诊断的精确性。

资金来源

本研究未获得公共、商业或非营利部门的任何特定资助。

机构审查委员会声明

不适用。

知情同意声明

不适用。

未引用的参考文献

(Yin等人,2022年;S等人,2018年;Guevara等人,2021年;Nabais等人,2021年)

CRediT作者贡献声明

双宇:撰写——审阅与编辑,撰写——初稿,验证,项目管理,调查,数据策划。欧阳静:撰写——初稿,验证,调查。赵静:撰写——审阅与编辑,撰写——初稿,数据策划。寇鹏:数据策划。王晓明:验证,数据策划。刘萍:撰写——审阅与编辑,监督,方法学,调查,概念化。朱凯颖:撰写——审阅与编辑,撰写——初稿

利益冲突声明

作者们没有需要声明的利益冲突。

致谢

不适用。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号