编辑推荐:
本文介绍AE-Trans,一种创新的可解释性双通道Transformer框架。它巧妙地通过组合样本标签对齐非配对的转录组与表观基因组数据,利用交叉模态重建和多头注意力机制,在阿尔茨海默病(AD)诊断中实现了卓越的准确性(AUC高达0.9910)与跨脑区、跨数据集(包括配对与非配对)的强大泛化能力。其内置的反事实积分梯度(CIG)解释性模块成功揭示了与免疫调节、代谢和神经元功能相关的关键生物标志物,为AD的早期精准诊断、生物标志物发现及个性化预后分层提供了有力工具。
背景与挑战
阿尔茨海默病(Alzheimer’s Disease, AD)是全球范围内导致老年人死亡和残疾的主要原因之一,其早期诊断面临严峻挑战。当前主要依赖神经影像学和认知测试,往往在疾病晚期才能识别,错失了最佳干预期。转录组学和表观基因组学(如DNA甲基化)为揭示早期分子特征提供了希望,但由于数据高维、样本量小,且普遍缺乏跨模态的配对样本,整合利用这些“非配对”多组学数据面临巨大困难。传统机器学习方法依赖于人工特征工程,在高维小样本(HDLSS)场景下表现受限且可解释性不足。现有深度学习方法(如深度矩阵分解、深度信念网络)虽然有所改进,但仍普遍存在依赖配对数据、流程非端到端、可解释性差以及难以建模长程跨模态依赖关系等瓶颈。因此,开发一种能够有效整合非配对多组学数据、兼具高性能与高可解释性的模型,对AD的机制理解和精准诊疗至关重要。
AE-Trans模型框架
为解决上述挑战,研究者提出了AE-Trans,一个专为非配对RNA和DNA甲基化数据整合分析设计的可解释性双通道Transformer框架。其核心架构如模型框架图所示,包含以下关键模块:
- 1.
数据配对策略:由于原始数据是非配对的,AE-Trans采用了一种组合式的“标签内配对”策略。具体而言,将RNA和甲基化样本分别按其诊断标签(AD或对照)分组,然后在相同标签组内,将每个RNA样本与所有同标签的甲基化样本进行系统性配对,生成用于训练的正样本对(AD-AD)和负样本对(对照-对照)。这种策略在无真实配对样本的情况下,通过共享的疾病标签来引导模型学习跨模态的生物学关联。
- 2.
降维与编码:高维的RNA和甲基化输入数据首先通过各自模态特定的自编码器(Autoencoder, AE)进行非线性降维,以应对“维数灾难”。得到的低维嵌入随后被送入两个独立的多层Transformer编码器(各3层,每层4个注意力头),以捕获每个模态内部以及跨模态的全局依赖关系。
- 3.
融合与分类:两个Transformer编码器的输出被拼接,并通过一个线性融合层生成统一的潜在表征。该表征一方面输入到一个多层感知机(MLP)分类器中进行AD概率预测。
- 4.
双向重建与对齐:模型的一个关键创新是“双向重建单元”。共享的潜在表征被送入两个模态特定的Transformer解码器,旨在重建出另一模态的数据(例如,从RNA路径的特征重建出甲基化数据),并通过循环一致性损失(Cycle-Consistency Loss)来强制两个模态的潜在空间对齐。这确保了学习到的特征是信息丰富且可在跨模态间转移的,特别适用于非配对样本场景。
- 5.
可解释性模块:为理解模型的决策依据,AE-Trans集成了反事实积分梯度(Counterfactual Integrated Gradients, CIG)方法进行归因分析。与标准积分梯度相比,CIG通过对比预测结果与一个有生物学意义的基线(如零表达基线),量化每个输入特征(基因表达水平或甲基化位点)对最终预测的贡献度,从而识别出关键的AD相关生物标志物。
数据与实验设计
研究从公开的GEO数据库收集了多个AD相关的多组学数据集,包括前额叶皮层、颞叶皮层等不同脑区的RNA测序(RNA-seq)和DNA甲基化数据。核心训练集来自GSE33000、GSE44770(RNA)和GSE80970(甲基化)。数据经过严格的预处理,包括批次校正、基因符号映射、缺失值处理和特征交集,最终得到14,926个共享基因特征。
为全面评估模型性能,研究者设计了多场景验证:
- •
内部验证:在训练集上进行五折交叉验证,并在预留的内部测试集上评估。
- •
外部验证1(跨脑区):在来自颞上回(与训练脑区不同)的非配对RNA(GSE132903)和甲基化(GSE80970子集)数据上测试,评估模型跨解剖区域的泛化能力。
- •
外部验证2(同脑区):在前额叶皮层(与训练脑区相同)的另一套非配对多组学数据上测试,评估模型在同脑区不同数据集上的稳定性。
- •
现实场景验证(配对数据):在一个真实的、样本量较小的配对多组学数据集(GSE110732,包含25对匹配的转录组和甲基化样本)上测试,评估模型将从未配对数据中学到的知识迁移到真实配对数据上的能力。
卓越的诊断性能
AE-Trans在所有评估场景中均表现出色,显著优于多种基线模型(包括随机森林RF、逻辑回归LR、深度信念网络DBN、AE-XGBoost等)。
- •
在内部测试集上,AE-Trans达到了惊人的0.9736准确率和0.9910的AUC值。
- •
在跨脑区的外部测试中,模型保持了稳健的性能(准确率=0.7389,AUC=0.8432),证明了其对解剖异质性的鲁棒性。
- •
在同脑区的外部非配对数据集上,模型取得了0.8732的准确率和0.9396的AUC。
- •
在真实配对数据集上,模型同样表现优异(准确率=0.8800,AUC=0.9267),成功实现了从非配对数据到配对数据的知识迁移。
这些结果共同表明,AE-Trans不仅在同源数据上分类能力超群,更能可靠地泛化至不同的解剖区域和数据类型,具备实际临床应用潜力。
揭示生物学相关的生物标志物
通过CIG解释性分析,研究者成功识别出对AD预测贡献最大的关键特征。归因分数显示,超过80%的累积贡献度集中在不到10%的特征上,表明模型能够聚焦于最具判别力的生物信号。
从这些顶级特征中,研究者重点分析了一批与AD病理生理学密切相关的基因,例如:
- •
TBC1D1:与葡萄糖代谢和tau蛋白信号相关。
- •
MS4A7、MS4A2:属于免疫调节家族成员,与神经炎症相关。
- •
MEF2C:具有神经保护作用,在AD中表达下调,是已知的AD全基因组关联研究(GWAS)基因,参与突触调控。
- •
NCK2:另一个与突触功能相关的AD GWAS基因。
- •
PRKD3、MLKL等基因则分别与激酶信号、程序性坏死等通路关联。
差异表达分析和热图显示,这些特征在AD组和对照组间存在显著差异。对Top 100特征进行基因本体(GO)和京都基因与基因组百科全书(KEGG)通路富集分析,进一步证实它们显著富集于免疫反应(如T细胞受体信号)、激素反应、葡萄糖代谢、轴突导向等AD核心相关通路。共表达网络分析揭示了这些关键基因之间存在模块化协作关系,其中NCK2和TBC1D1是网络中的枢纽基因。
特征有效性与模型贡献验证
为了验证AE-Trans所识别特征的有效性,研究者利用Top 200特征训练了一个简单的逻辑回归(LR)分类器。该分类器取得了0.9749的AUC,性能优于基于传统特征选择方法(如F值、变异系数CV2、主成分分析PCA)或传统差异分析(差异表达基因DEGs和差异甲基化位点DMSs)所构建的分类器。这表明AE-Trans能够捕捉到超越传统统计显著性、对分类边界更具判别力的复杂特征组合。
进一步的特征消融实验表明,依次移除Top 20、21-50、51-100的特征会导致模型性能逐步下降,尤其移除Top 20特征时性能损失最大,证实了预测信息高度集中于这些高分特征中。此外,将AE-Trans筛选出的特征应用于其他基线模型(如DeepBelief、DEG-DMP-DNN、LR),也能显著提升这些模型的性能,体现了所发现特征的普适性和有效性。
扩展到单模态与预后分层
在实际临床中,获取多组学配对数据困难,常只有单模态数据。为此,研究者将预训练的AE-Trans模型(仅使用其编码器)在两个独立的RNA-seq数据集(GSE118553和GSE29378)上进行了微调,用于仅基于RNA数据的AD分类。结果令人鼓舞:
- •
在GSE118553上,基于AE-Trans潜在表征的分类器AUC达到0.92,远优于基于原始RNA数据的基线模型(AUC=0.60)。在GSE29378上也观察到类似提升(AUC: 0.89 vs 0.68)。
- •
对潜在空间的UMAP可视化显示,AD样本与对照样本能较好分离,但同时也发现部分AD样本的分子特征与对照组相似,暗示了AD患者群体内部存在异质性。
- •
基于此,研究者对AD患者亚群进行无监督聚类,成功将患者分为两个具有不同分子特征的亚型。
- •
更重要的是,Kaplan-Meier生存分析显示,这两个分子亚型具有显著不同的临床生存结局。这一发现在另一个独立数据集GSE29378中得到了重复验证。这表明,AE-Trans即使仅从单模态RNA数据中学习到的表征,也能捕捉到具有预后意义的生物学异质性,为患者的风险分层和个性化管理提供了新视角。
模型消融与多组学融合价值
通过系统的消融实验,研究者验证了AE-Trans各个组件的必要性以及多组学融合的价值:
- •
多组学vs单组学:使用RNA和甲基化双通道融合的AE-Trans模型性能最优(测试集AUC=0.9910)。仅使用RNA数据的模型性能次之(AUC=0.9622),而仅使用甲基化数据的模型性能显著下降(AUC=0.529)。这证实了整合多维度信息能提供互补的诊断信号,大幅提升预测能力。
- •
模型组件消融:移除自编码器(AE)、减少Transformer层数(仅用1层)、或移除掩码机制,都会导致模型性能在不同程度上下降,尤其是简化Transformer结构会带来显著性能损失。这证明了模型中每个精心设计的模块(AE降维、深层Transformer捕捉依赖、特定训练机制)对于处理高维多组学数据、实现有效整合都是不可或缺的。
总结与展望
本研究提出的AE-Trans框架,为解决非配对多组学数据整合这一难题提供了强大、可解释且泛化能力强的解决方案。其在AD诊断中展现出的卓越性能、对关键生物标志物的成功挖掘、以及在单模态数据上实现预后分层的潜力,共同确立了其作为AD早期精准诊断和个性化医疗有力工具的定位。
当然,模型目前基于合成配对策略,未来可探索对比学习等更先进的表示对齐方法。整合更多模态(如蛋白质组、代谢组、影像)以及纵向数据,将是进一步提升模型分辨力和临床适用性的重要方向。总体而言,AE-Trans不仅推动了多组学整合分析方法学的发展,也为理解AD复杂病理机制和开发新型诊疗策略贡献了宝贵资源。相关代码已公开,便于学术界进一步研究和应用。