《PLOS Computational Biology》:CA-CAE: A deep learning-based multi-omics model for pan-cancer subtype classification and prognosis prediction
编辑推荐:
本文构建了结合通道注意力机制的卷积自编码器(CA-CAE),用于整合DNA甲基化、RNA-seq和miRNA-seq等多组学数据,实现对15种癌症的生存相关亚型识别与预后预测。模型通过注意力机制动态加权关键特征,在多数癌症中展现出较传统方法更低的Log-rank检验P值和更高的C指数(C-index),显著提升预后分层能力。研究为多组学数据整合分析提供了高效、可解释的深度学习框架,为癌症精准医疗提供了新工具。
文章内容归纳
引言
在癌症研究中,准确识别亚型并评估预后是实现个体化诊疗的关键。传统单组学分析仅能反映特定分子层面的信息,而癌症等复杂疾病涉及多层次的调控机制,单一视角可能遗漏关键信息。随着高通量测序技术发展,多组学数据为癌症分类与预后分析提供了更全面的信息,但其整合面临数据异质性、非线性依赖等挑战。早期线性方法如主成分分析(PCA)、典型相关分析(CCA)难以捕获非线性关系;非负矩阵分解(NMF)等方法对噪声敏感且依赖人工调参。深度学习技术的发展为多组学数据整合提供了新思路,特别是自编码器(AE)、卷积神经网络(CNN)及其结合体卷积自编码器(CAE)等模型,能够从高维数据中学习非线性特征。然而,现有模型如ProgCAE在特征提取时对各通道赋予均等权重,无法动态聚焦关键生物学信号。为此,本研究提出一种结合通道注意力机制的卷积自编码器预后模型(CA-CAE),旨在通过注意力机制动态加权不同组学特征,提升癌症亚型分类与预后预测的准确性与可解释性。
结果
识别15种癌症数据中的生存相关亚型
研究从TCGA数据库获取15种癌症的多组学数据,包括mRNA-seq、miRNA-seq和DNA甲基化数据。经过数据标准化和特征选择等预处理后,利用LASSO回归筛选非零系数特征,再通过单变量Cox比例风险模型(Cox-PH)进一步筛选与生存显著相关的特征。基于这些特征构建新特征矩阵,采用K均值(K-means)聚类识别生存相关亚型。结果表明,8种癌症的最优聚类数为2,4种癌症为3。生存分析显示,CA-CAE在不同癌症类型中均能识别出具有显著生存差异的亚型。
与其他深度学习模型的比较
为评估模型优势,将CA-CAE与三种深度学习模型(ProgCAE、DeepProg、PCA)及一种传统矩阵分解基线(NMF)进行比较。在Log-rank检验的P值方面,CA-CAE在9种癌症类型(如LUAD、UVM、ACC)中取得了更低的P值,表明其亚型分离的统计显著性更强。在预测一致性方面,CA-CAE在10种癌症类型中获得了更高的C指数,显示出更优的预后判别能力。综合P值与C指数的分析表明,CA-CAE在跨癌症数据集上提供了更可靠且生物学意义更明确的患者分层。10(P-values) and C-index for five models across 15 cancer types."> 此外,基于自助重采样计算的C指数95%置信区间较窄,证实了模型性能的稳定性。
消融实验
在LUAD数据集上进行的消融实验评估了CA-CAE各组件的作用。移除Cox预后过滤模块(CA-CAE_noCox)导致模型判别能力大幅下降(P值升至4.7×10-1,C指数降至0.55);移除通道注意力机制(CA-CAE_noAtt)则引起中度性能退化(P值升至9.7×10-5,C指数降至0.61)。完整的CA-CAE模型取得了最佳性能(P值为8.4×10-7,C指数为0.64),证实了通道注意力机制与Cox预后过滤在增强特征选择与预后预测中的必要性与有效性。
构建与预测分类器
尽管CA-CAE主要进行无监督聚类以识别潜在癌症亚型,研究进一步采用监督分类步骤验证聚类结果的稳健性。利用支持向量机(SVM)对ACC、BLCA和LUAD数据的聚类标签进行预测,通过网格搜索与五折交叉验证优化超参数。预测结果经Kaplan-Meier生存分析与Log-rank检验验证,证实了基于聚类标签构建的分类器能够有效复现生存差异,增强了所识别亚型的可重复性。
多组学整合与单组学分析的差异
研究比较了多组学整合与单组学分析在预测癌症患者生存结局方面的效果。以LUAD为例,单组学(仅mRNA)分析虽能识别部分显著特征,但其预测性能有限。整合mRNA与DNA甲基化数据的多组学方法获得了更小的P值和更高的C指数,Kaplan-Meier生存曲线显示亚组间生存差异更显著,表明多组学整合能提供更互补的信息,从而获得更稳健的预后预测。此外,对LUAD三种组学数据中排名前20的基因进行分析,发现了多个与预后密切相关的潜在生物标志物和治疗靶点,如SFTPA1、SFTPA2、GPX2、CEACAM5、MSLN等,这些基因在肺癌腺癌(LUAD)的发生发展中扮演重要角色。
功能与通路富集分析
对CA-CAE从LUAD数据集中提取的生存相关基因进行基因本体(GO)和京都基因与基因组百科全书(KEGG)通路富集分析。GO分析显示,这些基因显著富集于免疫系统激活、免疫应答调控、抗原呈递等生物过程,以及细胞外基质相关细胞组分和免疫受体结合等分子功能。KEGG通路分析表明,基因富集于细胞黏附、细胞外基质受体相互作用、整合素信号以及PI3K-Akt信号通路,提示这些基因在肿瘤侵袭、迁移、增殖与生存中可能起关键作用。此外,基因也在自身免疫疾病、哮喘、病毒感染等免疫相关通路中富集,表明其可能参与调控肿瘤微环境中的免疫应答。
癌症亚型与临床特征的相关性
为评估CA-CAE识别的癌症亚型与临床特征的相关性,研究对BLCA、COAD和LUAD的亚型与临床分期(Stage)、肿瘤分级(T)、淋巴结状态(N)、转移情况(M)进行了卡方检验。结果显示,在BLCA中,Stage和T与亚型显著相关;在COAD中,Stage、N和M与亚型显著相关;在LUAD中,Stage和N与亚型显著相关。这些关联表明,CA-CAE识别的分子亚型能够反映具有临床意义的患者分组,可能为个体化治疗策略提供信息。
CA-CAE亚型与全基因组加倍(WGD)及NMF的一致性
为进一步评估CA-CAE亚型的生物学相关性,分析了其与癌症进化关键标志——全基因组加倍(WGD)状态的关联。卡方检验显示,在COAD、LUAD和SARC中,CA-CAE亚型与WGD状态存在显著关联,表明模型成功捕获了与基因组不稳定性相关的生物学信号。同时,将CA-CAE的聚类结果与已报道的基于NMF的聚类方法进行比较,通过调整兰德指数(ARI)和标准化互信息(NMI)衡量一致性。在SARC、LUAD和CESC等癌症中观察到中等至较高的一致性,表明CA-CAE能够识别与NMF方法部分重叠且具有生物学意义的亚型结构,同时揭示了额外的非线性模式。
在CPTAC蛋白质基因组数据上的泛化性验证
为验证CA-CAE模型的泛化能力,将其应用于临床蛋白质组肿瘤分析联盟(CPTAC)的蛋白质基因组学数据集,包括胶质母细胞瘤(GBM)和肺腺癌(LUAD)的蛋白质组与转录组数据。经过数据匹配与预处理后,CA-CAE在GBM队列中实现了显著的生存分层(P=4.1×10-3,C指数=0.62),在LUAD队列中分层更为明显(P=1.0×10-4,C指数=0.80)。这表明CA-CAE能够有效捕获蛋白质组学数据中蕴含的预后信号,并展现出跨组学模态的强稳健性与适应性。
讨论
本研究提出的CA-CAE框架通过结合非线性特征提取与通道注意力机制,有效整合了异质多组学数据,并突出了跨分子层的关键生物学特征。在15种TCGA癌症数据集上的实验结果表明,CA-CAE能够一致且统计显著地分离生存曲线,验证了其在多样癌症类型中识别预后相关亚型的能力。与现有深度学习和传统聚类方法相比,CA-CAE在预测准确性与稳健性方面均有提升,其狭窄的C指数置信区间进一步证实了模型的稳定性。
CA-CAE框架不仅提升了聚类性能,还展现出良好的生物学可解释性。在LUAD、SARC等癌症中发现的亚型与全基因组加倍及临床特征显著相关,证实模型捕获的是真实的分子异质性而非统计假象。通道注意力机制通过自适应加权不同组学特征的重要性,增强了模型对关键预后模式的聚焦能力。
总体而言,CA-CAE代表了深度学习整合多组学数据用于癌症研究的重要进展。其架构融合了非线性表征学习、注意力引导的特征优化以及基于Cox的预后过滤,形成了一个既准确又具有生物学基础的模型。该框架灵活性强,可扩展至其他大规模蛋白质基因组学或单细胞多组学数据集,在精准肿瘤学中具有广阔的转化应用潜力。
当然,研究仍存在一定局限,例如深度潜在表征的可解释性仍不及传统线性方法,且当前模型依赖预先选择的组学特征可能引入偏差。未来工作可结合可解释人工智能技术(如SHAP或积分梯度分析)以更好地阐释单个基因的贡献,并利用独立临床队列或蛋白质基因组学数据集进行外部验证,以进一步增强模型的临床相关性。
材料与方法
数据收集与预处理
从UCSC Xena基因组数据共享平台(GDC)下载了15种癌症的多组学数据集,包括RNA-seq、DNA甲基化和miRNA-seq数据,以及相应的生存随访数据和表型信息。预处理步骤包括:移除含有缺失值的生物学特征;排除各数据集中未定义的生物学特征;删除生存数据缺失的样本。为降低维度并保留最具信息量的特征,基于方差选择了每种组学数据的前3000个RNA特征、100个miRNA特征和1000个DNA甲基化特征。所有数据预处理与分析均在2025年4月4日前完成。
归一化
首先应用最小-最大归一化将数据集值线性变换至固定范围。随后,利用皮尔逊相关系数评估特征间的线性相关性,通过计算相关矩阵每行的几何均值对特征进行重新排序,以处理高度相关的变量。
CA-CAE概述
CA-CAE是一个基于三种组学数据(DNA甲基化、mRNA-seq和miRNA-seq)进行患者分层与预后评估的框架。其第一阶段包括降维与特征变换,利用皮尔逊相关归一化以及结合注意力机制的卷积自编码器进行降维。每种组学数据均由一个结合注意力机制的卷积自编码器单独建模,以实现对异质数据类型的灵活且可扩展的处理。降维后的特征首先经过LASSO回归分析筛选非零系数特征,再通过单变量Cox比例风险模型进一步识别生存相关特征。最后,整合来自各数据集的生存相关特征用于后续生存分析与癌症亚型选择。
通道注意力模块
该模块通过全局平均池化与全局最大池化从全局视角提取关键特征,随后经过共享权重的全连接层生成压缩特征,再投影回原始通道维度以生成每个通道的注意力权重。最终,通过元素级乘法将输入特征与注意力权重结合,增强高权重通道的响应并抑制低权重通道。
生存相关潜在特征的选择
应用LASSO回归以降维并选择最具信息量的潜在变量。随后,使用Cox比例风险模型评估每个潜在特征与患者生存的关系,并选择Log-rank检验P值小于0.05的特征作为生存相关变量。最后,将从各CA-CAE中提取的显著潜在特征合并为新矩阵以供后续分析。
癌症亚型分类
使用K均值聚类将具有相似特征的样本分配到不同亚组。通过轮廓系数、Calinski-Harabasz(CH)指数等方法确定最佳聚类数。
模型评估指标
采用多种指标全面评估模型性能,包括轮廓系数、Calinski-Harabasz(CH)指数、Davies-Bouldin(DB)指数、贝叶斯信息准则(BIC)、Log-rank检验、C指数(C-index)及其95%置信区间(通过自助法计算)、卡方检验等。同时,通过五折交叉验证和不同随机种子下的重复聚类来评估模型稳定性。
模型性能比较
将CA-CAE与ProgCAE、DeepProg、PCA及NMF等基线模型进行比较。为确保公平性,所有基线模型遵循与CA-CAE相同的下游分析框架。对于PCA和NMF基线,仅替换特征提取组件,其余分析步骤保持一致。使用网格搜索与五折交叉验证进行参数调优,并选择具有最高C指数的模型进行跨15种癌症类型的生存分析。
消融实验
在LUAD多组学数据集上进行消融实验,构建了两个简化变体:移除通道注意力模块的模型,以及移除基于Cox的预后特征过滤的模型。所有变体使用相同的输入特征、预处理步骤和训练超参数进行训练,以评估各组件对构建稳定亚型识别流程的必要性。
构建支持向量机(SVM)
利用K均值聚类获得的标签,为ACC、BLCA和LUAD数据集构建SVM分类器。首先提取每种组学类型中方差最高的前50个特征并合并为新的训练矩阵,按7:3比例划分训练集与测试集。使用scikit-learn包中的SVM算法,通过网格搜索与五折交叉验证寻找最优超参数。
差异基因分析与多组学数据生存分析
对LUAD数据集进行差异基因表达分析,识别不同癌症亚型间的差异表达基因。提取20个基因作为候选标志物,并评估其与患者生存的关联。
功能富集分析
使用R包clusterProfiler对CA-CAE流程获得的生存相关基因进行基因本体(GO)和KEGG通路富集分析,以探索这些基因是否富集于免疫相关或肿瘤进展相关的生物过程与信号通路。
临床特征与癌症亚型的关系
对LUAD数据集的临床特征(Stage、T、N、M)与癌症亚型进行卡方检验,分析其关联性。
CA-CAE亚型与WGD及基于NMF亚型的关联分析
为评估CA-CAE识别的分子亚型是否捕获了有生物学意义的变异,测试了其与全基因组加倍(WGD)状态以及与先前报道的基于NMF的聚类工作流程所得亚型的关联。对于WGD,使用卡方检验评估亚型与WGD状态的依赖性,并计算克莱姆V值(Cramér's V)量化关联强度。对于与NMF的比较,计算调整兰德指数(ARI)和标准化互信息(NMI)来衡量标签层面的一致性。
在CPTAC蛋白质基因组数据集上的外部验证
为检验CA-CAE在其他多组学场景下的可迁移性,将相同的预处理与建模步骤应用于来自临床蛋白质组肿瘤分析联盟(CPTAC)的蛋白质基因组学队列。首先在患者层面匹配蛋白质组与转录组谱,仅保留具有完整生存信息及所需所有组学层的样本。每个组学层经历与TCGA实验相同的归一化、特征重排序和注意力增强的CAE编码。使用LASSO结合Cox流程选择生存相关潜在特征,并在整合的特征空间上进行聚类。此外部测试旨在检验模型能否在不同项目收集的异质多组学组合上运行,并仍能产生面向生存的患者分组。