《Briefings in Bioinformatics》:CNAttention: an attention-based deep multiple-instance method for uncovering copy number aberration signatures across cancers
编辑推荐:
本研究针对体细胞拷贝数畸变(CNA)在癌症研究中的异质性和模式识别难题,开发了名为CNAttention的注意力机制多示例深度学习框架。该方法整合递归特征消除交叉验证(RFECV)和注意力机制,从30种癌症类型的基因水平CNA数据中提取癌症特异性特征,实现了89%的高精度分类,并生成可解释的CNA特征谱。研究发现神经嵴起源的癌症类型(如胶质母细胞瘤、黑色素瘤等)具有相似的CNA模式,同时揭示了脑低级别胶质瘤等癌症内部的异质性。该研究为利用CNA数据进行肿瘤分类和分子亚型鉴定提供了新范式。
在癌症基因组学领域,体细胞拷贝数畸变(Copy Number Aberrations, CNA)作为一类重要的基因突变类型,与肿瘤的发生发展密切相关。过去三十年间,通过分子细胞遗传学和基因组测序技术产生了海量CNA数据,这些数据在识别癌症相关基因和推进CNA与组织病理学定义癌症类型关系研究方面发挥了关键作用。然而,在"泛癌"研究中,由于诊断和基因组的巨大异质性,对CNA景观和疾病参数进行全面研究仍面临挑战。传统的CNA分析方法往往聚焦于驱动基因或特定区域,但这种方法存在明显局限:一方面,癌症驱动基因的分布极不均衡,少数主要驱动基因解释了大部分肿瘤发生,而大量罕见或推定的驱动基因形成了长尾分布;另一方面,仅关注驱动基因往往无法捕捉CNA的全谱特征,忽略了CNA在细胞调控和基因组动态中的重要作用。
针对这些挑战,苏黎世大学分子生命科学系的Ziying Yang和Michael Baudis研究团队在《Briefings in Bioinformatics》上发表了题为"CNAttention: an attention-based deep multiple-instance method for uncovering copy number aberration signatures across cancers"的研究论文。该研究开发了一种新型的注意力机制多示例深度学习方江CNAttention,旨在全面分析不同癌症中的CNA,并发现30种癌症类型整合基因水平CNA谱中的特定CNA模式。
研究方法上,作者主要采用了三个关键技术环节。首先,从cBioPortal数据库获取了30种癌症类型(样本量超过50)的10,628个CNA谱,涵盖24,919个基因,将CNA值离散化为五个类别:"-2"(深度缺失,可能为纯合缺失)、"-1"(浅度缺失,可能为杂合缺失)、"0"(二倍体)、"1"(低水平增益)和"2"(高水平扩增)。数据随机分为80%训练集和20%测试集。其次,采用递归特征消除交叉验证(RFECV)对训练子集进行特征选择,将基因特征数量减少至2917个,以降低过拟合风险和提高计算效率。最后,构建注意力机制多示例学习框架,将每个癌症类型视为一个包(bag),患者样本作为实例(instance),通过注意力权重识别对癌症分类最具代表性的样本和基因组区域,生成癌症特异性的CNA特征谱。
分类性能分析
CNAttention在癌症类型样本分配方面表现出高精度,平均准确率达到0.89。如图2所示,仅子宫癌肉瘤与子宫体内膜癌、胸腺瘤与甲状腺癌之间存在较明显的误分类。这种现象的可能原因在于样本量不足(低于200)以及这些实体中可能存在错误的诊断分类或基因组异质性。与随机森林(准确率0.64)、Zhang等人方法(准确率0.72)和Qiu等人方法(准确率0.67)相比,CNAttention显著优于其他方法。特别值得注意的是,没有注意力机制的CNAttention版本准确率仅为0.65,凸显了注意力机制在捕捉不同癌症类型CNA模式中的有效性。
拷贝数畸变特征谱
通过上述流程,研究人员从CNA数据中为每种癌症类型生成了一组特征基因,构建了仅保留每个样本中最具区分性改变的抽象CNA谱。这些特征谱将复杂的CNA模式简化为1008个信息基因。基于这些特征训练的随机森林模型实现了与完整数据集相当的准确率,证实所选基因保留了基本的分类信号。
图4展示了特征谱的聚类热图,显示具有共同组织起源的癌症通常聚集在一起。图5显示了最常被选择的基因,其中CDKN2B缺失是所有癌症类型中最常见的CNA。基因本体(GO)富集分析显示特征基因与癌症相关过程有显著关联,包括肿瘤抑制活性和注释为"HTLV-1感染"的通路,这可能反映了共享的免疫和信号成分而非直接的病毒机制。
特征谱比较
与Steele等人和Nguyen等人的相关研究比较显示,CNAttention在臂水平和基因水平CNA框架上都表现出强一致性。臂水平比较显示平均Spearman ρ为0.28(在PAAD、GBM和OV中最高达0.48),重现了8q增益和9p/10q缺失的典型模式。基因水平重叠产生中位Jaccard指数为0.008,与CN4和CN10-14成分(对应7p/8q增益和17p/18q缺失)的一致性最高。所有研究中,CNAttention、Steele和TCGA共享约200个基因,包括关键驱动基因(MYC、TP53、CDKN2A、PTEN)。值得注意的是,60%的CNAttention基因是独特的,并在免疫和代谢通路中富集,表明基于注意力的模型捕捉到了现有泛癌特征之外的更精细的癌症特异性CNA模式。
使用大规模拷贝数变异参考数据库验证拷贝数畸变特征谱
研究人员将特征谱扩展到Progenetix的外部数据集,评估这些特征谱是否能提取特定癌症类型的CNV模式。以肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)为例(图6和图7),研究发现这两种肺癌主要组织学亚型各有独特的CNA模式。在LUAD中,先前已显示功能性TP53的克隆缺失与MCL-1(1q21.2)的亚克隆增益显著相关。LUSC的特征性CNA模式包括3q26染色体上SOX2和8p11.23染色体上FGFR1的频繁扩增,以及9q34.3染色体上NOTCH1的缺失。肿瘤抑制基因CDKN2A/2B和CSMD1的缺失是LUAD和LUSC特征谱共有的。这些结果表明,特征谱不仅能提取与特定癌症相关的特征,还能保留LUAD和LUSC之间的共同CNA模式,有助于揭示不同癌症之间的关系。
神经嵴起源亚型的相似性
通过将特征谱扩展到更多外部数据集,并导入Progenetix中的癌症分类树,研究人员发现了神经嵴起源亚型的相似性,包括胶质母细胞瘤、胶质瘤、髓母细胞瘤和黑色素瘤。这四种远缘癌症类型在特征选择和改变频率方面表现出高度相似的特征谱。图8显示了这些癌症在具有相似特征谱的染色体上的原始CNA数据、特征和已知驱动基因的比较。值得注意的是,它们的特征谱在7号染色体重复和9号、10号染色体缺失方面表现出高度相似性。此外,它们在1号和20号染色体重复以及14号染色体缺失方面共享成对相似性。
7号染色体在四种癌症中均频繁出现拷贝数增益,包含几个关键癌基因,如胶质瘤中的EGFR、CDK6和MET;髓母细胞瘤中的KMT2C和PMS2;黑色素瘤中的BRAF、RAC1和TRRAP。类似地,在这些癌症中常见缺失的9号和10号染色体包含几个重要的抑制基因,如胶质瘤中的CDKN2A和PTEN;黑色素瘤中的XPA、PPP6C和CDKNA;髓母细胞瘤中的PTCH1和SUFU。值得注意的是,CDKN2A/B缺失是所有癌症类型中最常见的CNA。
拷贝数变异异质性反映癌症亚型
为了探究这些特征谱是否反映癌症内部的异质性,研究人员收集了所有可用的临床信息,并采用随机森林检验特征谱是否能帮助分类亚型。结果表明,对于所有癌症,与使用所有CNV谱相比,使用特征谱有助于提高准确率,表明特征谱能反映癌症内部的亚型异质性。图9展示了特征谱如何通过1p/19q共缺失反映脑低级别胶质瘤(LGG)的亚型。
本研究通过整合大量癌症CNA谱,确定了每种癌症类型特有的基因组畸变特征。新型的注意力机制多示例学习方法CNAttention展示了CNA模式在肿瘤识别中的潜力。通过分离诊断性CNA谱中的独特成分,研究人员提取了30种癌症类型的特征谱,每种都以具有高区分能力的最小基因表征为特征。比较分析揭示了不同癌症类型中7号和8号染色体频繁重复以及22号染色体缺失的普遍现象。研究还发现了四种临床和病理学上不同的癌症类型——胶质母细胞瘤、髓母细胞瘤、黑色素瘤和胶质瘤——共享CNA特征谱,这些肿瘤类型在发育上可追溯至神经嵴细胞的共同谱系。此外,特征谱揭示了癌症类型的异质性,为发现更多潜在癌症亚型提供了线索。总之,该研究为大量拷贝数数据的整合和比较分析提供了系统流程,所得CNA特征谱为理解癌症的共同基础提供了新视角,并在肿瘤分类应用中显示出广阔前景。