乳腺癌亚型特异性增强子RNA:转录调控网络与预后的新维度

《Molecular Oncology》:Subtype-specific enhancer RNAs define transcriptional regulators and prognosis in breast cancers

【字体: 时间:2026年03月03日 来源:Molecular Oncology 4.5

编辑推荐:

  本研究运用机器学习算法,对乳腺癌患者的RNA测序(RNA-seq)数据进行分析,鉴定了具有分子亚型特异性和预后价值的增强子RNA(eRNA)。通过将亚型特异性eRNA与邻近共表达的mRNA关联,定义了关键调控网络(ProxCReAms),揭示了各亚型特有的关键转录因子(如核受体、FOX家族因子)和信号通路。该工作强调了基于eRNA的表达谱分析在识别乳腺癌上游调控网络、理解肿瘤异质性及评估患者预后方面的重要潜力。

  
引言:乳腺癌的异质性与增强子RNA的调控角色
乳腺癌是一种高度异质性的疾病,根据雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体-2(Her2)的表达状态,可被划分为不同的分子亚型,如管腔A型(LumA)、管腔B型(LumB)、Her2型和基底样型。这些亚型在治疗反应和患者预后上存在显著差异,凸显了在分子水平上进行分层的必要性。基因表达受到称为增强子的顺式调控元件的精密控制,活跃的增强子会转录产生非编码RNA,即增强子RNA(eRNA)。eRNA的表达是转录因子活性的早期指标,并与癌症患者的治疗反应和生存期相关。尽管已有泛癌症研究鉴定出一些eRNA,但在高度异质的乳腺癌中,基于亚型对eRNA进行系统性分类及其功能关联的研究仍不充分。本研究旨在利用机器学习方法,从大量乳腺癌患者的RNA-seq数据中,鉴定亚型特异性和预后相关的eRNA,并探索其调控网络。
材料与方法:数据整合与机器学习分析框架
研究团队从TCGA eRNA图谱(TCeA)平台下载了1095个乳腺癌患者样本的eRNA表达数据集,这些数据基于Hnisz等人从H3K27ac染色质免疫沉淀测序(ChIP-seq)数据集中鉴定出的302,951个增强子位点。经过异常值过滤,最终975个肿瘤样本的数据用于后续分析。为了识别亚型特异性eRNA,研究采用了两种测量方法对eRNA表达的RPKM值进行处理:信息增益(InfoGain,基于k-means二值化)和对数均值中心化(Logmc,连续值)。随后使用随机森林(random forest)算法进行亚型分类,并评估分类效能。通过主成分分析(PCA)和UMAP进行降维可视化。此外,利用峰值集富集于基因集(PEGS)分析,将亚型特异性eRNA与同样通过InfoGain方法鉴定的亚型特异性mRNA进行关联,定义出邻近共表达调控性eRNA(ProxCReAm,即与mRNA相关联的邻近共表达调控eRNA)及其配对关系。研究还整合了Cistrome平台的转录因子ChIP-seq数据进行结合富集分析,利用TCGA-BRCA队列的ATAC-seq数据进行基序富集分析,并通过KAS-seq(酮氧辅助单链DNA测序)在MCF7细胞中验证增强子活性。生存分析采用Kaplan-Meier曲线和log-rank检验,并与已发表的Perturb-seq数据集进行整合,以验证eRNA的功能相关性。
结果
3.1 亚型特异性eRNA的鉴定
研究发现,基于InfoGain和Logmc两种测量方法,机器学习模型都能有效鉴定出乳腺癌的亚型特异性eRNA。其中,InfoGain方法鉴定了更多eRNA,并且其分类性能指标(如对基底样型的敏感性和对Her2型的精确度)略优于Logmc方法。PCA和UMAP可视化显示,基于eRNA的表达谱能够清晰区分基底样型和管腔型患者,但无法进一步区分LumA和LumB亚型。Her2型患者的eRNA表达谱介于管腔型和基底样型之间。有趣的是,无论采用哪种测量方法,均未能有效区分浸润性导管癌和小叶癌的组织学亚型。热图和层次聚类分析进一步显示,InfoGain方法鉴定的基底样型高表达eRNA在基底样型患者中高表达,在管腔型患者中低表达,反之亦然,形成了清晰的表达模式。相比之下,Logmc方法鉴定的eRNA表达模式更为混杂。因此,研究后续聚焦于InfoGain定义的eRNA进行深入分析。
3.2 定义邻近共表达的eRNA-mRNA对(ProxCReAms)
研究同时鉴定了亚型特异性mRNA。与eRNA相比,mRNA在区分LumA和LumB亚型上表现稍好。通过PEGS分析,将亚型特异性eRNA与其1 Mb基因组距离内的亚型特异性mRNA进行关联,定义了ProxCReAm eRNA-mRNA对。约81.45%的亚型特异性eRNA能以这种方式与mRNA关联。特别值得注意的是,尽管单独使用eRNA难以区分导管癌和小叶癌,但将低阈值下鉴定出的大量eRNA与mRNA关联后得到的ProxCReAm eRNA,能够更有效地区分这两种组织学亚型。与这些小叶癌特异性ProxCReAm对相关的mRNA富集了与染色体16q缺失(包含肿瘤抑制因子CDH1)、肿瘤外周区上调基因(与侵袭性相关)等通路,提示增强子重编程可能驱动了小叶癌的侵袭性和耐药性。
3.3 ProxCReAm eRNA与亚型特异性基因通路关联
通路富集分析表明,ProxCReAm eRNA所关联的mRNA显著富集于各亚型的特征性通路。例如,基底样型高表达eRNA关联的通路包括基底样特异性通路、Wnt/β-连环蛋白信号等;管腔A型eRNA关联的通路则富含ER靶基因和管腔上调通路;Her2型eRNA关联的通路涉及ERBB2扩增子相关基因。通过整合ATAC-seq、H3K27ac ChIP-seq、CAGE和GRO-seq等多组学数据,验证了这些eRNA位点确实位于染色质开放、具有双向转录活性的活跃增强子区域。有趣的是,尽管这些区域活跃,但雌激素受体(ER)的结合位点并不完全与eRNA位点中心重合,有时相距250-1000 bp。对Her2基因座附近eRNA的三维基因组(Hi-C)分析显示,这些eRNA区域位于同一拓扑关联域(TAD)内,可能通过染色质环化共同调控ERBB2等关键基因。
3.4 亚型特异性eRNA与关键转录因子及表观遗传调控因子的关联
通过整合Cistrome的ChIP-seq数据,研究发现不同亚型的ProxCReAm eRNA位点显著富集了不同的转录因子和表观调控因子结合。基底样型高表达eRNA区域富集了TRIM28、H2AZ、EZH2、SPI1、MYB、CHD8等因子。管腔A型eRNA区域则显著富集了糖皮质激素受体(GR)、芳香烃受体(AHR)、染色质重塑复合物亚基SMARCA4、CREBBP、HIF1A以及FOXA2/FOXO1等forkhead结构域蛋白,但ER本身并不显著富集。Her2型eRNA区域富集了GR、HOXB7、ZNF384等因子。对eRNA侧翼可及染色质区域(ATAC-seq峰)的转录因子结合基序分析进一步支持了上述发现:管腔型区域富集FOX和Ets相关因子基序;基底样型区域富集RAR、AP1(Jun)、STAT、NF-κB等基序。为验证管腔型eRNA的ER非依赖性,研究在MCF7细胞中进行了KAS-seq实验,发现最强的单链DNA信号(代表活跃转录)和GRO-seq双向转录信号区域,其ER结合信号反而较弱,这支持了活跃的增强子转录不一定与ER直接结合的观点。
3.5 InfoGain衍生的eRNA具有预后价值
生存分析显示,管腔A型特异性eRNA高表达的患者总生存期更好,这与ER阳性患者预后较好的已知现象一致。基底样型和Her2型特异性eRNA的表达水平与患者总生存期无显著关联。然而,当专注于Her2亚型患者并根据其生存状态(存活vs.死亡)重新进行机器学习分类时,InfoGain方法鉴定出了一组342个预后相关的Her2 eRNA。这组eRNA的高表达与Her2患者较差的预后显著相关,其邻近基因富集于细胞粘附/连接通路,暗示了上皮-间质转化在不良预后中的作用。
3.6 亚型/预后特异性eRNA的功能验证
通过整合已发表的Perturb-seq数据(在ER+和ER-乳腺癌细胞系中进行CRISPRi增强子扰动后的单细胞RNA-seq),研究验证了部分鉴定出的eRNA的功能相关性。尽管重叠的增强子数量有限,但部分管腔A型和基底样型特异性eRNA所在的扰动增强子,确实能影响下游基因表达。这些基因富集于IL-2/STAT5信号、雌激素反应、TNF-α信号等与各亚型生物学特性相关的通路。例如,一个与LumB相关的扰动增强子可影响EMID1基因的表达,该基因促进细胞增殖和转移。
讨论
本研究强调了在异质性癌症中,先进行分子分型再鉴定生物标志物的重要性。机器学习方法,特别是基于二值化表达的InfoGain测量,能有效鉴定出具有亚型特异性和预后价值的eRNA。通过构建ProxCReAm eRNA-mRNA对,研究不仅将增强子活性与下游基因功能联系起来,还揭示了各亚型特有的上游转录调控网络。一个关键发现是,在管腔型乳腺癌的活跃增强子中,除ER外,其他核受体(如GR、AHR)和FOX家族先锋因子可能扮演更重要角色。此外,尽管传统RNA-seq主要捕获多聚腺苷酸化的转录本,但基于大量样本分析的eRNA信号仍足以揭示高活性的调控框架。研究也指出了当前基于polyA捕获的RNA-seq在探测不稳定eRNA方面的局限性,未来利用KAS-seq等新兴技术直接检测新生转录本将提供更全面的图谱。对浸润性小叶癌的分析表明,整合低表达阈值的eRNA与mRNA,能帮助解析其独特的侵袭性相关网络。最后,本研究鉴定的预后相关eRNA与先前泛癌症研究发现的eRNA重叠很少,进一步说明了分型研究的必要性。
结论
总而言之,本研究证明了在乳腺癌中,基于机器学习的eRNA表达谱分析能够鉴定出具有亚型特异性、预后价值及功能相关性的增强子-基因调控网络。这种方法为利用临床上易获取的RNA-seq数据,揭示肿瘤异质性背后的关键转录因子和表观遗传驱动因素,并开发潜在的预后生物标志物和治疗靶点,提供了新的途径。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号