
-
生物通官微
陪你抓住生命科技
跳动的脉搏
NAR:利用机器学习绘制3D超级增强子图谱
【字体: 大 中 小 】 时间:2026年03月12日 来源:AAAS
编辑推荐:
为了深入了解超级增强子等关键组分如何在三维空间中调控基因,圣裘德儿童研究医院的研究人员近日开发了一种名为BOUQUET的新算法。它利用机器学习技术揭示了基因组合及其调控元件在细胞核内蛋白质凝聚体中的相互作用。
科学家们通常从线性二维基因组的角度研究调控基因表达的分子机制,但DNA及其结合蛋白在三维空间中发挥作用。
为了深入了解超级增强子等关键组分如何在三维空间中调控基因,圣裘德儿童研究医院的研究人员近日开发了一种名为BOUQUET的新算法。它利用机器学习技术揭示了基因组合及其调控元件在细胞核内蛋白质凝聚体中的相互作用。
这项研究成果于3月9日发表在《Nucleic Acids Research》杂志上,为细胞如何调控特化基因提供了新见解。
细胞通过表达特定的基因组合来执行特定功能,例如血细胞和脑细胞会表达不同的背景特异性基因。人类DNA包含30亿个碱基对,而决定细胞身份的基因则散布在整条DNA链中。更具挑战性的是,增强子可能与其目标基因相距数千个碱基。
圣裘德儿童研究医院Brian Abraha博士领导的研究团队发现,在如此远的距离范围内,要完整识别与每个基因的表达相关的增强子及其伴随蛋白是一个难题。
为了解决这个问题,他们创建了BOUQUET模型,该模型在基于机器学习的图论框架中分析增强子的3D结构。利用这种方法,研究人员可鉴定哪些基因可能位于转录蛋白凝聚体内。
“借助BOUQUET,我们可以定量与每个基因相关的激活蛋白复合物,”通讯作者Abraham指出。“这项研究带来了两大突破:一是根据蛋白质结合图谱来预测基因表达,二是找出哪些基因可能与转录凝聚体相互作用。”
绘制细胞身份的调控图谱
增强子通过结合特定蛋白质并与目标基因相互作用来激活基因表达。研究团队之前观察到一些被称为“超级增强子”的增强子组合,它们位于在调控细胞身份中发挥重要作用的蛋白质的编码基因附近。
共同第一作者、计算生物学系的Kelsey Maher博士表示:“测定这些3D相互作用的数据复杂且存在噪声,因此我们必须采用更先进的方法来寻找增强子组合及其目标基因;这就是我们最终使用图论和机器学习来获取整个网络背景并了解增强子群落的原因。”
尽管其他研究人员已经成功实现了增强子分组,但Abraham的研究团队更进一步,将蛋白质结合图谱整合其中。据悉,他们团队是首次证实增强子/蛋白质结合模式确实与基因表达存在定量相关性。
多基因转录凝聚体
研究人员将这些增强子组合称为“群落(communities)”。“数据表明,群落是基因调控的基本单元,因为其组成部分呈现出关联的活性,对群落中某一部分的扰动会影响整个群落,”共同第一作者Jie Lu博士指出。
每个群落都含有不同水平的关联蛋白。蛋白质含量最高的群落被命名为“3D超级增强子”。结果表明,所有之前发现与转录凝聚体相互作用的基因均位于3D超级增强子内,并且这些富含蛋白的群落数量与之前统计的转录凝聚体数量相符。
“我们认为3D超级增强子可能与凝聚体存在某种关联,因为两者都含有大量蛋白质,”Lu补充道。“我们不仅预测并证实了一个新的凝聚体相关基因,还观察到两个共享同一个凝聚体并在其中协同转录的基因。”
转录失调是恶性细胞的核心特征,因此了解这种失调的发生机制至关重要。“当致病基因异常表达时,关键要探究其是否受特定蛋白质或特定复合物的调控,” Abraha指出。“现在我们已经掌握了一个切入点,可从多方面探究凝聚体是否调控致病基因的表达。”