《Advanced Science》:Investigating Phase Separation in Genome Folding via Multiscale Computational Modeling
编辑推荐:
本篇综述以“相分离”为物理框架,系统地梳理了计算模型如何从原子尺度到兆碱基尺度,层层递进地解析三维基因组折叠的机制。文章巧妙地整合了物理驱动(如粗粒化/全原子分子动力学模拟)与数据驱动(如机器学习)两类模型,深入探讨了相分离如何与环挤压、表观遗传修饰、染色质固有聚合物特性等因素协同作用,共同塑造了从区室隔离、拓扑关联结构域到转录凝聚体、核小体阵列的多层级基因组结构,为理解正常基因调控及其在疾病中的失调提供了深刻的机制见解,并展望了迈向预测性、非平衡的四维核组模型的未来路径。
在细胞核的复杂三维空间中,基因组的折叠与组织是基因精准调控的核心。近年来,生物分子相分离作为一种基础物理机制脱颖而出,为理解这种动态、多尺度的基因组架构提供了强有力的框架。这篇综述旨在系统阐述计算模型如何整合物理原理与实验数据,从多个尺度揭示相分离在基因组折叠中的关键作用。
1 引言
相分离是指蛋白质、RNA和染色质纤维等生物分子自发地从周围环境中分相,形成动态、无膜的生物分子凝聚体的过程。这些凝聚体能选择性富集特定分子,在复杂的核环境中建立功能微区,从而对转录调控等关键生物学过程施加深远影响。在三维基因组组织的背景下,相分离为理解染色质结构和动力学提供了一个引人注目的物理框架。染色质纤维作为一种长链聚电解质,本身具有发生相变的固有能力,这一行为受到其组成成分(如染色质相关蛋白质中的固有无序区域)的内在特性、组蛋白翻译后修饰等表观遗传标记以及外部非平衡过程的精细调控。静电相互作用在此过程中扮演了核心角色。
仅凭实验方法探索基因组折叠的动力学和物理基础具有挑战性,因此计算模型已成为不可或缺的工具。当前的计算策略可清晰地分为两大类:基于物理的(自下而上)建模和数据驱动的(自上而下)建模。如图1所示,多尺度基因组组织与整合实验数据和物理理论的计算框架概览。基于物理的方法源自物理和化学基本定律,将基因组视为复杂物理系统,利用分子动力学和蒙特卡洛模拟等方法,提供关于分子相互作用如何塑造大规模基因组结构和动力学的机制性见解。高分辨率全原子模拟可捕获详细的化学相互作用,而粗粒化聚合物模型则能以“串珠”表示法模拟更大的基因组跨度和更长时间尺度,便于探索中尺度现象。数据驱动模型则依赖大规模实验数据集,利用机器学习和统计方法来揭示染色质结构模式并生成预测性假说。例如,它们可以从Hi-C接触图中提取拓扑关联结构域和染色质环,或基于初级序列预测相分离倾向。将计算建模与实验数据整合,通过迭代比较和验证模型预测与经验观察,能够系统地完善模型假设和参数,从而增强生物学保真度和预测能力。
2 中尺度染色质中的相分离
在中尺度上,基因组分割为空间上隔离的活性(A)和非活性(B)区室,这被广泛解释为相分离驱动的现象。在相分离术语正式采用之前,理论工作就已强调染色质内相互作用和熵力在促进染色体聚集和分离中的重要性。最近,来自聚合物物理的“粘合剂-间隔物”范式被引入,以捕捉常与染色质相关的固有无序蛋白的行为。计算研究揭示了染色质相行为的两种相互关联的模式:聚合物-聚合物相分离和液相-液相相分离。
一个更具体的描绘涉及特定蛋白质的染色质辅助凝聚。索默等人引入了平均场聚合物辅助凝聚模型,并通过分子动力学模拟证实,即使在结合蛋白浓度远低于临界体相阈值时,染色质也能成核形成凝聚体。托尔托拉等人则表明,异染色质蛋白1能在低于体外相分离所需的浓度下形成稳定凝聚体,强调了染色质在降低成核势垒中的作用。这些研究强调了染色质压缩和蛋白质相分离之间的双向互作关系。
相分离为将一维表观遗传信息转化为三维基因组架构提供了框架,这在基于物理的“串与粘合剂开关”模型和数据驱动的模型(如MiChroM)中均有体现。如图2所示,基于“串与粘合剂开关”框架的染色质辅助蛋白质凝聚模型示意图。在SBS框架中,染色质被建模为具有结合活性珠子和惰性珠子的聚合物,并与通过类型特异性亲和力与染色质相互作用的显式蛋白质结合剂结合。而MiChroM则采用嵌段共聚物方法,基于表观遗传区块身份将蛋白质亲和力隐式嵌入染色质-染色质相互作用中。
表观遗传景观远非静态,它是一个动态的、适应性的层,既重塑又被三维基因组架构所重塑。非平衡的“阅读器-书写器”聚合物模型,其中标记被持续书写和擦除,再现了细胞中观察到的共存微相分离。这些反馈驱动的系统高度敏感,读者或书写者活性的微小变化就能引发染色质状态之间巨大的、开关式的转变。这种耦合是双向的,因为三维空间邻近性偏向于表观遗传标记的书写,而这反过来又重塑了折叠。“基因组书签”模型的提出是为了解释跨细胞周期的记忆,其中模型预测,低于临界书签密度,系统会通过一级相变崩溃为单一表观遗传状态。如图4所示,“基因组书签”模型,阐释了染色质结构与表观遗传状态动力学之间的耦合。
除了蛋白质介导的相互作用,内在的一维DNA序列也能编码大规模基因组分离的倾向。刘等人开发了一个基于CpG岛密度的模型,将基因组分为CGI丰富的“森林”和CGI贫乏的“草原”区域。他们发现这些区域具有不同的遗传和表观遗传特性,并倾向于空间分离。区室的整体组织受到核环境的关键约束,最明显的是核纤层。巴杰派等人通过粗粒化聚合物模拟证明,通过调节染色质自吸引、核纤层结合亲和力和染色质体积分数这三个关键参数,可以重现四种不同的、实验观察到的核组织模式。如图5所示,核纤层介导的染色质区室化,阐释了不同比例的核纤层关联结构域如何影响中尺度基因组组织。
3 染色质结构域中的相分离
在大型A/B区室内,基因组被进一步组织成拓扑关联结构域,它们在Hi-C接触图上显示为特征性的方形结构域。这些结构域主要通过ATP依赖的环挤压过程建立,其中黏连蛋白挤出染色质环,直到被边界元件(通常由反向定向的CTCF蛋白标记)阻滞。功能上,TADs作为绝缘的调控单元,限制增强子-启动子相互作用,从而确保转录特异性。
虽然环挤压为TAD形成提供了主要框架,但越来越多的证据表明热力学原理,特别是相分离,发挥着至关重要的协同作用。聚合物物理模拟对于剖析环挤压和相分离之间的相互作用至关重要。这些模型的一个关键见解是状态简并概念,它提出相分离的染色质结构域不是单一、静态的结构,而是许多不同但相关的构象组成的热力学有利的集合。这种固有的变异性成功地解释了单细胞实验中观察到的大量细胞间异质性。
重要的是,计算模型表明,环挤压和相分离在基因组内并非互斥,而是动态竞争的关系。如图6所示,聚合物模型揭示的环挤压和相分离在塑造三维基因组结构中的相互作用。这种竞争的有效性取决于挤出机制的过程性和机械稳定性。环挤压作为一种强大的非平衡混合力,抵消了热力学驱动的区室分离,特别是在小于黏连蛋白过程性的长度尺度上。这解释了为什么去除黏连蛋白会通过揭示基因组固有的分离模式来增强更精细尺度的区室化。支持共存观点的研究比较了纯环挤压、纯相分离以及混合框架,发现单细胞染色质构象,尤其是高阶接触,最好由混合模型捕捉,这强有力地证明即使是在单分子水平,环挤压和相分离也是协同运作的。
TAD边界的形成对其绝缘功能也至关重要,这源于多种因素。在环挤压模型中,边界由反向定向的CTCF结合位点锚定,并富含活性表观遗传标记。除了这些分子锚点,计算研究强调了一个独特的物理原理:沿着染色质纤维的异质DNA堆积密度。堆积密度较低的区域可以作为物理屏障,促进相邻结构域之间的分离。例如,孟等人开发的计算流程表明,染色质可及性数据可作为堆积密度的代理,成功预测三维基因组组织,并针对实验数据进行验证。如图7所示,通过聚合物建模将染色质DNA堆积密度与TAD形成联系起来的工作流程。
4 转录凝聚体中的相分离
相分离不仅参与大规模的染色质区室化和TAD形成,还通过形成转录凝聚体来微调基因表达。这些是通过相分离形成的无膜细胞器,作为枢纽,在特定基因组位点(如增强子)浓缩RNA聚合酶II、转录因子和辅激活因子等基本机器。这些凝聚体的形成由弱的多价相互作用驱动,主要是调控蛋白的固有无序区之间的相互作用,从而提高了转录机器的局部浓度和停留时间,进而提高了转录起始效率。
转录调控的一个核心问题是多价分子相互作用如何赋予凝聚体独特的功能特性,特别是超级增强子的超敏感性。赫尼什等人的概念模型提出,转录调节因子作为多价单元发挥作用,他们的随机模拟表明,具有许多相互作用组分的系统在比简单系统更低的相互作用阈值下经历急剧的、开关式的相变。这种出现的“超敏感性”为观察到的SEs对扰动的脆弱性及其驱动稳健转录爆发的能性提供了物理机制。
功能上,转录凝聚体作为相分离的枢纽,通过促进长程染色质相互作用,显著影响三维基因组架构,有效地桥接远端增强子及其靶启动子。聚合物物理模型对此现象提供了特别深刻的见解。然而,高阶凝聚并不总是转化为功能相互作用的增加。我们最近使用聚合物模拟的工作发现了一个控制这一过程的“黄金分割”原则:增强子-启动子接触频率在转录因子聚类的中等水平达到峰值。如图8所示,调控转录凝聚体内增强子-启动子通讯的“黄金分割”原则。这表明,虽然初始的相分离促进了桥接,但过度的凝聚可能由于分子拥挤和竞争效应而损害通讯。
至关重要的是,转录是一个活跃的、非平衡的过程,因此转录凝聚体本质上是动态的,并受到持续细胞活动的影响。谢德等人探索了活跃基因的空间聚类,结合可重入的RNA-蛋白质相行为,如何在凝聚体动力学中创建反馈回路。与之并行,孟等人将凝聚体嵌入模拟染色质力学的异质弹性介质中;它证明了刚度的空间变化对凝聚体施加了不同的弹性压力,导致了一种新颖的“弹性熟化”现象,调节了转录爆发的动力学。如图9所示,基于物理的模型,描述基因活性和空间基因聚类如何控制核凝聚体的形成和动力学。这些模型共同揭示了转录凝聚体行为产生于分子相互作用、活跃的RNA合成与降解以及核环境力学特性之间丰富的相互作用。
5 核小体、核小体阵列及相关蛋白质中的相分离
染色质的结构和功能完整性始于核小体,这是由DNA缠绕组蛋白八聚体形成的核心单元,为高阶基因组组织建立了支架。对染色质架构至关重要的一个因素是核小体的内在物理化学特性,特别是由高电荷DNA、组蛋白核心及其固有无序N端尾介导的静电相互作用。最近的显式离子全原子模型表明,在生理条件下,核小体-核小体之间存在数个kBT量级的有效吸引力。如图11所示,基于物理的显式离子模型量化了生理条件下核小体-核小体相互作用的内在强度。这种内在的压实进一步被结构染色质蛋白(如接头组蛋白H1)增强,它们结合在DNA进出位点并稳定核小体间堆叠以促进进一步的纤维压实。
核小体的相行为受到组蛋白翻译后修饰的动态调控。这些化学标记充当可调的“密码”,调节组蛋白尾的相互作用,例如,磷酸化可以削弱核小体-DNA亲和力,而乙酰化可以溶解染色质液滴。计算模型提供了关键的机制性见解:戈伦贝斯基等人通过粗粒化模拟证明,H4尾乙酰化导致短核小体阵列的显著解压缩,但保留了较长阵列中的相分离,这突显了PTMs是精细调节而非关闭凝聚体行为。如图12所示,组蛋白翻译后修饰如何调节染色质凝聚体特性的粗粒化模型。
阐明染色质组织的多尺度决定因素之间的相互作用需要复杂的自下而上的计算方法。法尔等人的多尺度建模框架层次化地整合了:高分辨率全原子分子动力学模拟、化学特异性的粗粒化模型和最小的粗粒化模型。如图13所示,法尔等人开发的染色质相分离多尺度建模框架。该框架揭示,限制核小体固有的可塑性会破坏液相-液相相分离行为,从而在动态核小体“呼吸”和液体样染色质凝聚之间建立了因果联系。
这些模拟研究共同揭示了染色质组织背后的几个基本物理原理。一个一致的发现是,核小体凝聚体在结构上是无序的,这对经典的、规则的30纳米纤维模型提出了挑战。DNA接头长度关键地调节凝聚体的形成:具有10N+5 bp接头的阵列比具有10N bp接头的阵列更容易发生相分离,这是由于纤维间堆叠(促进凝聚)和纤维内相互作用(抑制凝聚)之间的平衡。与此一致,最近结合冷冻电子断层扫描和分子动力学模拟的结构表征表明,核小体间DNA接头长度直接控制核小体排列和组蛋白尾相互作用。这种结构调节平衡了分子内和分子间相互作用,从而控制了染色质凝聚体的分子网络和宏观材料特性。