综述：调控DNA序列的长期演化。第一部分：基于全局、生物物理学上真实的基因型-表型图谱的模拟

《Current Opinion in Genetics & Development》：Long-term evolution of regulatory DNA sequences. Part 1: simulations on global, biophysically-realistic genotype–phenotype maps

【字体：大中小】 时间：2026年05月10日 来源：Current Opinion in Genetics & Development 3.6

编辑推荐：

　　启动子和增强子是顺式调控元件（CREs），即结合转录因子（TF）蛋白以上调或下调靶基因的DNA序列。长达数十年的研究产生了转录因子-DNA相互作用模型，这些模型可以预测单个转录因子与任意DNA序列的结合强度，以及CRE上各个结合事件如何共同影响基因表达。这些见

启动子和增强子是顺式调控元件（CREs），即结合转录因子（TF）蛋白以上调或下调靶基因的DNA序列。长达数十年的研究产生了转录因子-DNA相互作用模型，这些模型可以预测单个转录因子与任意DNA序列的结合强度，以及CRE上各个结合事件如何共同影响基因表达。这些见解可以合成为基因调控的全局、生物物理学上真实且定量的基因型-表型（Genotype-Phenotype, GP）图谱，这是应用进化理论的“圣杯”。一张全局图谱为模拟调控序列的长期演化提供了难得的机会，并提出了几个基本问题：从头演化出CRE需要多长时间？序列空间中有多少非平凡的调控功能？它们之间如何连接？哪种调控架构下的CRE演化最快速且最具可进化性？在这篇两部分系列文章的第一部分中，我们简要回顾了针对一个独特系统的相关建模与模拟工作，该系统能在生物物理学、系统生物学、合成生物学和进化生物学之间建立起紧密的、定量的、机制性的联系。对进化优化能力的理解已颇为深入。假设我们已知遗传程序（“基因型”）如何映射为可观察的生物体特性（“表型”），并随后映射为适合度[1]，那么一个严谨的数学理论体系可以在各种群体遗传学体系下预测进化轨迹、结果的多样性及适应速率[2]。因此，完全掌握基因型-表型-适合度图谱就意味着完全掌握了进化变化。然而在实践中，我们的知识显著不完整：我们既不知道所有相关的表型，也不知道它们如何映射为适合度。此外，这种映射通常以复杂或未知的方式依赖于环境。但可以说，最大的障碍是从基因型到表型的跳跃：维度灾难通常阻止了为所有4L种可能的基因型分配表型，即使对于中等长度的序列（L?10 bp）。在理论前沿，我们通常通过牺牲生物学的真实性来采用简化模型，以规避这种维度灾难。我们研究玩具模型GP-适合度图谱或“适合度景观”，其中每个可能的基因型在数学上被分配一个适合度值。这种对所有4L种可能基因型的详尽分配定义了“全局图谱”。在这种通用且程式化的景观上，人们可以研究全球性的、任意长的进化轨迹。我们将此类方法称为处理“长期进化”，如果：进化可以从任何序列开始（甚至完全随机的序列，从而实现从头进化的模拟）；它可以无限期进行，对累积的突变数量没有强加限制。然而，使用理想化的图谱牺牲了生物学的真实性以及与任何真实数据集的定量匹配。相比之下，在实证前沿，实验通常旨在使用大规模、受控的突变库来测量假定的适合度代理。例如，已经测量了数千个绿色荧光蛋白（GFP）变体的荧光[9, 10]，产生了能够指导设计新GFP变体的景观。同样，对于转录调控，已经使用大规模并行分析大规模测量了组成型或受调控的基因表达[11••, 12•]。这两种情况都提供了定量的、系统特定的图谱。这里的牺牲是图谱的全局性：即使最大的文库也只能探测4L种可能基因型中极小的一部分，局限于野生型的局部突变邻域内。我们将这种受限的分配称为“局部图谱”。当考虑足够短时间尺度内的点突变时，这种限制并不关键。我们将此体系称为“短期进化”，其特征是两个约束：进化从一个或少数几个相关序列（通常是野生型）开始；它仅限于少数（?10个）突变，仅探索初始序列周围的局部突变邻域（可获得实验数据的突变体）。然而，此类方法排除了在任意长时间尺度（在此期间进化可能探索基因型空间中更远的区域）或模拟从非功能性序列进行的从头进化方面做出更普遍的预测。既是定量又是全局的基因型-表型图谱，因而特别适合模拟长期进化的，寥寥无几。已建立的图谱有一个共同主题：表型依赖于“分子识别”，即两种分子相互作用的倾向性，其强度由它们依赖序列的结构设定。由于物理化学定律强烈约束了潜在的相互作用规则，GP图谱的复杂性被急剧降低。主要的例子是遗传密码，其中tRNA的连续分子识别使GP图谱如此简单，以至于表型（蛋白质序列）可以通过一个简单的查找表来解码，该表将21条信息（20种氨基酸和一条终止信息）分配给43=64个密码子。这项重构的成功和核心地位无疑转移了人们对非蛋白质编码DNA进行类似解码工作的注意力。对于其他更复杂的GP图谱，现有的大规模并行实验可用于定量校准源自理论的分子相互作用规则，这些规则反过来将从测量到的基因型推广到整个序列空间。这个方向的第一个里程碑成功是由“维也纳学派”从序列预测RNA二级结构[13]。随后的努力集中在抗原-抗体相互作用中的分子识别，强调了它们对病原体的特异性并同时避免自身相互作用，这对免疫系统的健康功能至关重要[14]。最后但同样重要的是，我们在本综述系列中重点关注的转录因子与DNA之间的相互作用，也已成为物理信息定量的GP图谱的典型案例，使得能够对长期进化进行（半）真实的模拟。本综述系列的范围是特意狭窄的：评估我们在模拟和理论理解调控序列长期进化方面的进展。这个目标与多个学科密切互动。从进化角度来看，它为在一个对大多数生物系统都无法企及的问题上应用并最终检验种群遗传学（一个成熟的数学理论）提供了独特的机会。从系统和合成生物学的角度来看，从调控序列预测基因表达是该领域的核心问题之一，尽管大多是在很少提及进化影响的情况下进行的。然而，从进化视角来看，这些所追求的预测模型正是基因调控的GP图谱，前提是，重要的是，调控序列读取的分子机制在CRE进化的时间尺度上不发生变化。近年来，结合大规模实验、生物物理约束和深度学习的成功预测模型呈爆炸式增长。

基因型-表型图谱用于调控序列

GP图谱用于调控序列进化的基本构建模块包括调控蛋白-DNA序列识别的物理机制，这些机制已被充分理解[19, 20]。转录因子和其他调控蛋白通常识别长度为? = 6?20个碱基对的基序，在动物中报道的长度出奇地短[21]。例如，图2a–d显示了大肠杆菌RNA聚合酶（RNAP）-σ70复合物结合偏好的常见表示。这些表示允许预测蛋白质-DNA结合。在此基础上，由细菌启动子驱动的组成型表达现在在很大程度上是可预测的，不仅通过“黑盒”模型[22]，而且通过基于蛋白质-DNA相互作用的可解释模型[11••, 23]。对于真核生物启动子，预测性能可以很高，但主要依赖于“黑盒”模型，因为增加的调控复杂性（核心、近端和远端元件的相互作用，以及染色质环境）使得构建可解释的模型更加困难[24, 25]。总体而言，这些模型可以预测组成型表达中很大一部分（有时?80%）的方差，使用的是完全随机或设计的DNA序列文库，从而接近组成型表达的真正全局GP图谱。

为了解释受调控的表达（而非组成型），需要对标准GP图谱范式进行两个扩展。首先，调控表型不能再是单一的标量基因表达值[28]：调控必然意味着表达取决于细胞类型或时间、细胞外信号或其他表现为转录因子浓度和活性变化的因素。从进化角度看，所有这些效应被统称为环境，形成了基因型-表型-环境三元组中的最后一环。基因表达水平对环境（即对编码环境的环境特异性转录因子浓度组合）的依赖性就是“调控功能”（图1b）。不同的调控序列可以实现不同的调控功能，任何假定的适合度函数都必须评估基因表达在多个此类“环境”中接近最佳水平的程度。

其次，多个转录因子的调控需要理解更大的调控序列（原核生物启动子或真核生物增强子通常约200 bp）如何影响基因表达。这里的基本简化是转录调控编码的卷积性质：转录因子以众所周知的方式识别并结合这段较长序列中的短基序，我们的任务是设计一个被称为“调控语法”（图1c）的数学函数，来描述多个这样的、针对不同转录因子的结合位点，在CRE内部以不同位置和方向排列，如何整合成多值的调控表型。因此，对于给定的一组基序，调控语法是将L bp内基序实例的可能配置映射到调控输出（例如，跨条件的表达水平）的映射。与L~200时维度为4^L的完全非结构化GP图谱相比，这是一个急剧的简化，后者是遥不可及的。这也提出了一个解析调控语法的具体实验策略：通过随机打乱预定义基序的位置、方向和组合，并测量所得的表达谱，可以经验性地映射空间组织如何整合为调控功能，如合成启动子打乱方法所示[29]。

在原核生物中，结合到表达的整合基于所谓的“热力学模型”[26]，这是一个经过广泛测试和信赖的范式[27, 31]。在这个范式中，启动子上所有调控因子的热力学平衡占据稳定或破坏了RNAP的结合，其占据率单调地映射为基因表达。统计物理学提供了计算给定转录因子浓度下各种占据率的数学工具，并能系统地考虑已知的复杂因素，如结合协同性、因子间的空间位阻、DNA成环等。虽然一些测量挑战了某些热力学模型的假设[32]，但这些模型仍然是原核基因调控的一个强大、可识别且基于机制的基线GP图谱[33]。

在真核生物，尤其是后生动物中，情况更为复杂。关于它们的启动子如何激活以及信号如何跨CRE整合，人们已经知道很多[34, 35]。过去理解真核调控语法的开创性努力取得了成功，特别是在酵母[36]和发育增强子的背景下[35, 37, 38, 39]，最近又得到大规模并行实验和深度学习的推动[12•, 40••, 41•]。尽管取得了令人印象深刻的进展，但许多问题仍然未知[42, 43]。例如，真核基因调控为何使用短的、单个不足以赋予足够特异性的转录因子结合位点，其确切解释仍然缺失；这被称为“特异性悖论”[44]。同样，弱、低亲和力结合位点的功能作用也未得到解释[45]。在机制方面，理解调控语法，从而理解全局调控GP图谱的关键是转录因子结合的可加性与协同性（或协同作用），这是理论和实验研究的热点课题[46, 47, 48]。许多涉及真核基因调控的、有据可查的序列依赖性机制，通常被孤立研究，仍有待整合到一个全面的、预测性的真核基因调控GP图谱中。

单个转录因子结合位点的进化

图2a–d中展示的单个转录因子结合模型允许我们研究转录因子结合位点从起始序列集合中的从头产生，以及它们的维持和更替。图2a中的简化错配模型支持解析处理，其结论通常与基于更详细但解析上难以处理的模型的模拟结果一致。最简单的设置假设对转录因子结合进行定向选择，选择可以在大小为L=? bp的受限序列窗口内（?是转录因子基序的长度），也可以在大小L??的整个CRE内。在这两种情况下，序列通常短到足以忽略重组。由此产生的进化动力学的两个关键GP图谱特征是：个体碱基对的效应首先线性组合（通过错配模型或能量矩阵）成转录因子结合能；这个步骤捕获了序列空间的巨大简并性，而本身没有内在的高阶相互作用；产生的能量通过一个sigmoid“结合”非线性（由转录因子-DNA相互作用的热力学决定）映射为结合概率，从而映射为适合度。这种非线性在序列空间中诱导出大的中性平台。

有几种方法可以用来评估选择能在多大程度上产生从头转录因子结合位点，并在突变和漂变的熵力作用下维持它们。显式建模突变率会导致突变-选择平衡，其中有害突变不断侵蚀结合亲和力，而选择则抵消这种损失。即使在无限群体极限下，选择也不能完全将概率质量集中在共有序列上，因为突变会不断在序列空间中重新分配它[51]。或者，可以在强选择、弱突变的极限下工作，通常使用固定状态近似进行分析：群体被假定固定为单一基因型，并通过突变进化，这些突变根据Kimura的固定概率被固定或丢失。在这里，突变仅作为变异的产生者，而阻碍适合度最大化的主要熵力是遗传漂变。由此产生的进化稳态反映了漂变-选择平衡[52]。这些动力学映射到统计物理学的能量-熵权衡[53, 54]，并解释了为什么共有序列与功能性结合位点之间的错配是意料之中的。当应用于结合位点的从头产生时，这些模型预测，对于非常短的位点，通过点突变可以实现快速进化[55]，但随着位点长度?的增加，所需时间呈指数级增长，这与比较基因组学中?为实际长度时快速更替的证据难以调和，除非选择极强[56]。

与理论驱动的研究相对应的，是基于基因组数据、使用生物物理模型学习选择压力或适合度景观参数的数据驱动方法。在细菌和酵母中，已从生物信息学分析中推断出了RNAP和转录因子结合位的有效适合度景观和选择压力[63, 64]，而巧妙的实验设计，例如使用酵母杂交体，能够解析对基因调控进化重要的特定机制和进化力量[65]。

整个调控序列的进化

模拟整个CREs的演化具有挑战性：主要不是由于技术性或模拟运行时间，尤其是考虑到当今的计算能力，而主要是由于实例化一个定量、全局GP图谱所需的大量结构和参数假设，以及解释模拟结果的困难。尽管如此，一些（尽管不多）此类模拟已经尝试，如下文所述，为未来更大规模的探索开辟了道路。

从单个转录因子结合位点演化扩展到整个CREs的早期尝试，集中在CREs内重叠和竞争的转录因子结合位点及其功能重要性。热力学模型被用来推导具有重叠和封闭位点的GP图谱，从而得出与原核和真核生物相关的普遍结论，同时简化了进化过程的某些方面[66]。进一步的普遍结论是在一个程式化的生物物理模型中追求的，探讨了在保守调控功能的同时CRE中转录因子结合位点的更替，重点关注选择强度和突变在进化时间上的适合度效应；重要的是，这项工作很早就强调了非特异性结合可能产生有害的调控串扰的重要性[67, 68]。当考虑整个CREs的演化时，另一个性质上新的可能调控机制是多个（可能重叠的）结合位点效应的总和，特别是在短串联重复序列的作用下[69]。

从普遍结果转向系统特定工作，使用从大规模诱变分析推断的改进的“柔性RNAP结合模型”研究了组成型细菌启动子的进化，并进行了计算模拟（图2d）[11]。源自该模型的GP图谱大幅增加了驱动显著表达的随机序列比例，并增加了与表达序列仅相差一个突变的非表达序列数量；这些序列预测得到了实验验证。重要的是，柔性模型预测从头组成型启动子进化的速率比以前的模型增加了几个数量级，这合理化了一些特定机制的存在，这些机制如果没有进化视角可能显得不重要。这些发现是理解不仅组成型，而且受调控的细菌启动子进化的垫脚石[28•, 71]。

虽然热力学模型已证明其对原核启动子的价值，但它们扩展到真核生物受到由增强子和染色质结构介导的复杂和长距离相互作用的限制。深度学习模型，如Enformer[24]和AlphaGenome[25]，在从DNA序列预测调控活性方面取得了令人印象深刻的进展，但它们是在现存基因组的固定分子环境中学习的。此外，预测长期进化需要全局GP图谱，涵盖远离野生型的序列空间，这需要互补的实验和理论方法。例如，从酵母调控序列的大规模并行分析推断出的统计模型[12]使得能够有趣地探讨定向选择和稳定选择如何作用于CREs[72]。对任何后续调控序列演化理论相关的关键问题得到了解决，包括：系统级约束、作为现实GP图谱结果的收益递减上位性、由于环境条件而具有高维度的调控表型，以及在长期进化时间尺度上鲁棒性和可进化性的重要性。这类方法开始为预测真核CREs的长期演化规划了一条路径。

在后生动物中，对发育增强子调控序列演化的模拟由来已久。理论工作表明，从真正随机序列中从头产生转录因子结合位点极其缓慢[56]，但为从可能包含所谓“前位点”的非随机序列中产生此类位点留下了可能性[73]。重叠转录因子结合位点[74]或多个（可能较弱的）位点簇的作用[75]也受到关注。一些研究试图整合已知的调控现象学和参与早期果蝇模式的CREs模型，以模拟调控序列演化[76]，包括关注适应时间尺度[77]。尽管有希望，但此类序列层面的工作仍有待与个体基因表达表型和模式如何影响生物体适合度的理论相整合[78]。

在实验前沿，可能与理论互动最强烈的方向，也许是使用真正随机的调控序列突变库。所谓“真正随机”，我们指的是不诱变野生型启动子或增强子，而是以无偏方式探索序列空间的构建体。标准的教科书观点认为，完全随机的序列通常是惰性的，没有下游基因表达，因为包含功能性序列的概率微乎其微。与这种预期相反，许多完全随机的启动子序列在细菌中驱动显著表达——大约10%或更多的随机生成序列，取决于序列长度和其他细节——远远超出了基于简单共有序列匹配的预期[11••, 70•, 79]。相关的有趣结果不仅限于原核生物。在酵母中，随机启动子文库已被提出作为一种反直觉但富有成效的GP图谱探索手段[80]，并且有强烈迹象表明这可以扩展到多细胞真核生物[81]，包括最近在果蝇中令人兴奋的结果[82]。使随机文库方法更具可信度的是它与理论的紧密联系[28•, 50, 83, 84]，因为它提供了序列空间上表型中性分布的实证估计，这是进化过程理论描述中明确出现的关键要素。

此处回顾的实证和建模结果表明，编码调控表型的信息以依赖于基因型-表型-适合度图谱属性的方式演化，这些属性可以被表征和量化。其中一些属性本身是遗传编码的，这提出了不仅调控序列，而且调控编码本身可能进化的可能性。这与数十年关于遗传密码的工作并行，表明尽管现存蛋白质编码序列共享一个（几乎）通用的密码，但密码本身的架构可能在生命最后一个共同祖先阶段之前就已经演化，有利于共同提供突变鲁棒性和可进化性的编码策略[85, 86]。

热点排行