编辑推荐:
本综述首次将组合数学中的齐明字概念引入基因组学,创新性地定义了“齐明避免子”并系统探究了其在九种模式生物基因组中的分布与特征。研究发现,齐明避免子在人类基因组中富集于编码区与经典卫星区域,与序列多样性和高复杂性区域相关,并在原核生物中密度最高。文章为理解基因组结构、重复序列的避免以及合成生物学设计提供了全新的理论视角和研究工具。
引言
探究生物体基因组空间中缺失的模式,能够揭示有关序列组成、演化、基因组限制、致病性以及潜在生物学机制的重要知识。先前的研究已经展示了基因组中缺失的最短k-mer序列,即nullomers,以及与之相关的minimal absent words概念。这些概念已在癌症检测、病原体监测、系统发育树构建、药物开发和法医学等众多领域得到应用。将理论数学概念(如黄金比例、分形和斐波那契数列等)成功应用于基因组学的研究亦有不少。其中,组合数学领域因其理论和概念可应用于基于k-mer的研究而备受关注。齐明字是一种前缀和后缀相同的字母序列,由A. I. Zimin于四十多年前提出。齐明字是不可避模式,所有足够长的字符串都必须包含齐明字。尽管其在组合数学领域有着丰富的理论基础,但齐明模式尚未在生物序列中被研究。我们假设,齐明模式在基因组序列中的分布和避免反映了基因组结构、功能和演化的基本约束。具体而言,我们提出,避免齐明模式的区域(称为齐明避免子)可能作为序列复杂性的指标。通过系统地表征人类基因组和模式生物中的齐明字和避免子,我们旨在揭示基因组组织和重复避免极限的新原理。
定义
一个字母表L是符号的集合。在基因组学中,核苷酸字母表自然定义为所有四种核苷酸的集合,即 {a, g, c, t}。从核苷酸字母表中提取的长度为k的短有限字通常被称为k-mer。同态是非空集合之间的函数。模式是变量的有限字。如果存在w的子序列z和一个非消去同态φ,使得z = φ(P),则称一个字w遇到模式P。一个模式P是q-不可避的,如果除有限多个之外,所有在大小为q的字母表上的有限字都会遇到P。一个模式P是不可避的,如果它对所有q都是q-不可避的。
DNA中齐明字的定义
由于DNA中有四个核苷酸,我们自然地将注意力主要转移到具有四个字母的字母表,特别是核苷酸字母表。此外,我们将注意力限制在完全是4-不可避的模式上。对于所有n ≥ 1,第n个齐明模式递归定义如下:Z1= a1,且Zn= Zn-1anZn-1,其中an表示不同的模式变量。Zimin的开创性定理有一个推论,即在核苷酸字母表上,任何长度为n的模式是不可避的,当且仅当该模式遇到Zn。从结构上讲,这意味着这些模式必然会在足够长的序列中(重新)出现。这引发了一个全新的研究领域,以渐进地估计此类序列长度的上限和下限。
避免子的定义
一个k-mer w被称为Zn-避免子或n-避免子,如果它避免齐明Zn模式。特别地,我们将一个k-mer称为齐明避免子,或简称为避免子,意指Z3避免。一个自然要研究的问题是,给定一个大小为q的字母表L,最小的自然数f(q, n)是多少,使得所有长度为f(q, n)的字都会遇到齐明字Zn。对于核苷酸字母表,我们有f(4, 3)的理论渐进上界约为3,174 bp。我们定义Lobs(H. sapiens)为观察到的最小的自然数,使得在人类基因组中出现的长于等于Lobs的所有k-mer都会遇到齐明字Z3。实际上,在人类基因组中,Lobs远低于这个上界,不可避免性在105 bp时即可达到。
人类基因组中齐明避免子的鉴定
从理论上讲,任何足够长的字都必然包含Z3模式。因此,我们检查了齐明避免子在人类参考基因组中的位置偏好。我们使用端粒到端粒完整人类基因组,在所有染色体上研究了k-mer长度大于50 bp的Z3避免子的分布。我们发现,Z3避免子的数量随着k-mer长度的增加而急剧下降。例如,我们报告了4,651,253个长度至少为50 bp的Z3避免子,而在60 bp和70 bp时,我们分别报告了675,325和70,546个Z3避免子。我们有兴趣研究Z2和Z3避免子在人类基因组中的分布与预期分布的比较。对于给定的k-mer长度,总共有4k个可能的k-mer。对于前14 bp的k-mer长度,我们详尽生成了避免子子集,并计算了此类k-mer出现的理论预期概率。由于人类基因组的重复性,相应的避免子在人类T2T基因组中出现的实际概率低于理论概率,并且这种预期与观察之间的差异随着k-mer长度的增加以及从Z2到Z3而放大。我们得出结论,人类基因组中的Z2和Z3避免子数量少于理论分布预期,并且其数量随着k-mer长度的增加而急剧下降。
在参考人类基因组中,所有超过104个碱基对的k-mer都包含齐明字
我们下一步希望确定所有k-mer无法避免Z3基序的最小长度。具体来说,我们计算了人类T2T基因组中的最小长度,在此之后所有k-mer都不再避免Z3,即Lobs,计算结果为105 bp,在7号染色体上出现的最大齐明避免子长度为104 bp。理论上,对于大小为k的字母表,数量f(k, 3)的上界为2k。因此,Lobs最多为3,174 bp长,这显著高于实际的Lobs值105 bp。这种差异可归因于人类基因组是一个高度重复且具有组成偏好(AT含量高于GC含量)的有限序列。我们发现,齐明避免子的GC含量显著高于人类基因组平均水平。此外,当比较含有齐明避免子的区域与不含任何齐明避免子的区域时,含有齐明避免子的区域GC含量显著更高。我们还进行了基因组模拟,控制从一到九个碱基对的k-mer组成。我们观察到,对基因组进行置换会导致所有检查的k-mer长度上齐明避免子密度的富集,与参考基因组相比。特别地,我们发现齐明避免子偏好平衡的GC含量,既不偏向高也不偏向低含量。总齐明避免子密度随着模拟k-mer长度的增加而急剧下降。此外,在所有置换基因组中,观察到的齐明避免子最大长度更高,其中固定单核苷酸组成的基因组显示出119 bp的最大齐明避免子长度,比人类参考基因组增加了约14%。因此,我们得出结论,我们偏离参考基因组的程度越远(通过低阶置换实现),齐明避免子密度就越高,观察到的齐明避免子最大长度也越长。我们得出结论,人类基因组中至少105 bp的所有子序列都包含一个Z3齐明模式。
齐明避免子在特定基因组区室中的富集
接下来,我们检查了齐明避免子在人类基因组中是均匀分布还是在特定染色体和基因组亚区室中存在过量。我们首先调查了人类染色体之间避免子分布是否存在显著差异。我们发现,长度至少为60 bp的齐明避免子在Y染色体中具有最高的基因组密度,而较短和较长的齐明避免子在其余人类染色体之间分布更均匀。我们还调查了各种基因组亚区室(如基因区、外显子区和编码区,以及各种着丝粒周围和着丝粒卫星区)中避免子的密度,以确定齐明避免子的潜在热点。绝大多数长度大于或等于50 bp的齐明避免子位于编码序列区域。当增加碱基对阈值时,长度至少为70 bp的齐明避免子在经典人类卫星hsat1B中富集程度最高,覆盖了2.6%的卫星区域,平均密度为每Mb 18,247.77 bp。第二富集的基因组区域是外显子区域,平均密度为每Mb 3,848.10 bp。尽管卫星区室是避免子元件的主要来源,但外显子和CDS基因座分别是避免子群体中第三和第二富集的基因组亚区室。此外,在经典卫星hsat1B中,齐明避免子密度在73 bp处呈现急剧下降,而外显子和编码区的避免子分布则表现出更渐进的下降。Y染色体是hsat1B区域最丰富的染色体,我们发现一小部分齐明避免子起源于这些高度重复的区域。在hsat1B中检测到的大多数齐明避免子卫星序列是完全相同的73 bp长序列,出现了4,212次。有趣的是,hsat1B中第二常见的齐明避免子也是73 bp长,有277次出现,并且与最常见的序列仅相差一个bp的替换。这两个序列解释了我们之前观察到的经典卫星hsat1B中齐明避免子密度的急剧下降。我们得出结论,齐明避免子在人类基因组中分布不均匀,在CDS和hsat1B区域富集程度最高。
齐明避免子与增加的序列多样性相关
接下来,我们将基因组分成长度为50 kb的非重叠窗口,以检查k-mer多样性如何影响检测到的避免子数量。在每个区间中,我们统计了6到9 bp k-mer长度检测到的独特k-mer数量。然后,我们量化了避免子出现次数与每个区间中检测到的不同k-mer序列之间的相关性。我们观察到,出现次数最多的齐明避免子主要出现在k-mer多样性大的区间中。这些结果在CDS区室中也是一致的。然而,我们发现一小部分齐明避免子存在于k-mer多样性低的区间中,这些来源于卫星重复区域,如hsat1B。结果在不同的窗口大小测试中是一致的。接下来,为了检查齐明避免子中潜在的重复模式,我们研究了在齐明避免子中,是ABA序列精确实例的子序列的密度。我们观察到,齐明避免子中的ABA序列密度遵循正态分布;然而,存在一个长尾,代表一小部分具有高ABA序列密度的齐明避免子。有趣的是,平均ABA密度与每个齐明避免子中存在的不同k-mer数量呈反相关,这表明平均而言,没有ABA字的齐明避免子具有最高的k-mer多样性。实际上,平均而言,我们预计在任何k-mer中都会产生相同的效应。我们得出结论,齐明避免子与人类基因组中序列多样性增加的基因座相关。我们有兴趣确定一个均匀随机生成的k-mer平均需要多长时间才会遇到Z3的实例。我们模拟了一个简单的随机过程,该过程通过随机选择核苷酸来构建k-mer。这个随机过程一直持续到结果序列遇到Z3的实例为止。我们重复这个过程50,000次,并记录了每次随机实验的齐明避免子。我们估计随机生成的齐明避免子的最大长度平均值为26.6 bp。然而,相当多的异常值达到了更高的长度。最后,我们检查了结果序列长度与ABA密度的关系。后者表明与最大长度存在对数关系,这表明总长度的微小增加会导致是Z3实例的子序列呈指数增长。尽管这个随机过程依赖于不适用于常规基因组的基本假设,但它使我们能够量化纯粹依靠机会构建任意长齐明避免k-mer的固有能力。我们还假设,由于其固有的复杂性,齐明避免子序列在复杂性增加的基因组部分中很丰富。为了验证这一假设,我们使用了Pirogov等人的数据,其中人类基因组被划分为互斥的1 kb区间,每个区间分配了一个复杂性值。我们将长度至少为50 bp的齐明避免子序列映射到一个复杂性区间。我们报告,映射区域的复杂性分布高度向右偏移,这意味着齐明避免子倾向于出现在高复杂性区域。这些发现支持了我们的假设,并表明齐明避免子优先定位于基因组的结构或组成复杂区域。
人类基因组中齐明避免子的计算机模拟饱和和种系诱变
我们研究了成为齐明避免子的模式是否对引入单bp插入缺失和替换具有抗性,我们此后将这一特性称为不变性。我们模拟了每个齐明避免子所有可能的一bp插入缺失和替换。齐明避免子对缺失表现出更高的不变性率,其次是插入,最后是替换。平均而言,当通过随机插入一个来自核苷酸字母表的随机字母来增加序列长度时,齐明属性减小的概率增加,因为更长的序列成为齐明避免子的可能性更小。因此,与随机插入或替换相比,缺失更有可能保持最初的不变性。此外,由于根据定义,每个齐明避免子的每个子序列也必须是齐明避免子,因此k-mer序列末端的缺失必然保持齐明避免子属性。随后,我们使用基因组聚合数据库中的种系变异,并检查了齐明避免子相对于替换和插入缺失的定位。我们构建了一个以种系突变为中心的1 kb窗口,并计算了每个位置的齐明避免子出现次数。我们观察到,在插入和删除附近区域,齐明避免子严重缺失。有趣的是,我们没有发现替换的强烈富集或缺失模式。由于避免Z3模式的序列的复杂性,我们假设插入缺失的强烈缺失信号源于齐明避免子中缺少短串联重复序列,而短串联重复序列富含插入缺失并且在Z3避免子中缺失。我们检查了STR相对于齐明避免子序列的定位。我们比较了齐明避免区域和不存在齐明避免子的基因组区域中的STR。我们报告,STR在齐明避免区域中显著缺失。此外,我们发现,正如预期的那样,STR在齐明避免子序列附近缺失,特别是在CDS和基因区室中。这一结果与我们的直觉相符,表明由于CDS区室固有的复杂性,齐明避免子在这些区域中最富集,并且在重复的STR基因座中缺失,从而影响了它们的突变率。我们进行了一项分析,以研究人类基因组中的突变率与齐明避免子模式之间的关联。首先,我们使用了Roulette预测的高突变位点,并检查了这些位点是否倾向于与齐明避免子定义的基因组区域共定位。我们报告,在Roulette预测的2,020个高突变位点中,有6.25%位于齐明避免子基因座内,这构成了相对于全基因组背景率1.3倍的富集。我们检查了齐明避免子区域的突变率是否高于预期,我们构建了两组对照:随机打乱对照和GC匹配对照。我们调查了齐明避免子内以及上述每个对照组中由Roulette密度预测的突变率分布。我们报告,所有组都表现出双峰分布,齐明避免子组紧随其后,GC匹配对照组表现出略高的高突变率浓度。此外,我们调查了不同基因组亚区室之间的突变率是否不同。我们报告,虽然齐明避免子在基因、外显子和编码区域表现出显著高于两个对照组的突变率,但齐明避免子与两个构建的对照组之间的共同语言效应大小差异表明,观察到的差异可以忽略不计。
模式生物基因组中齐明字和齐明避免子的鉴定
接下来,我们检查了我们的发现如何转化为其他生物体基因组。我们选择了一组来自模式生物的参考基因组,涵盖所有三个生命领域,并估算了在此之后每个k-mer都包含齐明字的k-mer长度。我们观察到,最高的齐明避免子长度出现在酿酒酵母中,k-mer长度为115 bp,而最低的出现在金黄色葡萄球菌中,为86 bp。我们还发现,长度至少为50 bp的齐明避免子的Z3避免子密度在所研究的生物体之间差异很大,在大肠杆菌和斑马鱼中分别介于每Mb 180,905.07和58,493.34个Z3避免子之间。我们调查了每个模式生物中观察到齐明避免子的理论预期概率和观测概率。我们发现,预期概率和观测概率之间的最大差异出现在真核生物中,包括鸡、斑马鱼、黑腹果蝇、酿酒酵母和秀丽隐杆线虫,而最小的差异出现在原核生物中,即金黄色葡萄球菌、肺炎克雷伯菌和大肠杆菌。我们打乱了每个基因组,同时控制从一到七个核苷酸的k-mer长度的核苷酸组成。我们观察到,限制较少的基因组,即控制较短k-mer长度的基因组,更接近齐明避免子的理论预期概率。这可能是由于真核生物基因组比原核生物基因组更具重复性和核苷酸不平衡性。
齐明避免子在模式生物基因组中分布不均匀
对于每个被研究的生物体,我们将其基因组分为基因区和基因间区,并检查了每个区域中齐明避免子的百分比,并对区域长度进行了归一化。我们发现,在不同生物体中,齐明避免子在基因区中的出现次数多于基因间区,这一结果与我们对人类基因组的观察一致。当进一步将基因组区室分为基因区、外显子区和cds区时,我们发现齐明避免子密度在不同亚区室和物种之间都存在显著差异。此外,我们报告齐明避免子密度随着生物体的CDS与基因组比率的增加而增加。我们得出结论,在所研究的大多数生物体中,齐明避免子在基因区和CDS区最富集,特别是在真核来源的生物体中。
讨论
我们首次在九个生物体(包括人类基因组和多个模式生物的基因组)的基因组中表征了齐明字和齐明避免子。这是一个数学概念,之前有重要的理论研究,首次应用于基因组学环境。从结构上讲,避免齐明模式的基因组序列捕获了更高级别的语法复杂性,因为它们必须避免某些重复模式以保持其齐明可避免性。此外,在足够大的基因组序列上,不可避免性定理表明此类模式的出现是不可避免的。我们观察到,齐明避免子从生物体基因组中消失的k-mer长度低于理论上限的预期。这可能是由生物体基因组的重复性和核苷酸频率不均匀所驱动的。我们还观察到,齐明避免子在生物体基因组中分布不均匀。在人类基因组中,齐明避免子在人类卫星1B区室和编码序列中过度表达。齐明避免子序列,从结构上讲,不包含任何STR作为其真子序列。因此,这些人工核苷酸区域包含了更高级别的不规则性,这种不规则性被DNA的典型模式(如串联重复)打断。齐明避免子的总密度在原核基因组中比在真核基因组中更为明显,这可能与某些细菌门中微卫星序列的缺失有关。齐明序列及其对应物齐明避免子特别令人感兴趣,并且在生物信息学中具有潜在的实用性。它们固有的对称性和自相似性可能将它们与非经典DNA构象(也称为非B DNA基序)联系起来,因为这些模式同时表现出直接和镜像重复对称性。这就提出了一个问题,即k-mer中这些属性的存在或缺失是否在不同基因组中各种DNA二级结构的形成中起关键作用。我们认为,齐明字的表征提供了一个新的视角,通过这个视角,可以使用各种模式的同态嵌入来观察基因组。齐明避免子排除重复模式的能力为合成生物学和基因组工程提供了有趣的机会。合成DNA构建体通常需要设计具有高序列复杂性、低重复含量和抗突变性的序列,以确保稳定性并最大限度地减少脱靶效应。鉴于齐明避免子是复杂序列,并且缺乏重复和插入缺失突变,齐明避免子可用于设计抗突变、低重复含量的合成序列,为生物技术、合成生物学和基因工程中的应用提供潜在优势。此外,它们固有的抗插入和缺失能力使其成为分子条形码、合成启动子或基因组编辑平台中中性支架的有吸引力的候选者。在基因组研究中,齐明字可以作为一种理论工具来探索基因组复杂性和重复结构,并提供对基因组结构和演化原理的见解。未来的研究可以在基因组学中实施来自代数组合数学的额外概念,以获得对基因组语法规则的更深入理解。最后,未来的工作需要进一步检查生物体基因组中的齐明字及其通过群体变异的出现或丧失,以及基于它们的潜在应用和工具开发。