《Advanced Science》:Deciphering the Evolution Pattern of Structural Variations Overlapped With Repetitive Sequence During Cattle Evolution
编辑推荐:
本文通过整合83头全球分布牛的长读长测序数据,系统解析了重叠重复序列的结构变异(rep-SV)在牛基因组中的演化动态。研究发现rep-SV在X染色体与常染色体间分布不均,且其在印度瘤牛(indicine)亚种分化过程中出现特定扩张,其中Bov-A2介导的PDGFD基因变异可能与瘤牛驼峰性状相关,而卫星序列介导的ROR2基因缺失变异则通过影响RUNX1结合调控牛体大小。这些发现不仅揭示了rep-SV在牛进化中的关键作用,也为分子育种和进化遗传学研究提供了候选标记。
引言:重复序列与结构变异在基因组进化中的核心地位
重复序列(Repetitive sequences, REPs)占真核生物基因组很大比例,是基因组进化的关键驱动力。同源REPs通过聚合酶滑移、非等位基因同源重组等机制形成结构变异(Structural variations, SVs),且SVs在重复区域的丰度远高于非重复区域。与单核苷酸多态性(SNPs)相比,SVs因改变更多碱基对而产生更大的生物学影响。REPs与三维基因组组织、染色质修饰、DNA甲基化及基因表达调控网络相关,但其在动物基因组中的全基因组演化动态——尤其是与SVs重叠的rep-SVs——尚未被充分探索。从进化视角看,多数rep-SVs可能因假基因化或基因丢失而“无效”,但部分转座子在灵长类或人类群体中仍保持多态性,且驯化相关的选择松弛、阳性选择加强和群体瓶颈等过程也会影响新出现rep-SVs的固定。家养牛(包括无驼峰的普通牛Bos taurus taurus和有驼峰的瘤牛Bos taurus indicus)因其两个亚种的独立驯化历史,成为研究不同进化时间尺度上rep-SV动态的理想模型。
结果1:基于长读长测序数据构建全面的牛SV图谱
研究采用牛津纳米孔长读长测序技术对8个全球分布品种进行测序,并整合NCBI序列读档中75个个体的长读长数据,共获得83个个体、总计6.50 Tb的长读长数据,平均读长N50为19,958 bp。通过将所有个体的长读长序列比对到牛参考基因组(ARS-UCD1.2),检测、过滤并合并SV,最终得到209,032个非冗余SVs(长度>50 bp),构建了迄今为止最全面的序列解析牛泛SV基因组。与此前基于短读长测序的SV目录相比,本研究发现了69,295个新型SVs(占总数的33.15%),显著丰富了牛泛基因组的多样性,凸显了长读长测序在捕获未知SVs方面的独特优势。所有SVs中,51.25%为小型(50–200 bp),18.70%为中型(200–500 bp),30.05%为大型(>500 bp)。大多数SVs为插入(INSs)和缺失(DELs),每个个体也存在数十到数百个倒位(INVs)和重复(DUPs)。约67.58%的SVs位于基因间区,28.44%位于内含子,0.85%位于外显子,该分布与先前牛研究一致。基于SVs或SNPs的系统发育分析均清晰解析出两个独立聚类:有驼峰的瘤牛和无驼峰的普通牛,非洲牛KUR与瘤牛个体聚在一起,可能反映了瘤牛基因向非洲长角普通牛的渗入。
结果2:rep-SVs的整体特征谱
若SV与至少一个注释的重复元件重叠≥1 bp且最大尺寸<100 kbp,则被归类为由重复序列介导的rep-SV。由于重复片段占牛基因组近一半,且重复诱导的突变常导致SV,因此近四分之三的DELs/INSs(约152k)为rep-SVs。值得注意的是,rep-SV在DUPs/INVs中的比例更高。Bov-tA更频繁出现在DUPs/INVs中,而LINE/L1更可能出现在DELs/INSs中。对年轻SVs(即个体特异的单体SVs)的检查显示,年轻INSs/DELs中rep-SV比例显著高于总INSs/DELs,而年轻DUPs/INVs与总DUPs/INVs中rep-SV与非rep-SV的比例相同。关于REP类型关联,LINE/L1更频繁出现在年轻INSs/DELs中,而LINE/BovB主导其他(非年轻)INSs/DELs。相反,没有REP类型优先出现在年轻DUPs/INVs中,而LTR/ERVK倾向于介导非年轻rep-SVs中的DUPs/INVs。INSs/DELs的频率随长度增加而急剧下降,而DUPs/INVs对长度变化较不敏感。与不含REP的INSs/DELs相比,含REP的INSs/DELs表现出不同的尺寸峰值(约140 bp、280 bp、1150 bp和8400 bp),这些峰值被特定REP类型高度富集。具体而言,前两个尺寸峰值(对应长度范围125–158 bp和252–316 bp)以Bov-A2为主,约1150 bp峰值(1018–1263 bp)富集LTR/ERVK,约8400 bp峰值(7686–9689 bp)也以LTR/ERVK为主。
结果3:rep-SV在X染色体与常染色体间的不均匀分布
性染色体在精子发生期间表现异周性(以凝聚周期改变为特征),这可能影响性染色体与常染色体间的转座成功率。此外,性染色体与常染色体间重组率的差异可能进一步影响新出现SVs的保留,特别是较大SVs。研究发现,总体上每条染色体的rep-SV和非rep-SV数量呈线性相关。随着SV尺寸增大,X染色体上每条染色体的rep-SV与非rep-SV数量比与常染色体的偏差越来越大。这种偏差源于X染色体上大型rep-SVs的相对密度(density-X/density-A)远高于常染色体,其中超过8000 bp的rep-SVs急剧增加。这种大型rep-SVs的X染色体偏向分布在个体间一致,尽管在9个样本中不显著——其中7个来自中国海南岛。值得注意的是,年轻的大型rep-SVs(>8000 bp)未表现出这种X染色体偏向,表明X染色体在长进化时间尺度上优先保留大型rep-SVs。进一步分析X染色体上大于8000 bp与小于8000 bp的rep-SVs比例,通过主成分分析(PCA)观察到无驼峰普通牛和有驼峰瘤牛之间的清晰分离。由于大型rep-SVs表现出不均匀的染色体分布,研究进一步探讨了具有特定SV尺寸的特定REP类型是否显示偏向的染色体分布。值得注意的是,约140 bp尺寸的Bov-A2介导rep-SV在X染色体上显著少于其他尺寸的Bov-A2介导rep-SVs。这种X染色体缺失也在约1150 bp尺寸的LTR/ERVK介导rep-SV中观察到。相反,约280 bp尺寸的Bov-A2介导rep-SV和约8400 bp尺寸的LTR/ERVK介导rep-SV未显示染色体分布偏向。这种X染色体缺失可能与进化历史有关。对于两个具有X偏向的尺寸峰值,Bov-A2介导的约140 bp rep-SV峰值与其他尺寸的个体比例的第一主成分(PC1)清晰区分普通牛与瘤牛,这在约1150 bp LTR/ERVK峰值中也一致观察到。相反,两个无偏向峰值(约280 bp Bov-A2和约8400 bp LTR/ERVK)的PC1未能区分普通牛与瘤牛。
结果4:牛进化史上rep-SV的独特群落生态学
从群落生态学角度衡量rep-SV动态正成为日益有用的探究途径。基于此,研究使用两种指数评估个体间rep-SV多样性:α多样性(包括香农多样性指数和皮洛均匀度)和β多样性。为精炼分析,将rep-SVs分为三种进化状态:亚种共享rep-SVs(至少被一个普通牛和一个瘤牛个体共享)、亚种私有rep-SVs(至少被一个亚种内两个个体共享但在另一亚种中缺失)和特异rep-SVs(仅出现在单个个体中)。香农多样性(量化每个组装的整体REP类型多样性)从古老(亚种共享)到近期(特异)rep-SVs逐步增加,皮洛均匀度(衡量均匀度,考虑REP类型相对丰度)也一致观察到该模式。值得注意的是,在瘤牛中,亚种私有rep-SVs的香农多样性明显低于亚种共享和特异rep-SVs,该模式在普通牛中未见。这种减少与瘤牛中亚种私有rep-SVs均匀度的急剧下降同时发生,而普通牛中均匀度保持稳定。这些结果表明,在亚种分化期间,瘤牛积累了一个狭窄范围的独特REP类型,不同于普通牛中更广泛的积累。接下来通过基于布雷-柯蒂斯距离的PCA评估β多样性,该指标权衡最丰富的REP类型并量化组装间多样性。仅基于亚种私有