BacPhase:基于长插入片段末端测序的bin标记构建与基因组单倍型定相新技术及其在多倍体作物中的应用

《aBIOTECH》:BacPhase: Long-insert paired-end sequencing for bin marker construction and genome phasing

【字体: 时间:2026年01月27日 来源:aBIOTECH 5.1

编辑推荐:

  本研究针对多倍体植物基因组单倍型定相(phasing)困难的问题,开发了名为BacPhase的创新序列分析方法。该方法通过优化限制性内切酶选择(如BstBI)并结合PacBio HiFi长读长测序,在无需挑选单克隆的条件下高效构建高密度bin标记。在四倍体马铃薯品种C88中成功生成39,484个高质量bin标记,将59.58%的scaffolds锚定到染色体,显著提升了复杂基因组的组装质量。该技术为马铃薯、甘蔗等多倍体作物的性状定位和基因组选择育种提供了有力工具。

  
在马铃薯育种领域,科学家们长期面临一个棘手的难题:栽培马铃薯是典型的同源四倍体(autotetraploid)作物,其基因组中四条同源染色体(homologous chromosomes)序列相似度极高,导致传统测序技术难以准确区分不同单倍型(haplotype)的变异位点。这种"分不清谁是谁"的困境,严重制约了重要性状相关基因的精确定位和分子育种效率。更令人头疼的是,马铃薯基因组中重复序列占比高达62%,这些重复区域如同迷宫般错综复杂,使得基因组组装变得异常困难。
面对这一挑战,传统方法如基于细菌人工染色体(bacterial artificial chromosome, BAC)的物理图谱构建需要繁琐的文库构建和单克隆筛选,而Hi-C技术则可能因染色质空间相互作用的模糊信号导致定相错误。正是在这样的背景下,中国农业科学院蔬菜花卉研究所的研究团队在《aBIOTECH》期刊上发表了一项突破性研究,开发了名为BacPhase的创新技术,为多倍体作物基因组分析带来了新的解决方案。
研究团队采用的关键技术方法包括:通过电子酶切分析筛选最优限制性内切酶(重点评估14种酶);建立免单克隆挑选的BAC末端文库构建流程;利用PacBio HiFi平台进行高精度长读长测序;开发专门的生物信息学流程进行序列分析和bin标记鉴定。所有实验材料均采用四倍体马铃薯品种合作88号(Cooperation-88, C88)。
2.1. 跨物种限制性内切酶切割一致性验证
研究人员通过电子酶切分析发现,BstBI和ClaI在多种多倍体作物(马铃薯、甘薯、小麦等)基因组中均能产生分布均匀的切割片段,平均片段长度集中在3-5 kb的理想范围内。特别是在马铃薯C88品种中,BstBI表现出最优的切割效率,识别位点数量(168,248个)显著高于ClaI(138,535个),位点间距更短(平均4,591 bp),分布均匀性更好。
2.2. BacPhase文库构建与分析流程优化
研究团队建立了标准化的实验流程:提取马铃薯C88基因组DNA,经HindIII部分酶切后连接至pCC1 BAC载体,再用BstBI/ClaI双酶切,通过自连接和PCR扩增获得可用于PacBio HiFi测序的文库。测序读数根据酶切位点拆分成"末端配对"读数,映射至参考基因组进行分析。
2.3. 高密度限制酶切位点提升BacPhase效能
实际测序数据显示,BstBI酶切产生的可用读数比例(48.15%)几乎是ClaI(25.08%)的两倍。更重要的是,BstBI酶切产物中86.30%的读数仅含单一酶切位点,表明酶切反应更为完全,减少了非特异性切割带来的干扰。
2.4. 复杂基因组组装中的映射效果评估
序列映射结果显示,BstBI和ClaI酶切产生的读数中,唯一映射和多映射读数的比例与马铃薯基因组的独特序列和重复序列组成特征高度吻合。特别值得注意的是,未映射读数比例均低于15%,证明BAC末端测序能有效覆盖基因组的复杂区域。
2.5. BacPhase在基因分型中的应用价值
通过分析映射到相同单倍型的读数对,研究人员发现60-100 kb插入片段的比例在BstBI酶切产物中高达95.21%(唯一映射类别),这些片段可作为高质量的bin标记。与ClaI相比,BstBI产生的标记在基因组分布上更为均匀,密度更高。
2.6. 高密度bin标记物理图谱构建
最终,研究团队成功构建了包含17,692个BstBI标记和2,050个ClaI标记的高密度物理图谱,平均每81 kb就有一个标记。标记在12条染色体的不同单倍型上分布均匀,有效覆盖了基因组中二倍体区块(diplotigs)、三倍体区块(triplotigs)等复杂区域。
2.7. Scaffold染色体定位突破
利用BacPhase提供的单倍型特异性连接信息,研究成功将815个未定位的scaffolds锚定到相应染色体上,占C88基因组总scaffolds数量(1,368个)的59.58%。这一成果显著提升了基因组组装的质量和实用性。
该研究的讨论部分指出,BacPhase技术相比Nanopore超长读长测序具有显著优势:PacBio HiFi测序精度可达99.999%,远高于Nanopore的95.64-99.75%,在处理多倍体基因组的高度相似区域时更具准确性。虽然当前BAC末端读长在60-100 kb范围内,但若能进一步延长至300 kb以上,将能在读长和精度两方面均超越现有技术。
研究结论强调,BacPhase通过创新性地结合优化酶切策略和高精度长读长测序,实现了多倍体基因组bin标记的高效构建和精确单倍型定相。这项技术不仅为马铃薯基因组研究提供了强大工具,更为甘蔗、苜蓿等其他多倍体作物的基因组分析和育种应用开辟了新途径。随着技术的进一步优化(如简化文库构建流程、扩展酶切选择),BacPhase有望成为复杂基因组分析的标准方法之一,推动作物育种进入精准化、高效化的新阶段。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号