一种基于基因组学与新一代测序数据准确鉴定近缘物种的方法

《Scientific Reports》:A genomic approach for accurate identification of closely related species with next-generation sequencing samples

【字体: 时间:2026年03月01日 来源:Scientific Reports 3.9

编辑推荐:

  在物种鉴定中,全基因组测序(WGS)数据难以准确区分羊(Ovis aries)与山羊(Capra hircus)等近缘物种。研究者开发了一种基于物种特异性基因组区域的比较基因组学方法,成功鉴定出高置信度的特异性区域,实现了100%的验证准确率。该框架为WGS数据提供了可靠的物种验证,并可推广至其他近缘物种,相关脚本与区域已开源。

  
在生命科学和生物技术领域,准确识别一个生物样本到底属于哪个物种,是许多研究的基石。从食品安全追溯、物种保护到法医学鉴定,都离不开精准的物种鉴别。随着下一代测序(NGS, Next-Generation Sequencing)技术的普及,全基因组测序(WGS, Whole Genome Sequencing)为物种鉴定提供了前所未有的数据深度。然而,当面对那些在进化树上“亲如兄弟”的近缘物种时,这项任务就变得异常棘手。想象一下,你能轻易分辨出狮子和老虎,但如果面对的是基因序列高度相似的两个物种,比如家养绵羊(Ovis aries)和山羊(Capra hircus),传统的鉴定方法可能就会“犯迷糊”,给出模棱两可甚至错误的结果。这正是当前物种鉴定领域面临的一个核心挑战:如何利用海量的WGS数据,清晰无误地区分基因层面高度相似的近缘物种?常规的比对方法和分类工具,在应对这类“双胞胎”物种时,其表现往往不尽如人意。
为了破解这一难题,一项发表在《Scientific Reports》上的研究开展了一项深入探索。研究者们聚焦于绵羊和山羊这一对经典的近缘物种对,旨在开发一种更为鲁棒和精确的鉴定方法。他们意识到,仅仅依赖常规的序列比对质量和通用分类工具(如Kraken2)的输出,无法可靠地区分两者,因为这些指标在两类样本中常常出现重叠,导致结论不明确。那么,是否存在一种更本质的基因组特征,能够像“指纹”一样独一无二地标识一个物种呢?研究团队将目光投向了物种特异性基因组区域。他们的核心思路是:对于一个特定物种(如山羊),应该存在一些基因组区域,当该物种的样本数据比对到自身(山羊)的参考基因组时,这些区域能够被很好地覆盖(有读数映射);然而,当同样的样本数据比对到其近缘物种(如绵羊)的参考基因组时,这些对应区域则几乎没有或只有极低的覆盖率。这种独特的覆盖模式,理论上可以成为区分物种的金标准。
为了验证这一想法并构建实用的鉴定工具,研究人员系统性地分析了40个绵羊和山羊的WGS样本。他们设计了一个巧妙的比较基因组学分析流程,将每个物种的样本数据分别比对到绵羊和山羊两个参考基因组上。通过比较同一套数据在不同参考基因组上的覆盖深度模式,他们能够系统地扫描整个基因组,寻找那些符合“物种特异性”覆盖模式的区域。经过大规模计算分析,他们成功鉴定出了大量候选区域:共计155,800个山羊特异性区域和惊人的1,714,126个绵羊特异性区域。当然,数量如此庞大的区域并不都适合作为稳定的鉴定标记。研究团队随后进行了严格的生物信息学过滤和人工筛选,最终从每个物种中精挑细选出10个高置信度、高特异性的基因组区域。这20个“精华”区域构成了一个简洁而强大的鉴定面板。在包含14个独立样本的验证数据集中,使用这组高置信度区域进行物种鉴定,达到了100%的准确率,完美地区分了所有的绵羊和山羊样本。
这项研究的意义不仅在于解决了绵羊和山羊的鉴定难题,更在于它建立了一个可推广的方法学框架。研究者将分析脚本和筛选出的特异性基因组区域在GitHub仓库中公开共享,极大地促进了该方法的可及性和可重复性。这个框架原则上可以应用于任何一对或一组难以区分的近缘物种,例如不同品种的农作物、亲缘关系很近的病原微生物或者保护生物学中难以辨别的濒危物种。它为利用日益增长的WGS数据资源进行精准物种鉴定,提供了一条清晰、可靠的新路径。
为开展此项研究,作者主要运用了以下几个关键技术方法:首先,利用下一代测序技术获取了40个绵羊和山羊样本的全基因组测序(WGS)数据。其次,将测序数据分别比对(BWA-MEM)到绵羊和山羊的参考基因组上,通过分析比对质量分布和覆盖度来评估常规方法的局限性。接着,采用Kraken2工具对样本进行常规的物种分类学分配,以展示其结果的模糊性。核心方法是设计并实施了一个基于覆盖度比较的分析流程,通过计算样本在自身与非自身参考基因组上每个区域的覆盖深度,识别出具有物种特异性覆盖模式的基因组区域。最后,对鉴定出的大量候选区域进行了生物信息学筛选和人工校验,以确定用于最终验证的高置信度标记区域。
研究结果
常规方法在区分绵羊和山羊WGS数据时存在模糊性
通过分析40个WGS样本(绵羊和山羊)比对到两者参考基因组的比对质量指标,以及使用Kraken2进行的分类学分配,本研究发现常规方法产生的结果是模糊的。绵羊和山羊样本的序列比对率存在重叠,并且Kraken2的分类学分配结论不明确,无法可靠地区分这两个物种。
通过比较基因组学分析鉴定出物种特异性基因组区域
研究人员开发了一种基于比较基因组学的方法来定义物种特异性区域。他们将山羊和绵羊的WGS数据分别比对到山羊和绵羊的参考基因组上,然后通过识别那些在“匹配”的参考基因组上表现出平均覆盖度、但在“不匹配”的参考基因组上表现出缺失或低覆盖度的基因组区域,来定义物种特异性。通过此流程,共鉴定出155,800个山羊特异性区域和1,714,126个绵羊特异性区域。
筛选得到高置信度物种特异性区域并实现完美验证
对初步鉴定出的大量特异性区域进行筛选和人工校验后,研究人员从每个物种中选取了10个高置信度的区域。使用这组精选的区域,在一个包含14个独立样本的验证数据集上进行测试,实现了100%的物种鉴定准确率,成功区分了所有绵羊和山羊样本。
研究结论与意义
本研究得出结论,针对从全基因组测序数据中准确鉴定近缘物种这一挑战,常规的序列比对和分类学工具(如Kraken2)可能给出模糊或不可靠的结果。本研究提出并验证了一种鲁棒的解决方案,即利用基于覆盖度比较分析鉴定出的物种特异性基因组区域。通过系统分析绵羊和山羊的WGS数据,研究成功鉴定出大量候选特异性区域,并从中筛选出少量高置信度区域,在独立验证中达到了完美的鉴定准确率。该方法的核心优势在于其概念的清晰性和结果的确定性。更重要的是,本研究建立了一个通用的分析框架。该框架不依赖于复杂的统计学模型或主观阈值,而是基于“物种特异性区域”这一直接的基因组特征,因此具有很好的可解释性和可移植性。研究者已公开共享所有分析脚本和筛选出的基因组区域,这将极大地方便其他研究人员将该方法应用于其他近缘物种对的鉴定难题中,例如在微生物学、植物学、法医学和食品真实性检测等领域。因此,这项工作不仅为解决绵羊和山羊的物种鉴定提供了直接工具,也为更广泛的近缘物种鉴别研究提供了可扩展的方法学蓝图和资源,对推动基于WGS数据的精准物种鉴定具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号