泛基因组学术语的规范使用与误用辨析:现状、挑战与展望

《Nature Communications》:On the use and misuse of pangenome and related terms

【字体: 时间:2026年01月21日 来源:Nature Communications 15.7

编辑推荐:

  本文针对当前泛基因组(pangenome)及相关术语(如pantranscriptome、panepigenome)的滥用现象,系统梳理了其正确定义、研究方法(如图泛基因组graph pangenome、迭代组装iterative assembly、基因聚类Roary/CD-HIT)与应用场景,强调术语精确性对比较基因组学、表型关联分析的重要性,为领域规范化提供权威指导。

  
随着高通量测序技术的迅猛发展,泛基因组学(pangenome)研究近年来呈现爆炸式增长。然而,这一新兴领域在快速普及的同时,也出现了术语滥用和概念混淆的现象。许多研究将传统的比较基因组学(comparative genomics)或简单多个体测序数据冠以“泛基因组”之名,却未真正涉及核心基因组(core genome)与可变基因组(dispensable genome)的系统界定。更令人担忧的是,“泛转录组”(pantranscriptome)、“泛表观基因组”(panepigenome)等衍生术语开始渗入学术文献,但其定义模糊,未能体现“泛”(pan-)前缀所应包含的“全部”内涵。这种术语的通货膨胀不仅误导研究方向,更阻碍了学科的健康交流与发展。
针对这一问题,西澳大学的大卫·爱德华兹(David Edwards)在《自然·通讯》(Nature Communications)发表评论文章,系统剖析了泛基因组术语的规范边界与方法学演进。文章指出,真正的泛基因组应包含存在于所有个体中的核心基因组,以及在一个或多个个体中缺失的可变基因组。早期植物泛基因组研究如Li等2对7个大豆个体的分析,虽揭示了基因组组成差异,但未全面描绘物种的基因变异图谱。而基于1483个水稻品种低覆盖度测序构建的泛基因组3,则通过组装非参考序列比对读段(reads),发现了籼稻和粳稻中分别存在1913和1120个新基因,但低覆盖度数据限制了基因的个体归属判定。
在技术方法层面,迭代组装(iterative assembly)曾是早期泛基因组构建的重要方法。其通过将多个个体的测序读段比对至参考基因组,再组装未比对的读段以识别参考基因组中缺失的区域。Golicz等4应用该方法宣称几乎组装了甘蓝(Brassica oleracea)的全部基因,但该方法难以区分序列高度相似的基因(如串联重复基因),且依赖读段比对的特性也限制了其分辨率。近年来,长读长测序技术的进步催生了图泛基因组(graph pangenome)构建方法6。该方法利用高质量基因组组装结果,构建能容纳序列变异的图结构,可精准区分高度相似基因甚至串联重复,显著提升了变异基因的检测灵敏度。然而图泛基因组方法仍处于发展初期,对群体内结构变异的捕获尚不完善,需谨慎优化参数。
基因聚类法是另一类泛基因组构建策略,常用工具包括CD-HIT、orthoMCL和OrthoFinder7-9。但这类工具最初设计目的为跨物种基因家族比较,直接用于泛基因组构建时,其聚类结果受参数设置和计算资源影响显著。Roary10等工具虽整合系统发育与共线性信息以提升聚类合理性,但在细菌等小型基因组中仍存在结果不一致性问题11,12。尽管如此,对于共线性低、结构变异大的复杂基因组,基于聚类的方法在直系同源基因(orthologue) Presence/Absence变异检测方面仍具价值。
关键研究方法概述:本研究系统回顾了泛基因组构建的三类主流技术。迭代映射法通过多个体读段与参考基因组的比对及未比对读段的重新组装,识别非参考序列区域。图泛基因组法则利用长读长测序数据构建基因组图结构,以容纳序列变异。基因聚类法则通过CD-HIT、OrthoFinder等工具对预测编码序列进行聚类分析。研究还对比了这些方法在植物、微生物等不同物种中的适用性。
泛基因组术语的演变与误用
作者首先追溯了“泛基因组”的词源学基础,指出“泛”(pan-)源自希腊语“全部”之义,其合理适用范围应是以物种或群体为单位、旨在全面刻画基因存在/缺失变异的研究。当前术语滥用现象主要体现在将普通多个体基因组比较或测序项目冠以“泛基因组”之名,弱化了其核心学术内涵。
转录组与表观基因组领域的术语扩展问题
文章指出,“泛转录组”和“泛表观基因组”等术语面临更严峻的定义挑战。由于基因表达具有时空特异性与低丰度特性,全面捕获所有转录本实际不可行。类似地,表观标记的细胞与环境特异性也使“泛”表观基因组的概念缺乏实践基础。作者建议采用“转录组图谱(transcriptome atlas)”“比较表观基因组学(comparative epigenomics)”等更精准的替代术语。
植物泛基因组研究的代表性案例
通过分析大豆2、水稻3和甘蓝4的早期泛基因组研究,文章揭示了不同技术路线在基因变异检测能力上的差异。低覆盖度测序可发现新基因但无法定位个体归属;迭代组装法实用但分辨率有限;而保守的基因代表序列选择策略则会低估基因家族多样性。
图泛基因组技术的优势与现存局限
基于长读长测序的图泛基因组技术能有效区分高相似度基因,显著提升可变基因检测数量。然而该方法对群体结构变异的捕获仍不完整,且计算参数设置对结果影响较大,需针对基因组特性进行优化。
基因聚类法在泛基因组构建中的适用性边界
尽管基因聚类工具(如CD-HIT、Roary)并非为泛基因组研究设计,但在共线性低的复杂基因组中,其直系同源基因聚类结果可能优于图泛基因组。但聚类质量高度依赖算法参数,且代表序列选择引入偏差,需根据研究目标谨慎选用。
综上所述,泛基因组研究的方法选择应基于实际需求:若关注直系同源基因存在/缺失变异,基因聚类法更具优势;若需进行性状关联分析,图泛基因组则能捕获更多遗传力。术语使用应遵循“精准优于流行”的原则,避免过度扩展“泛”前缀的适用范围。随着技术不断发展,泛基因组研究应在方法稳健性、结果可重现性与术语规范性之间取得平衡,才能真正推动比较基因组学与精准育种领域的进步。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号