基于短读长(short-read)测序平台的宏基因组大样本比较分析表明分类学谱具有高度一致性而功能分析存在挑战

《mSystems》：A large-scale comparative metagenomic analysis of short-read sequencing platforms indicates high taxonomic concordance and functional analysis challenge

【字体：大中小】 时间：2026年05月30日 来源：mSystems 4.6

编辑推荐：

　　摘要：受微生物组研究规模扩大及大型人群队列持续扩增的驱动，测序数据量快速增长，确保不同测序平台所产生数据的可比性已成为揭示微生物组与人类健康间稳健关联的关键问题。本研究对1,351例配对的人肠道微生物组样本分别使用MGISEQ-2000（MGI）与NovaSe

摘要：受微生物组研究规模扩大及大型人群队列持续扩增的驱动，测序数据量快速增长，确保不同测序平台所产生数据的可比性已成为揭示微生物组与人类健康间稳健关联的关键问题。本研究对1,351例配对的人肠道微生物组样本分别使用MGISEQ-2000（MGI）与NovaSeq 6000（Illumina NovaSeq）平台进行测序，对其分类学谱(taxonomic profiles)和功能谱(functional profiles)进行了全面比较。分类学谱在平台内及平台间均显示高度一致性：MGI–MGI配对样本间平均共享96.44%?±?5.96%的物种，MGI与NovaSeq配对样本间平均共享92.07%?±?5.20%的物种。平台特异性物种比例较低，MGI–MGI比较中为3.42%，MGI–NovaSeq比较中为5.89%。Shannon多样性(Shannon diversity)在平台内及平台间比较中均无显著差异。然而，功能谱在平台间存在明显差异，研究人员认为该差异归因于建库前(pre-sequencing)实验流程的差异。

论文解读：MGI与Illumina NovaSeq平台在人肠道宏基因组测序中的分类学与功能谱比较研究

该研究发表于《mSystems》。随着下一代测序(next-generation sequencing, NGS)技术在微生物组学中的广泛应用，Illumina（基于sequencing by synthesis及桥式扩增bridge amplification）与MGI/BGI（基于DNA纳米球DNB^TM与滚环扩增rolling-circle amplification, RCA）两大主流高通量测序平台并存。不同平台在扩增策略、芯片结构及生化原理上存在差异，可能引入系统性偏差(systematic variation)，影响跨研究数据的整合与比较。已有小规模研究提示两平台可互换，但缺乏大样本、严格匹配且同时控制上游变量的评估。为此，研究人员利用爱沙尼亚微生物组(Estonian microbiome, EstMB)队列中1,351例同一样本双平台测序数据，系统评估MGISEQ-2000与NovaSeq 6000在宏基因组分类学注释及功能注释上的平台内(intra-platform)与跨平台(inter-platform)一致性，以明确两平台用于群体水平宏基因组研究的可比性及局限。

主要技术方法：

研究人员使用爱沙尼亚生物样本库(EstBB)下属EstMB队列的人粪便样本（N=2,509，Illumina NovaSeq 6000测序；子集N=1,729加测MGISEQ-2000平台，其中53例重复MGI测序）。DNA提取采用QIAamp DNA Stool Mini Kit，NovaSeq使用NEBNext Ultra DNA Library Prep Kit建库，MGI使用MGIEasy FS DNA Library Prep Set建库；去除宿主序列后，将MGI读段(sub-sampling via seqtk)匹配至NovaSeq读段深度（最终高质量配对N=1,351，各约2千万条读段）。分类学注释采用Kraken2(v2.1.1)与Bracken(v2.8)，数据库为GTDB r214；α/β多样性分析用QIIME 2；功能注释随机选取700对样本用mi-faser预测酶(EC numbers)；k-mer分析用Jellyfish(v2.3.0)；差异富集用MaAsLin2；部分样本比对至代表性菌株参考基因组评估覆盖均一性(coverage uniformity)。统计学方法含Wilcoxon signed-rank test、Shapiro–Wilk正态性检验、Cohen's d效应量、PERMANOVA、Procrustes分析等。

研究结果

Study design and cohort overview（研究设计与队列概况）

研究人员从EstMB队列（NovaSeq 6000，~30.6±3.1 M paired reads/样本）与EstMB-deep子集（MGISEQ-2000，~108.7±42.1 M paired reads/样本，53例重复MGI测序）中筛选两平台均合格的1,351对样本。经读段抽平(rarefaction)匹配NovaSeq深度后开展下游分析，确认队列年龄性别分布均衡，为后续比较提供基础。

Technical reproducibility: intra-platform comparison of MGI replicates（技术重现性：MGI平台内重复比较）

对53例MGI双重复样本分析发现，两批次共检出1,083个种（380属），仅3.42%（37种）为平台内批次特异性，且多为低丰度、低流行度物种。种数差异均值0.85种（SD=2.88），Wilcoxon检验P=0.032但Cohen's d=0.29（小效应）；物种共享率均值96.44%?±?5.96%；共有种的流行度与相对丰度相关性R²≈0.999；Shannon多样性无显著差异（P>0.05）。表明MGI平台内技术重现性高，可视为跨平台比较基线。

Cross-platform reproducibility of taxonomic composition（分类学组成的跨平台重现性）

首先对53例三重复（MGI–MGI–NovaSeq）做UniFrac距离与Shannon熵分析，发现平台内(MGI vs MGI)与跨平台(MGI vs NovaSeq) UniFrac距离无统计显著差别（PERMANOVA P=1），但79%三联中MGI重复彼此更相似，MGI–NovaSeq平均距离约为MGI–MGI的2.5倍，说明平台内变异小于跨平台变异。原始读段质量均合格，GC含量MGI均值45.27%?±?1.82%、NovaSeq 45.60%?±?1.61%，Wilcoxon检验P极小但Cohen's d≈0.24（小效应），符合Illumina桥式扩增偏嗜高GC之已知特点；MGI序列重复(warn/fail)率15.9%高于NovaSeq 8.4%，非重叠提示平台特异性偏差。剔除不合格对后纳入1,351对。

在分类学层面，两平台共检出2,953种（808属），仅5.89%（174种）为平台特异性（MGI独88种，NovaSeq独86种），多为罕见低丰度种。种数差异均值-0.50（SD=4.13），Wilcoxon P=1.03×10^?7但Cohen's d=-0.12（极小效应）；配对样本物种共享率均值92.07%?±?5.20%；共有种流行度与相对丰度R²≈0.999；Shannon多样性无平台间差异（P>0.05）；Procrustes分析M²=0.02（P=0.0001）显示极好对应；Bray-Curtis与欧氏距离β多样性无显著平台效应（PERMANOVA P>0.05）；MaAsLin2差异丰度分析初筛3个种平台富集但未通过多重检验校正；疾病–菌群关联回归在两平台结果一致。综上，分类学谱跨平台高度可比。

Platform-specific functional differences reflect sequencing depth and complexity（平台特异性功能差异反映测序深度与序列复杂度）

随机选700对样本用mi-faser注释酶(EC)，共1,170个唯一EC号，2.65%（31个）为平台独有。功能相似度80%–97%，但功能β多样性跨平台存在显著差异（Euclidean与Bray-Curtis PERMANOVA均P<0.001）；241个酶在MaAsLin2中显著差异富集(FDR<0.05)，78%倾向在Illumina中相对丰度更高。MGI样本含5–10倍更多独特k-mer，功能注释读段数比NovaSeq多，但分类学分配读段数相近。功能重叠与分类学重叠无相关性（Spearman's ρ=0.005，P>0.05）。参考基因组覆盖显示两平台覆盖模式不均且不互补——同一区域常被一平台覆盖而另一平台缺失。模拟降采样(rarefaction)后MGI vs NovaSeq功能谱欧氏距离仍约为MGI技术重复的两倍，说明单纯读段数标准化无法消除系统功能偏差，该偏差更多源于建库前流程（起始量、PCR dup率、multiplexing程度）致覆盖不均，而非测序化学本身。

讨论与结论翻译（Conclusions部分）：

研究人员确认MGI测序是NovaSeq在微生物组分类学谱分析中可靠且稳健的替代方案；但在功能层面观察到差异。研究发现强调在比较结果时——尤指使用基因目录(gene catalog)的研究——方法学一致性至关重要。为获得准确可比结果，标准化样品制备是关键第一步；此外实验设计应优先考虑测序深度，强烈建议限制样品多重标签(multiplexing)程度，从而增加建库中各样品起始DNA量，这对最小化覆盖缺口、实现细菌基因组均匀代表及可靠功能注释必不可少。

以上总结均严格依据原文内容浓缩整理，未添加推测性表述。

热点排行