编辑推荐:
本综述系统评估了PCR(聚合酶链反应)扩增偏倚对微生物组生态学分析的影响,揭示了常用α-多样性(如Shannon指数)和β-多样性(如Bray-Curtis相异度)指标对偏倚的敏感性,同时提出了一类不受偏倚影响的扰动不变性估计量(如Aitchison距离)。研究通过理论证明和实证分析,阐明了偏倚程度与群落结构的依赖关系,并为基于PCR的微生物生态学工作流程提供了多样性指标选择及偏倚校正的实用指南。
1 引言
下一代测序技术的兴起显著推动了微生物组研究。基于扩增子的微生物组研究通常靶向16S rRNA基因的高变区作为条形码,通过PCR扩增获取足够的测序材料。然而,不同16S rRNA模板的扩增效率存在差异,导致测序文库中特定类群的系统性高估或低估。这种非引物错配(Non-Primer-Mismatch, NPM)偏倚可造成超过15倍的相对丰度估计误差。尽管已有研究通过多周期PCR实验建立了指数偏倚模型(如公式(1)所示),并验证其可解释95%以上的偏倚变异,但PCR偏倚对生态多样性指标(如α-多样性和β-多样性)的影响尚未被系统评估。
2 结果
2.1 PCR偏倚的统计模型
研究采用Silverman等人提出的贝叶斯多层次多项式逻辑正态模型,将PCR偏倚表述为对数比率空间中的线性对比模型(公式(2))。该模型通过fidoR包实现参数估计,能够从包含不同PCR循环数的校准样本中推断类群特异性相对扩增效率(β)和无偏相对丰度(α)。
2.2 估计量的敏感性与不变性
研究证明存在一类扰动不变性估计量,其值不因样本在对数比率空间中受到相同向量偏移而改变。例如,差异对数倍比变化(如健康与疾病间的平均对数比率差异)属于此类估计量,因此不受PCR偏倚影响(定理1)。反之,扰动敏感性估计量则会受偏倚显著影响。
2.3 α-多样性分析受PCR偏倚影响
通过模拟群落和人体肠道微生物组数据,评估了Shannon指数、Simpson指数、Gini系数和Aitchison范数四种α-多样性指标。结果显示,所有指标在35个PCR循环后均出现显著偏离真实值(0循环)的偏倚(图1)。偏倚程度高度依赖群落组成:在类群均匀度高的群落中,小幅度丰度扰动即可导致多样性值大幅变化;而在优势类群突出的群落中,偏倚较小。通过优化分组实验进一步证实,PCR偏倚可导致ANOVA R2值变化高达0.54,表明其在差异α-多样性分析中可能引入虚假信号。
2.4 β-多样性分析同样受PCR偏倚影响
Bray-Curtis相异度和Weighted UniFrac作为常用β-多样性指标,均表现出对PCR偏倚的敏感性。对四组人工肠道系统的分析表明,PCR扩增后样本间的距离估计出现系统性扭曲(图3),其偏倚方向与幅度取决于所比较群落的组成结构。当PCR引起的扰动方向与群落间差异主轴对齐时,偏倚尤为显著。PERMANOVA分析显示,优化分组下Bray-Curtis的R2变化达0.12,证实偏倚可能扭曲群落水平的比较结果。
2.5 Aitchison距离对PCR偏倚具有不变性
与上述敏感性指标不同,Aitchison距离(定义为两样本在中心对数比率变换后坐标的欧氏距离)是扰动不变性估计量。因其基于对数比率差异,PCR引入的加性偏移在对数比率空间中相互抵消,使得该距离在扩增前后保持不变(推论2),为β-多样性分析提供了稳健的替代方案。
3 讨论
本研究首次系统评估了PCR偏倚对微生物组生态多样性分析的影响。结果表明,广泛使用的α-多样性和β-多样性指标均可能因扩增偏倚而产生失真,且失真程度与底层群落结构密切相关。为此,建议在研究设计中优先采用扰动不变性指标(如Aitchison距离)以规避偏倚问题。若生物学问题必须使用敏感性指标,则需通过校准实验(如变循环数测序)量化并校正偏倚。此外,研究框架可扩展至其他依赖PCR扩增的测序应用(如宏基因组学、转录组学),为提升测序数据推断的稳健性提供了普适性见解。