《Genome Biology》:A recurrent sequencing artifact on Illumina sequencers with two-color fluorescent dye chemistry and its impact on somatic variant detection
编辑推荐:
本研究针对Illumina NovaSeq系列测序平台采用的双色荧光化学法可能引入的系统性测序偏倚问题展开。研究人员通过平行比较同一批样本在NovaSeq 6000(双色法)和HiSeq X10(四色法)平台的全基因组测序数据,发现NovaSeq 6000在读段水平上存在更高频率的T>G/A>C“假性”替换,该伪影在低变异等位基因频率(VAF)的体细胞突变检测,特别是正常组织的嵌合突变研究中,可能造成干扰。研究团队进一步利用该伪影在NT[TG]三核苷酸序列中富集的特征,开发了生物信息学矫正方法,为提升低频突变检测的准确性提供了关键见解。
随着基因组学研究的深入,科学家们对解读生命蓝图的“读码器”——高通量测序仪的精度要求越来越高。Illumina公司的边合成边测序(sequencing-by-synthesis)技术是当前基因检测的主力军,它让我们能够高效、大规模地从海量DNA中解读突变信息。为了追求更高的测序速度和通量,Illumina在NovaSeq系列中,从经典的HiSeq系列所用的“四色”荧光化学法转向了更新的“双色”荧光化学法。这一技术跃迁带来了效率的飞跃,但一个新的科学问题也随之浮出水面:新的化学法是否潜藏着我们尚未完全了解的、系统性“读错”DNA碱基的倾向?如果存在这种“测序伪影”,它们是否会在我们寻找那些极其罕见、但可能至关重要的基因突变时“鱼目混珠”,最终误导科学发现?特别是在癌症的早期踪迹、衰老研究或正常组织嵌合突变等前沿领域,研究人员常常像大海捞针一样,在超高深度的测序数据中搜寻变异等位基因频率(Variant Allele Frequency, VAF)极低(例如低于1%)的“信号”。此时,任何微小的、非生物来源的系统性“噪音”都可能被误认为是有意义的生物信号。因此,系统地评估和量化新测序平台带来的潜在偏倚,对于确保基因突变检测结果的可靠性至关重要,这也是本研究发起的核心动因。
为了回答这个问题,研究人员进行了一项严谨的对比分析。他们重新分析了一系列全基因组测序实验数据,这些实验的独特之处在于,同一批样本被不同的研究团队分别在NovaSeq 6000(采用双色化学法)和HiSeq X10(采用四色化学法)这两个不同的Illumina平台上进行了测序。这相当于为同一个人拍摄两张不同技术原理的“基因照片”,从而可以直接比较“照片”的差异是否源自“相机”本身。通过这种“头对头”的比较,研究团队在多个样本中观察到一个明确的现象:与HiSeq X10平台相比,NovaSeq 6000平台产生的测序读段中,出现了更高频率的T-to-G(胸腺嘧啶到鸟嘌呤)以及相对应的互补链A-to-C(腺嘌呤到胞嘧啶)的疑似替换,研究者将其统称为“T>G”替换。从总体上看,每个碱基的错误率仍然很低,因此,这种人为引入的替换在识别常见的生殖系突变或高VAF的体细胞突变时,其影响微乎其微。然而,在那些追求极致灵敏度的高深度测序样本中,例如旨在发现正常组织中低频嵌合突变的研究,这类错误就变得“麻烦”起来。因为在这些研究中,突变本身的支持读段数就很少,而且通常没有匹配的正常样本作为对照来帮助过滤背景噪音。这种情况下,测序伪影产生的假阳性信号就很可能“混入”真实的突变列表中,干扰最终的科学结论。有趣的是,研究人员进一步发现,这些人为产生的T>G变异位点并非随机分布,而是不成比例地集中在NT[TG](即一个任意碱基N,后接胸腺嘧啶T,再后接鸟嘌呤G)这样的三核苷酸序列背景下。基于这一关键的序列特征,研究团队得以开发出针对性的生物信息学方法,来有效减少体细胞突变列表中的T>G伪影过量问题。该论文已发表在《Genome Biology》期刊上。
为开展此项研究,作者主要运用了以下关键技术方法:首先,对多个来源的公开和私有数据集进行了系统的再分析,核心是直接比对同一批生物样本在NovaSeq 6000和HiSeq X10两个不同测序平台产生的全基因组测序数据。其次,使用了标准的生物信息学流程对原始测序数据进行比对、去重和变异检测,以识别和量化不同平台间的“假性”碱基替换差异。最后,基于发现的序列偏倚模式,设计了特定的生物信息学过滤或校正策略,用以优化低频体细胞突变的检测结果。
研究结果
背景
Illumina公司的边合成边测序技术能够实现对基因组数据中突变的高效、可扩展解读。为了提高测序速度和效率,Illumina已从HiSeq系列的四色荧光化学法转向NovaSeq系列的双色荧光化学法。对新技术可能带来的测序伪影进行基准测试,对于评估所识别突变的质量至关重要。
结果
研究人员重新分析了由不同研究组完成的一系列全基因组测序实验,在这些实验中,相同的样本分别在NovaSeq 6000(双色)和HiSeq X10(四色)平台上进行了测序。在多个样本中,他们观察到,与HiSeq X10相比,NovaSeq 6000在读段水平上出现了更高频率的T-to-G和A-to-C疑似替换。由于单位点碱基的错误率仍然很低,这些人为替换在识别生殖系突变或高变异等位基因频率(VAF)的体细胞突变时影响可忽略。然而,此类错误会干扰高深度测序样本中低VAF体细胞变异的检测,特别是在正常组织的嵌合突变研究中,因为这些变异支持读段数少,且通常在没有匹配正常样本对照的情况下被检出。人为产生的T>G变异位点不成比例地出现在NT[TG]三核苷酸序列中,研究人员利用这一观察,通过生物信息学方法减少了体细胞突变列表中的T>G过量问题。
结论
研究人员在Illumina NovaSeq 6000双色化学法平台上识别出一种特定的、反复出现的测序伪影,该伪影有可能污染低VAF体细胞突变的检测。因此,在嵌合突变研究中出现意料之外的T>G突变富集时,需要保持警惕。
总结与讨论
本研究揭示了Illumina NovaSeq 6000平台采用的双色荧光化学法所固有的、一种具有特定序列背景偏好性的系统性测序伪影。尽管单个碱基的错误率极低,不会对常规突变检测构成挑战,但其在基因组特定位置(NT[TG])的重复性、非随机性错误模式,对依赖超高测序深度、旨在捕捉极低频体细胞突变(如正常组织嵌合、微小残留病灶监测等)的研究构成了不容忽视的风险。此类研究的本质是在巨大的背景噪音中识别极其微弱的真实信号,任何可重复的技术偏倚都可能被误判为生物信号,从而导致假阳性发现,甚至得出错误的生物学推论。本研究的核心贡献不仅在于清晰刻画了这一偏倚的表型(T>G/A>C替换在特定序列环境富集),更在于为应对该问题提供了一个基于序列特征(sequence context)的、可直接应用的生物信息学解决方案。这提醒整个研究社区,在进行高灵敏度的低频突变探索时,必须将测序平台的技术特性纳入考量,并对突变谱进行审慎的质控。在NovaSeq平台日益普及的背景下,该研究对于确保基因组学数据质量、提升低频体细胞突变检测的准确性和可重复性具有重要的实践指导意义。