《PLOS Computational Biology》:ConNIS and labeling instability: New statistical methods for improving the detection of essential genes in TraDIS libraries
编辑推荐:
本文针对转座子插入位点测序(TraDIS)中必需基因检测的关键挑战,提出了一种名为连续非插入位点(ConNIS)的创新统计方法。该方法为给定长度和插入位点数基因中出现无插入序列的概率提供了解析解,并考虑了基因组范围内插入密度的变异。广泛的模拟和真实数据分析表明,ConNIS在低、中密度文库中优于主流方法。此外,研究引入了一种基于子样本的标注不稳定性准则,用于为TraDIS分析方法设定嵌入的阈值和参数值,有效提升了结果的可比性和可重复性。文章还提供了易于使用的R包和交互式Web应用。
引言
确定细菌生长和存活所必需的基因是遗传学研究的主要兴趣点,因为它有助于更深入地理解其生活方式和适应性。虽然定点诱变方法可以精确测定必需基因,但在全基因组范围内进行此类研究既费力又耗时。高通量测序方法的广泛使用推动了从单基因分析向全基因组分析的转变,从而催生了转座子插入测序(TIS)方法的发展。其中,转座子定向插入位点测序(TraDIS)是一种广泛应用的技术。然而,TIS研究中的一个关键挑战在于统计分析,其目标通常是最大化对真阳性(必需基因)的检测,同时最小化假阳性(被错误识别为“必需”的非必需基因)。目前有多种软件包和方法,但并非每种方法都同样适用于分析特定数据集。特别是,许多基于Tn5转座子的文库往往比基于mariner的文库密度低,因此在Tn5文库中,仅凭偶然机会观察到较大的无插入位点(IS)基因组区域的可能性更大。此外,基因组中检测到的IS分布通常并不均匀,可能存在偏好性和热点/冷点区域。
现有的一些基于Tn5的统计方法存在局限性。例如,Burger等人提出的二项分布方法、Transit软件包中的Tn5Gaps方法(使用Gumbel分布)以及Bio-TraDIS软件包中的双峰分布(指数-伽马混合模型)启发式方法。这些方法要么依赖预先设定的阈值,要么需要进行多重检验校正,且通常缺乏系统的阈值设定依据。最近提出的贝叶斯方法InsDens计算基因必需性的后验概率,但仍需选择先验分布参数。目前缺乏对这些方法的系统比较,特别是考虑不同数据生成过程时。此外,为TIS方法设定阈值或参数值缺乏透明、全面的统计方法,导致许多研究仅引用先前使用类似方法和参数的研究来证明其选择,且大多缺乏对阈值和参数值的敏感性分析。
为此,本研究做出了三项主要贡献。第一,引入了连续非插入位点(ConNIS),这是一种基于基因内无插入序列来确定基因必需性的新方法。第二,通过广泛的模拟研究和真实数据评估,证明了ConNIS的优越性。第三,首次提出了一种数据驱动的标注不稳定性准则,用于为TIS方法设定阈值和参数值。
材料与方法
连续非插入位点(ConNIS)
ConNIS方法的核心思想是,通过分析一个基因内最长的无插入序列(以碱基对计),来判断该基因是否为必需基因。该方法基于一个关键假设:Tn5转座子可以发生在非必需基因组的任何位置,而必需基因的转录对生物体生存至关重要,其功能被转poson插入破坏会导致突变体从群体中移除,因此IS应仅在被检测到。
具体而言,设基因组长度为b(碱基对),包含p个基因,其长度分别为l1, ..., lp。定义全基因组插入密度θ = h/b,其中h是全基因组观测到的IS数量。对于第j个基因,假设其非必需,其内部预期的IS数量为Ej= θ * lj(取整)。设Xj为在该基因内观测到的最长连续非插入序列的长度。
基于一个新颖的概率分布(详见支持文件S1),可以得出Xj的概率质量函数。然而,IS在基因组中的分布通常是非均匀的,直接使用全基因组插入密度θ来估计每个基因的预期插入数,可能会在插入密度低于平均水平的区域导致假阳性增加。为此,ConNIS引入了一个权重因子w(0 ≤ w ≤ 1)来调整θ,以校正低密度区域的偏差。这个加权后的密度wθ用于计算调整后的预期插入数。
ConNIS最终定义为,在基因j中观测到长度至少为xj的无插入连续序列的概率:
P(Xj≥ xj) = 1 - ∑k=0Ej(w)P(Xj= k | lj, Ej(w)),其中Ej(w)是使用加权密度wθ计算出的预期IS数。
给定显著性水平α,如果P(Xj≥ xj) < α,则宣布基因j为“必需”。为控制全局I类错误,建议使用Bonferroni(-Holm)方法控制家族错误率(FWER),或使用Benjamini-Hochberg方法控制错误发现率(FDR)。
用于调参的标注不稳定性准则
TIS方法通常需要预先设定会影响最终“必需”基因标注数量的参数或阈值。本研究提出一种数据驱动的调参方法,其核心思想是:由于IS是基因组上某个未知概率分布的实现,类似于重复实验,在非必需基因组区域,每次实现可能产生不同的IS位置。因此,基因级的IS度量指标(如最长无插入序列xj)在不同子样本间会波动,从而可能改变被分类为必需基因的集合。一个好的调参值应该能在基因分类方面给出较为稳定的结果。
该准则的具体操作以选择ConNIS的权重w为例。首先,从观测到的h个IS中,不放回地抽取m个子样本,每个子样本大小为h'(例如h' = 0.8h)。然后,对于一组有序的候选权重值w1, ..., wq,在每个子样本中,使用ConNIS和给定的显著性水平对基因进行“必需”或“非必需”标注。将基因标注建模为一个伯努利过程,可以根据m个子样本的结果,估计每个基因j被标注为“必需”的概率p?j(w)。
接着,对于给定的权重w,定义所有基因的标注不稳定性为:
I(w) = (2 / (p?(w) * (1 - p?(w))) ) * (1 / |S(w)|) * ∑j∈S(w)p?j(w) * (1 - p?j(w))
其中,p?(w)是所有被标注过至少一次的基因的平均标注概率,S(w)是在m个子样本中至少被标注为“必需”一次的基因集合,|S(w)|是其数量。归一化因子确保I(w)在[0, 1]区间。I(w)=0表示所有基因在所有子样本中的标注完全一致;I(w)=1则表示完全不稳定,相当于每次标注都像抛硬币一样随机。
计算出所有候选权重的不稳定性值后,选择使标注不稳定性最小的权重w*= argminwI(w)。最后,使用这个选定的权重w*对原始数据应用ConNIS。为了避免因权重过小导致几乎所有基因都被标注为“非必需”(不稳定性接近零但无信息量)的情况,该准则会排除那些小于使函数w -> |S(w)|达到最大值的权重中最小权重的所有候选值。
结果
ConNIS与现有方法的比较
为了评估ConNIS与竞争对手的性能,研究将其应用于合成数据、半合成数据和真实世界数据。合成数据通过模拟不同数据生成过程(如不同IS数量、不同分布模式、存在“冷点”区域等)产生。真实数据使用了三个公开的Tn5文库。主要性能评估指标是马修斯相关系数(MCC),它适用于数据不平衡(必需基因远少于非必需基因)的情况。同时还绘制了精确率-召回率曲线(PRC)。
在多种合成数据场景中,ConNIS普遍优于或与其他最佳方法表现相当。特别是在低密度和中等密度文库的设置中,ConNIS的优势更加明显。例如,在一个模拟低插入密度(模拟瓶颈效应)的场景中,ConNIS在标注基因数量接近真实必需基因数量时达到了最高的MCC值,而其他方法表现不佳。在模拟存在“冷点”区域的场景中,ConNIS也取得了最佳的MCC和PRC性能,尽管所有方法都因冷点区域假阳性机会增加而倾向于高估必需基因数量。
在真实世界数据应用中:
- 1.
大肠杆菌BW25113菌株文库(约102,000个IS):以Keio文库单敲除研究结果为金标准。ConNIS的MCC最高可达0.65,优于其他方法。
- 2.
大肠杆菌K-12 MG1655高密度文库(约390,000个IS):以PEC数据库分类为真值。所有方法都从高IS数量中受益,在标注基因数接近真实数量时表现最佳。对全基因组插入密度进行加权(w<1)对所有方法都有利,而未加权的原始版本(w=1)虽然召回率高,但精确率低。
- 3.
鼠伤寒沙门菌14028S菌株文库(约186,000个IS):所有方法表现平平。ConNIS取得了最佳的MCC和精确率值,而InsDens和Exp. vs. Gamma方法表现很差,后者标注了过多的“必需”基因,导致MCC为负值。Binomial、ConNIS和Tn5Gaps都受益于较低的权重w。
在半合成数据(从高密度文库中随机删除IS以生成不同密度的子样本)分析中,ConNIS在低和中密度子样本中表现突出,在高密度子样本中,所有方法表现不相上下。
标注不稳定性准则在调参中的应用
将标注不稳定性准则应用于前述三个真实数据集和三个随机选择的合成数据集,以选择各方法的调优参数(如ConNIS的权重w,Exp. vs. Gamma的似然比阈值λ,InsDens的后验概率阈值r)。
结果显示,该准则在大多数情况下成功选出了能产生接近最优MCC值的参数。对于ConNIS,在多个数据集上,该准则选出的权重对应的MCC值达到了最优或接近最优。对于Exp. vs. Gamma,选出的阈值通常能产生接近最优MCC的结果,且优于或类似于近期研究中使用的启发式阈值。对于InsDens,该准则在五个设置中选出了有利的后验概率阈值r,并在其中三个达到了最高MCC。对于Binomial、Geometric和Tn5Gaps,应用不稳定性准则选择权重也优于使用未加权的原始版本。
生物学相关性
除了全局性能指标,研究还分析了ConNIS与其他方法存在“重大分歧”(即ConNIS标注为“必需”而其他4-5种方法标注为“非必需”,或反之)的基因。在三个真实文库中,共涉及59个基因。其中,44个基因为ConNIS特异性标注的“必需”基因,这些基因中位长度较短(328 bp)。分析表明,ConNIS正确地识别出了一些短必需基因,如ftsL、ffs、argU和folK,这些基因由于长度短或插入密度低,常被依赖插入密度/计数的方法漏检或需在分析前被排除。这凸显了ConNIS即使在短基因上也保留了统计效力。当然,也存在个别误判案例,如nusB基因,其错误标注归因于文库中该基因仅有一个插入位点,导致了一个相对较长的无插入间隔,产生了较低的p值。
另一组是ConNIS标注为“非必需”而其他多数方法标注为“必需”的基因(15个),这些基因通常较长(中位长度1428 bp)。ConNIS正确地识别了一些非必需基因,如ptsI和ybcK。但也存在误判,如pssA基因,其编码的酶已知是必需的。错误原因可归结为:该基因中部仅观测到一个IS,导致观测到的无插入间隔较小;同时应用了较低的权重w,增加了零模型下出现较大无插入间隔的概率;再加上相对保守的Bonferroni-Holm多重检验校正。
讨论与结论
本研究解决了TraDIS研究中统计分析的三个主要挑战。第一,针对Tn5数据集插入密度常未达到饱和水平的情况,ConNIS为给定长度和IS数的基因中出现无插入序列的概率提供了解析解。第二,针对IS在基因组中常呈非均匀分布的问题,ConNIS通过引入权重因子校正低密度区域的偏差,提高了精确性。将此加权思想扩展到其他三种现有方法,也改善了它们的精确性。第三,针对许多TIS方法依赖先验设定阈值/参数值且缺乏客观选择标准的问题,引入了基于IS子样本的基因标注不稳定性概念,提出了一种数据驱动的调参方法。
广泛的模拟和真实数据应用表明,在大多数设置下,ConNIS优于或至少等同于最佳的现有方法。与其他方法不同,ConNIS通常对(任意)选择的基因末端截断和过滤值表现出稳健的性能。加权全基因组插入密度的思路也被证明能有效减少假阳性而不牺牲过多真阳性。标注不稳定性准则在多种场景下被证明能为所有方法选择有利的参数值。通过对分类结果中重大分歧基因的检查,表明ConNIS能够正确分类非常短的基因,避免了将这些基因事先排除在分析之外的标准做法。
鉴于ConNIS在低和中密度插入设置中表现出的优越性能,预计其应用将改善具有高选择压力或存在瓶颈效应的实验场景中的结果精确性。虽然本研究主要探讨了ConNIS鉴定必需基因的能力,但预计其在鉴定条件必需基因方面可能同样有益,例如通过比较不同条件间的基因级ConNIS分数。这将把ConNIS的应用范围扩展到需要非二元表征(如相对基因适应度)的场景。最后,本研究展示了数据生成过程对所有方法性能的关键影响,未来的工作可扩展所考虑的场景范围,帮助研究人员选择最适合其数据分析的方法。