《Forensic Science International: Genetics》:Characterizing DNA mixtures with Demixtify
编辑推荐:
本研究更新了Demixtify工具(v0.15),针对低覆盖度测序(LPWGS)数据提出混合检测和比例估计方法,通过优化遗传标记选择和theta校正,有效降低人口结构对结果的影响,并验证工具在混合比例从0.01%到1%的广泛覆盖下的性能。
奥古斯特·E·沃纳(August E. Woerner)|本杰明·克里苏普(Benjamin Crysup)|迈克尔·D·科布尔(Michael D. Coble)
北德克萨斯大学健康科学中心人类识别中心;美国德克萨斯州沃思堡市Camp Bowie Blvd. 3500号,邮编76107
摘要
在法医调查基因谱学的推动下,全基因组测序(WGS)技术正在法医领域得到迅速应用。虽然有许多用于解释WGS数据的工具来自医学基因组学领域,但专门用于评估DNA混合物的软件却相对匮乏,尤其是在样本量较少的情况下。我们提出了Demixtify这一工具,用于检测和表征DNA混合物。遗传分析涵盖了广泛的人群群体、覆盖率和混合物比例(MP)。分析表明,混合物比例的估计受源人群的影响较大,而混合物的检测(低至0.01×)则对这些因素的敏感度较低。通过仔细选择遗传标记,可以减轻人群统计学对比例估计的影响。
引言
全基因组测序(WGS)是一种强大的技术,已被多个法医学科迅速采用。WGS在法医领域的成功很大程度上归功于医学基因组学;许多处理WGS数据的长期存在的算法可以相对容易地应用于法医案例。这些算法包括样本预处理(例如fastqc [1])、序列比对(例如BWA [2])以及基因型估计 [3]、[4]、[5]。最近,医学基因组学领域引入了低通量WGS(LPWGS)[6]、[7]、[8]。在这种技术中,样本只进行轻度测序(通常平均读深度为1.0,即覆盖率为1×),然后使用基因型精炼算法(有时称为基因型推断算法)来估计基因型,例如GLIMPSE [6]和Beagle [8]。忽略仪器成本的话,LPWGS的成本较低(使用NovaSeq等仪器每样本约100美元),并且生成的基因型质量与DNA微阵列相当,但误差更小,人群偏差也更低 [6]、[7]。LPWGS在法医中的应用有两个方面:首先,某些样本本身就属于低通量测序(例如,只能获得0.10×的基因组覆盖率);其次,对于质量较好的样本,LPWGS可以作为节省成本的手段——先对DNA文库的一小部分进行测序,如果数据不足再进一步测序。
医学基因组学历史上对DNA混合物的解释关注较少。因此,相关技术也发展得不够成熟。医学基因组学文献通常将DNA混合物视为污染现象,虽然存在一些从基因型中识别混合物的技术(例如GATK中的CalculateContamination工具 [3]),但适用于LPWGS的技术相对较少(例如 [9]、[10]、[11]、[12])。古代DNA研究也与法医案例有很强的相似性(相关综述见 [13])。与一些法医样本类似,古代样本往往已经降解(可能比法医样本更严重),数量有限,并且通常使用与医学 [6] 和法医 [14] WGS研究 [15]、[16] 中相同的(或高度相似的)基于似然性的方法。与医学基因组学领域一样,古代DNA研究中的混合物检测也受到一定限制,通常依赖于较低的覆盖率(约3× [17])或关于生物性别的强先验信息 [10]。在相关方法中,Demixtify [12] 显示出最高的敏感度(低至1× [12])。然而,LPWGS数据的覆盖率可能远低于1×,这表明需要一种更好的混合物识别策略。
另一个相关问题是估计混合物比例(MP)。在至少一种方法中 [18],如果能够准确估计MP,就可以很容易地对(LP)WGS数据进行解卷积。因此,估计MP对于混合物解卷积策略至关重要。
在这项研究中,我们评估了在更新版本的Demixtify(v.15)中用于识别和表征DNA混合物的技术。研究考虑了高覆盖率WGS(HPWGS,10×)和低覆盖率WGS(LPWGS,0.001-1×)数据。评估了几种检测难以解卷积的混合物的策略(尤其是LPWGS数据)。同时,还评估了在不同混合物比例、覆盖率和人群群体下的MP估计能力。策略包括对theta校正的评估,以及考虑不同的基因面板组成。
部分内容摘录
SNP面板
人群等位基因频率来自以下群体:AFR(非洲/非裔美国人)、AMR(拉丁裔)、NFE(非芬兰欧洲人)、SAS(南亚人)、EAS(东亚人)、AMI(阿米什人)、FIN(芬兰人)和ASJ(阿什肯纳兹犹太人)。人群标签来自gnomAD(v3.1.2)[19]。全球等位基因频率数据来自1000 Genomes Project + HGDP [20],使用的是SNPs(MAF > 1%,即次要等位基因频率,即未加权的等位基因频率)[14]。具体来说,
表观杂合度
需要强调的是,公式(1)依赖于基因型概率的估计。为此,Demixtify考虑了一个单一的等位基因频率(作为1kGP+HGDP中样本的平均值)和一个单独数据库gnomAD提供的FST(每个位点的估计值)。为了评估任何潜在的不一致性,我们估计了观察到的平均杂合度,该值与等位基因频率FST和人群统计学密切相关。为了提供背景信息,我们首先考虑了
减少MP估计的偏差
如图1、图2、图5(以及补充图1-3)所示,Demixtify对人群统计学很敏感,我们通过一个简单的统计量(观察到的杂合度)来说明这一点。更直接地说,Demixtify依赖于基因型概率的准确估计,在典型的法医应用中,这涉及到Balding和Nichols的人口结构模型;即人群细分模型 [26]。值得注意的是,theta校正可以减少杂合度
结论
我们推出了Demixtify(v0.15)版本,对之前的工具进行了改进和扩展。特别是,我们发现通过仔细选择标记和应用theta校正,可以在检测混合物和估计MP方面提高结果。同时,考虑MP的点估计和置信区间有助于解释DNA混合物,尤其是在样本量有限的情况下。此外,覆盖率(在
资金支持
本工作部分得到了美国司法部司法项目办公室下属的国家司法研究所颁发的奖项15PNIJ-23-GG-04213-DNAX的支持。本出版物中表达的观点、发现、结论或建议仅代表作者本人,并不一定反映美国司法部的立场。
作者贡献声明
奥古斯特·沃纳(August Woerner):撰写 – 审稿与编辑、撰写 – 初稿、可视化、软件开发、项目管理、方法论、研究设计、资金筹集、数据分析、概念构思。本杰明·克里苏普(Benjamin Crysup):撰写 – 审稿与编辑、方法论、资金筹集、数据分析、概念构思。迈克尔·D·科布尔(Michael D. Coble):撰写 – 审稿与编辑、项目管理、资金筹集、概念构思。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。