《HUMAN MUTATION》:Assessment of In-Frame Indel Variants in an Unsolved Cohort of Inherited Retinal Diseases Using Machine Learning
编辑推荐:
本文通过系统评估多种机器学习工具,聚焦于解决框内插入缺失变异致病性预测的临床挑战,并在一个由1013名未确诊的遗传性视网膜疾病患者组成的队列中,成功识别出两个可能致病的候选变异,为提升该领域的诊断效率提供了重要的方法学参考和实际案例。
1. 引言
新一代测序技术已成为遗传性疾病诊断的标准方法,然而,对检测到的变异进行解读仍是主要挑战。虽然针对单核苷酸变异(SNVs)和剪接变异的计算机模拟预测工具已相对成熟,但对于能够改变氨基酸序列、可能破坏蛋白质结构域的小型框内插入或缺失变异(in-frame indels),可靠的致病性预测标准尚不完善。这类变异通常指长度小于48个碱基对且可被3整除的插入或缺失,与SNVs以不同方式改变序列,可能导致疾病表型。
遗传性视网膜疾病(IRDs)是一组由遗传变异引起的罕见疾病,可导致严重且不可逆的视力丧失,全球有数百万人受影响。常见亚型包括色素性视网膜炎、Leber先天性黑蒙、锥杆细胞营养不良、Stargardt病和Usher综合征。这类疾病具有高度的表型和基因型多样性,迄今已有超过281个基因被证实与IRDs相关。尽管应用了基因panel或全外显子组测序等NGS技术,仍有约25%的IRD患者无法找到遗传学病因。研究表明,全基因组测序的应用仅将诊断率小幅提升了24%。此外,在IRDs中已检测到框内插入缺失变异,这表明框内变异效应预测具有潜在的临床应用价值。
2. 材料与方法
2.1. 基准数据集
为了评估不同框内插入缺失预测模型的性能,研究人员使用了一个先前收集的包含已知致病性变异的数据集。该数据集包含了来自ClinVar、gnomAD (v2.1.1) 和一项解读发育障碍研究(DDD)的3964个变异,其中包括1740个致病或可能致病(PLP)以及2224个良性或可能良性(BLB)的框内插入缺失变异(详见)。接着,从RetNet(视网膜信息网络,一个与IRDs相关的基因数据库)获取IRD相关基因,对基准数据集进行过滤,由此生成了一个包含222个变异的独立IRD基准数据集。
2.2. 预测模型的选择
模型选择基于以下标准:可下载到本地计算机或可通过网络界面使用,以及能够输出用于ROC分析和比较的连续评分。最终,研究者对三个先前的机器学习模型和一个新的深度学习模型进行了基准测试。这三个机器学习模型是:CADD、FATHMM-indel、VEST-indel,深度学习模型是MetaRNN-indel。他们在完整的基准数据集上运行这四个模型,为每个变异生成预测分数,并通过计算ROC曲线下面积和精确率-召回率曲线下面积来比较这些模型。对仅包含IRD基因的数据集也重复了相同的分析。
2.3. 定义MetaRNN-indel用于IRDs的致病性阈值
为确保对患者变异的精确分类,需为MetaRNN评分建立特定的阈值。计算了两个阈值(一个上限,一个下限)来确定变异是可能致病(LP)、可能良性(LB)还是意义不明确(VUS)。简而言之,若一个变异的评分超过上限阈值(代表基准数据集中95%的已知致病变异被可靠识别为PLP),则归类为LP。反之,若分类器评分低于下限阈值(代表基准数据集中由ClinVar专家注释的95%的已知良性变异被归类为BLB),则归类为LB。评分介于两个阈值之间的变异则被视为VUS。这些阈值的选择旨在临床背景下平衡敏感性和特异性。
2.4. 未解决患者数据分析
本研究纳入的个体均经临床诊断为IRD,但在基因panel检测或WES后,其潜在的遗传病因学仍未解决,总计1013名未解患者,涉及8604个框内插入缺失变异待分析。许多临床诊断包括色素性视网膜炎、图形样营养不良和Leber先天性黑蒙。对这些未解决病例进行了约30×覆盖深度的WGS。随后,研究人员将MetaRNN-indel模型应用于分析在未解决患者队列的IRD相关基因中发现的框内插入缺失变异。接下来,他们利用MetaRNN-indel阈值将变异分类为LP、LB或VUS(详见)。对于LP变异,使用IGV手动检查原始BAM文件,以消除由于比对和测序错误导致的潜在不准确性。对于在IRD基因中存在LP框内插入缺失变异的患者,进一步结合其基因型进行临床表型特征分析。
3. 结果
3.1. 模型性能
在完整基准数据集上,每种工具分析了3964个框内插入缺失变异中的3668至3955个(92%–95%)。以Cannon等人注释的PLP/BLB作为金标准,MetaRNN-indel取得了最佳性能,其AUROC为0.942,VEST-indel次之(AUROC = 0.934)。在精确率-召回率分析中,MetaRNN-indel也表现最佳,PRAUC为0.936。这些模型的性能对比可通过和进行直观比较。
在IRD数据集中也观察到了类似的趋势。模型仅能分析IRD相关基准数据集中222个变异中的191个。MetaRNN-indel表现最佳,其AUROC为0.938,FATHMM-indel次之(AUROC = 0.889),VEST-indel第三(AUROC = 0.886)。精确率-召回率分析同样显示MetaRNN-indel最佳。这表明MetaRNN-indel在基准数据集以及基准数据集中的IRD基因上都拥有最佳性能,因此决定将其应用于内部未解决的患者数据集。
3.2. 定义MetaRNN-indel的致病性阈值分数
确定MetaRNN-indel在基准数据集上表现最佳后,研究人员为LP和LB变异定义了评分阈值。为了定义LP变异,他们使用了MetaRNN-indel评分的最大值(评分 ≥ 0.66),在该阈值下,95%的已知致病变异被正确预测为PLP。同样,定义LB阈值为MetaRNN-indel评分的最小值(评分 ≤ 0.156),在此阈值下,基准数据集中95%的已知良性变异被正确预测为BLB。评分落在两个阈值之间的变异被定义为VUS。
接下来,将致病性阈值应用于WGS患者数据的MetaRNN注释。MetaRNN共分类了患者队列中的158个IRD变异。其中,有60个LB变异(38%),72个VUS变异(45.5%),以及26个LP变异(16.5%)。直观地展示了这一分布。
3.3. 鉴定携带LP框内插入缺失变异的患者
为过滤掉MetaRNN-indel分类的假阳性LP变异,研究人员使用IGV和RetNet的基因型-表型相关性,手动检查了这26个框内插入缺失变异,最终在两名无关的IRD患者中鉴定出两个潜在候选变异。
其中一名患者RETPH009是一名19岁男性,被诊断为不典型的X连锁色素性视网膜炎,在RP2基因中发现了一个新的半合子变异。该变异在gnomAD v4.0.0中不存在。通过对父亲、母亲和一名兄弟进行WGS,发现了从携带者母亲传递给患病儿子的X连锁遗传模式,这支持了研究结果。患者的临床检查信息详见表2。另一名患者MEP_066被诊断为单纯性RP,在IMPDH1基因的第10号外显子中发现了一个新的杂合子缺失变异。该变异在gnomAD v4.0.0中同样不存在,且该患者无IRD家族史。患者双眼有罕见的中周部骨细胞样色素沉着,这与IMPDH1基因的变异一致。尽管没有分离数据,但结合ACMG指南和计算证据,这些发现增强了所识别变异在IRD患者中致病的可能性。对患者RETPH009的家系、眼底及OCT影像学检查,可通过、和进行详细了解。
4. 讨论
本研究旨在利用机器学习工具解决框内插入缺失变异分类的挑战。与SNVs相比,对框内插入缺失变异的研究仍然有限。研究人员对四个模型进行了基准测试,包括基于机器学习的CADD、FATHMM-indel和VEST-indel模型,以及基于深度学习的MetaRNN-indel模型,以系统评估其性能。模型在基准数据集和IRD数据集上均表现良好,MetaRNN-indel在两个实验中均表现最佳,其深度学习架构似乎能学到其他传统机器学习模型无法捕捉的模式。
在将MetaRNN-indel应用于未解决的IRD患者数据集后,仅鉴定出两个LP变异。虽然这个数字很低,但对于诊断未解决的患者、引导其寻找可能的致病变异、从而进行进一步检测并提供改进的疾病管理方案仍然是有用的。
本研究也存在一些局限性。首先,基准数据集的注释可能不完全准确。其次,MetaRNN-indel本身存在限制,例如它只预测长度不超过48个碱基对的插入缺失,并且偶尔会因基因转录本不同而输出不同的评分。未来的发展方向包括在大型、高质量的框内插入缺失数据集上训练模型,以及结合蛋白质结构域建模来更好地预测框内插入缺失变异的潜在影响。
总之,这项研究表明,利用现有的计算机模拟预测工具可以实现对小型框内插入缺失变异致病性的高性能预测,其中最新的深度学习算法展现了最佳的整体结果。通过应用这些工具,在IRD患者队列中鉴定出了两个候选致病变异。考虑到鉴定出的候选致病变异数量较少,本研究提示框内插入缺失在IRD患者中的总体致病贡献相对较小。