《Artificial Intelligence in the Life Sciences》:PATHOS: Predicting Variant Pathogenicity by Combining Protein Language Models and Biological Features
编辑推荐:
本研究的推荐意见为:研究者为提升错义变异致病性预测的准确性,开发了名为PATHOS的新型预测工具。该工具通过集成最优蛋白质语言模型(PLMs)的嵌入信息,并融合进化概率、等位基因频率等关键生物特征,在一个临床数据集上实现了0.591的马修斯相关系数(MCC),显著超越了包括AlphaMissense在内的65种现有预测工具。PATHOS能够识别其他工具遗漏的致病突变及关键功能区域,为遗传疾病的精准诊断提供了更可靠的辅助工具,其预测结果可通过用户友好的网络服务器获取。
在细胞中,即便存在精密的校正机制,DNA复制也并非完全无误。这些罕见的错误可能导致遗传性疾病。若突变发生在生殖细胞中,则很可能遗传给下一代。随着人类基因组测序的普及,我们发现DNA频繁地发生核苷酸变化,其中大多数是无害的,仅有一小部分与已知疾病相关。因此,如何快速、准确地将致病突变与良性突变区分开来,对于患者的诊断和潜在治疗至关重要。传统的实验方法通常耗时且昂贵,这催生了变异效应预测器(VEPs)的蓬勃发展。然而,尽管基于深度学习的方法已显著提升性能,现有的最佳VEPs离临床安全可靠使用的要求仍有差距,美国医学遗传学与基因组学学院(ACMG)和分子病理学协会(AMP)甚至将其列为临床分类新变异时最弱的证据标准之一。
面对这一挑战,蛋白质语言模型(PLMs)展现出了巨大潜力。这些模型能够深入理解蛋白质序列中氨基酸残基间的关系,并捕捉到与蛋白质序列相关的结构和功能信息,这些信息对于预测致病性至关重要。因此,结合PLMs的强大能力来提升预测准确性,成为一个极具前景的研究方向。
为了回答“如何更有效地利用PLMs来准确预测错义变异的致病性?”这一问题,来自法国巴黎西岱大学和留尼汪大学等机构的研究团队Ragousandirane Radjasandirane、Gabriel Cretin、Julien Diharce、Alexandre G. de Brevern和Jean-Christophe Gelly进行了一项开创性研究,并开发了名为PATHOS的新型预测工具。他们的研究成果发表在了《Artificial Intelligence in the Life Sciences》期刊上。
主要研究方法
研究团队首先从ClinVar和UniProt数据库中获取并严格筛选了错义变异数据,构建了包含26,566个变异(13,984个良性,13,582个致病性)的高质量训练和验证集。他们评估了九种蛋白质语言模型(PLMs),包括ESM系列和Ankh系列模型,并测试了微调的影响,发现微调并未带来显著性能提升。最终,他们构建了PATHOS模型,其核心架构是结合了最优的两种PLM(ESM Cambrian 600M和Ankh 2 Large)的嵌入特征。模型的特征向量不仅包含野生型和突变型序列在突变位点的嵌入向量,还整合了多项关键生物特征:基于系统发育分析的PastML概率、来自gnomAD v4.1的等位基因频率(AF)、基于STRING数据库的蛋白质相互作用评分,以及UniProt数据库中包含二级结构、结合位点等信息的位置特异性注释。这些特征经过log2min-max归一化处理后,输入到一个全连接层中进行致病性预测。两个PLM的预测分数取平均值得到最终结果。模型的性能在三个独立的临床测试集上进行评估,并与包括AlphaMissense、MetaRNN、BayesDel、ClinPred在内的65种现有VEPs进行了全面比较,使用马修斯相关系数(MCC)、F1分数和排名分数等指标来衡量。
研究结果
3.2.1. 微调对PLMs在致病性检测性能上的影响
研究团队首先测试了对PLMs进行基于LoRA的微调,但结果表明,除ProstT5模型略有提升外,对于大多数模型(如ESM2 3B、Ankh Large 2),微调并未带来显著的性能改进,甚至略有下降。考虑到微调需要大量计算时间且改进有限,研究者决定在后续分析中使用未经微调的原始PLMs。
3.2.2. 整合生物特征以提升性能
向PLMs的特征向量中加入额外的生物信息特征能显著提升预测性能。其中,等位基因频率(AF)的加入几乎使所有PLMs的MCC提升了0.1以上。野生型序列的嵌入向量也至关重要,它告知了模型突变前的初始状态。PastML、STRING和UniProt特征的加入进一步提升了所有模型的性能。整合所有特征后,表现最佳的PLMs是Ankh2 Large、Ankh Large和ESM C 600M,其MCC达到了0.744。
3.2.3. 分析PLMs之间的冗余性
不同PLM对变异的预测存在差异,例如Ankh Large和Ankh2 Large的预测一致性为96%,而Ankh模型与ProtT5、ESM C模型的预测一致性在87%-88%之间。这表明不同PLM捕捉了蛋白质序列中互补的信息,组合它们有望创建一个更鲁棒的模型,互相弥补错误。
3.2.4. 寻找PLMs的最优组合
通过迭代添加候选PLM并评估其组合性能,研究团队发现,结合ESM C 600M和Ankh 2 Large两个模型,在仅使用两个PLM的情况下,就达到了最佳的性能与效率平衡,在验证集上实现了0.685的MCC。这个组合被确定为最终的PATHOS模型。
3.3. 将PATHOS与其他VEPs进行比较
3.3.1. PATHOS在人工标注的临床数据集上达到最优性能
在一个由专家手动精心标注的临床数据集上,PATHOS的MCC达到0.591,显著超越了其他顶级工具(如gMVP,MCC为0.508)。其F1分数为0.785,排名分数为0.877,均位列第一,显示出其准确识别致病变异同时最小化误报的能力。
3.3.2. PATHOS在公开ClinVar数据库上的优异表现
在更大的ClinVar测试集上,PATHOS的MCC为0.826,F1分数为0.855,排名分数为0.954,性能与MetaRNN相当,并显著优于BayesDel和ClinPred。在高品质的ClinVar_HQ子集上,PATHOS的MCC为0.836,排名分数为0.8,优于流行的AlphaMissense(排名分数0.762)。
3.3.4. PATHOS在新序列上的泛化能力
为了评估模型在未见过的蛋白质序列上的表现,研究剔除了与训练集存在序列相似性的变异。结果显示,PATHOS在仅包含新序列的数据集上依然保持了顶尖性能,在临床数据集上的MCC达到0.619,在ClinVar数据集上的MCC为0.824,甚至在通过序列一致性严格过滤后的“全新”序列上,PATHOS的MCC也达到了0.627(临床集)和0.846(ClinVar集),表现优于所有对比的VEPs,证明了其强大的泛化能力和从训练数据中学习到的稳健特征。
3.4. PATHOS在检测“困难”变异上的表现
研究根据所有VEPs预测错误的比例将变异分为“简单”、“中等”和“困难”三类。在所有数据集上,PATHOS对“简单”和“中等”难度变异的预测性能均位居前列。对于最难预测的“困难”变异,在ClinVar和ClinVar_HQ数据集上,PATHOS的表现(MCC分别为-0.342和-0.107)与ClinPred相当或更优;在临床数据集上,其表现(MCC -0.478)略逊于VESPA和CPT。总体而言,PATHOS在区分不同难度变异方面表现稳健,并且在识别“困难”变异上优于AlphaMissense。
3.5. PATHOS在孕酮受体(PGR)上的应用
研究团队将PATHOS应用于孕酮受体蛋白,绘制了所有可能的单点突变的致病性图谱。与AlphaMissense相比,PATHOS同样准确地识别了蛋白质的两个关键致病性区域(DNA结合域和转录激活域),并成功预测了已知的致病突变Y890C。更重要的是,PATHOS成功检测到了AlphaMissense未能识别的一个关键LXXL基序(位于残基57附近),该基序对受体激活至关重要。同时,PATHOS没有在另一个未被UniProt注释为功能重要的LXXL基序(残基185附近)上过度预测致病性,表明其能更精准地识别与功能相关的生物重要区域。
3.6. 探究T587M突变对KCNQ1通道的影响
对钾离子通道KCNQ1的分析显示,PATHOS和AlphaMissense都检测到了两个主要的致病性区域:跨膜区域和细胞内相互作用区域。然而,对于已知会导致长QT综合征的致病突变T587M,AlphaMissense给出的预测分数为0.43(接近良性),而PATHOS则给出了0.88的高致病性分数,正确识别了这一致病突变。这展示了PATHOS在整合丰富特征后,能够发现其他领先预测工具可能遗漏的疾病相关突变。
研究结论与讨论
本研究表明,当前的蛋白质语言模型(PLMs)在致病性预测任务中具有重要价值,而小规模组合(如PATHOS采用的ESM C 600M和Ankh 2 Large组合)比使用全部模型更有效,且节省大量计算时间。尽管PATHOS仅采用简单的全连接层架构,但其性能已跻身最先进的VEPs之列,在多个数据集和评估指标上均表现出色。
PATHOS的成功得益于其整合了来自PLMs的深度序列信息以及关键的生物特征。特别是,将野生型嵌入和等位基因频率(AF)纳入模型,显著提升了预测能力。研究也发现,对所选PLMs进行微调并未带来显著的性能提升,因此PATHOS最终采用了未经微调的原始模型。
通过严格的去偏数据训练和评估,PATHOS展现出了优异的泛化能力,即使在训练中未见过或序列相似度低的蛋白质上,也能保持高预测性能。这证明了模型从有限但高质量的数据中学习到了区分致病与良性变异的稳健特征,而非记忆数据集中的特定基因偏差。
在案例分析中,PATHOS不仅能够识别与AlphaMissense一致的致病区域和突变,还能发现后者遗漏的关键功能基序(如PGR蛋白的LXXL基序)和已知致病突变(如KCNQ1的T587M突变)。这突显了PATHOS整合多种特征的价值,使其能够更全面地评估变异的生物学影响。
PATHOS的主要意义在于为临床遗传学诊断提供了一个更可靠、更精准的计算工具。它通过一个用户友好的网络服务器向科学界开放,并提供了对人类蛋白质组中约1.4亿个错义突变的预计算预测,极大地降低了非专业人士的使用门槛。此外,研究团队公开了这些突变在两大PLM中的嵌入向量,为后续研究消除了巨大的计算资源障碍,有望加速基于PLM的变异效应预测方法的发展。尽管PATHOS依赖于AF、STRING评分等可能存在数据缺失的特征,且其预测目前仅基于UniProt的规范序列,但其卓越的性能和良好的可及性,使其成为遗传病研究和临床解读中一个强有力的新工具。