
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于通过靶向替换分析实现高效深度突变扫描的机器学习框架
《BMC Bioinformatics》:Machine learning framework for cost effective deep mutational scanning through targeted substitution profiling
【字体: 大 中 小 】 时间:2026年05月20日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要背景深度突变扫描(DMS)能够提供蛋白质变异效应的全面图谱,但实验过程仍然较为繁琐。机器学习(ML)方法有潜力通过利用有限的数据预测替换突变的功能影响,从而减轻DMS的实验负担。结果我们引入了一种基于SARS-CoV-2主要蛋白酶(Mpro)标准化DMS评分训练的ML分类器,
深度突变扫描(DMS)能够提供蛋白质变异效应的全面图谱,但实验过程仍然较为繁琐。机器学习(ML)方法有潜力通过利用有限的数据预测替换突变的功能影响,从而减轻DMS的实验负担。
我们引入了一种基于SARS-CoV-2主要蛋白酶(Mpro)标准化DMS评分训练的ML分类器,用于将氨基酸替换分为功能性(类似野生型)和非功能性两类。通过暴力特征选择,我们确定了每个残基所需的六个替换评分的最小子集,这些评分能够准确分类其余的替换突变,即使是在最低准确率情况下,准确率也能超过90%。评估了包括支持向量机、随机森林和逻辑回归在内的模型,这些模型在未经重新训练的情况下(零样本预测)对额外的SARS-CoV-2 Mpro数据集以及不相关的数据集进行了测试。这些模型的零样本性能在其他酶类上表现最佳,而在用于评估蛋白质折叠和/或蛋白质-蛋白质相互作用的DMS系统时表现较为一般。
结果表明,将靶向DMS与ML结合使用可以降低测序和试剂成本,同时保持分类准确性,为加速变异效应预测提供了一条实用的方法。
深度突变扫描(DMS)能够提供蛋白质变异效应的全面图谱,但实验过程仍然较为繁琐。机器学习(ML)方法有潜力通过利用有限的数据预测替换突变的功能影响,从而减轻DMS的实验负担。
我们引入了一种基于SARS-CoV-2主要蛋白酶(Mpro)标准化DMS评分训练的ML分类器,用于将氨基酸替换分为功能性(类似野生型)和非功能性两类。通过暴力特征选择,我们确定了每个残基所需的六个替换评分的最小子集,这些评分能够准确分类其余的替换突变,即使是在最低准确率情况下,准确率也能超过90%。评估了包括支持向量机、随机森林和逻辑回归在内的模型,这些模型在未经重新训练的情况下(零样本预测)对额外的SARS-CoV-2 Mpro数据集以及不相关的数据集进行了测试。这些模型的零样本性能在其他酶类上表现最佳,而在用于评估蛋白质折叠和/或蛋白质-蛋白质相互作用的DMS系统时表现较为一般。
结果表明,将靶向DMS与ML结合使用可以降低测序和试剂成本,同时保持分类准确性,为加速变异效应预测提供了一条实用的方法。