蛋白质语言模型实现高精度病毒宿主范围预测：基于ESM-2嵌入的VirHostPRED框架研究

《Scientific Reports》：Protein language models enable accurate viral host range prediction

【字体：大中小】 时间：2026年02月26日 来源：Scientific Reports 3.9

编辑推荐：

　　本文介绍了一项名为VirHostPRED的前沿研究。为应对新发传染病威胁，研究人员开发了一个基于蛋白质语言模型（PLM）的计算框架，利用ESM-2生成蛋白序列嵌入，以预测单个病毒蛋白序列感染人类的可能性。研究表明，结合支持向量机-径向基函数（SVM-RBF）算法，该方法在独立测试集上取得了0.852的准确率和0.914的AUC，性能显著优于传统分子描述符（如PAAC、DPC）。该工作提供了一个高效的在线预测服务器，能为病毒监测提供早期预警和优先级排序支持。

新兴和再发传染病始终是全球健康的主要威胁之一，新冠疫情便是最生动的例证。病毒从动物宿主向人类“溢出”（spillover）的风险持续存在，准确预测哪些新发现的病毒可能对人类构成威胁，是病毒监测和流行病防备系统面临的紧迫挑战。传统上，在湿实验室进行病毒宿主范围测定是了解病原体跨种传播能力的关键，但这些方法耗时、费力，且难以应用于庞大的病毒组（virosphere）中的每一个新发现病毒。因此，科学家们致力于开发基于序列信息的计算方法，以期快速对新型病毒序列进行风险分级，为后续实验验证和风险评估提供早期信号。

机器学习模型仅依赖基因组信息，已证明可以立即识别具有人畜共患潜力的病毒，从而大幅缩小需要深入研究的候选范围。然而，传统方法通常依赖于人工设计的分子描述符，如伪氨基酸组成（PAAC）和二肽组成（DPC），这些方法仅能捕捉局部的物理化学性质，限制了其跨不同病毒类群进行泛化的能力。此外，基于同源性的比对工具（如BLAST）在面对缺乏近缘亲属的新型病毒时往往力不从心——而这恰恰是最需要进行早期风险分级的场景。基于蛋白质的视角则具有充分的生物学依据，因为病毒的宿主范围通常由介导受体结合、进入和组织嗜性（tropism）的蛋白质决定。新冠病毒的刺突蛋白就是单个病毒蛋白编码跨物种感染决定因素的绝佳例子。

为解决这些问题，研究人员在《Scientific Reports》上发表了一项题为“Protein language models enable accurate viral host range prediction”的研究，他们开发了名为VirHostPRED的新型计算框架。该框架利用蛋白质语言模型（PLM）的强大能力，直接从病毒蛋白的氨基酸序列中学习其深层特征，从而实现对病毒是否感染人类的高精度预测。这项研究的核心是探索基于进化尺度大规模预训练的蛋白质语言模型ESM-2所提取的嵌入表示，在捕捉病毒宿主特异性生物学信号方面的有效性，并将其与传统方法进行比较。

为了开展研究，作者们运用了几个关键的技术方法。首先，数据来源于NCBI Virus数据库，通过严格筛选获取了人类感染病毒（阳性类）和非人类病毒（阴性类）的完整病毒蛋白序列。使用CD-HIT算法进行去冗余处理后，构建了平衡数据集。其次，计算了两种传统分子描述符（PAAC和DPC），并从三个不同规模的ESM-2模型（ESM2-t6-8M、ESM2-t33-650M、ESM2-t48-15B）中提取了蛋白序列的嵌入表示。对于长序列（>1022个残基），采用了滑动窗口策略。然后，在标准化的特征上，系统地评估了九种机器学习分类算法（包括随机森林RF、多层感知器MLP、XGBoost、LightGBM、逻辑回归LR、支持向量机SVM等）的性能。最后，将最佳模型部署为一个基于微服务架构的、用户友好的网络服务器VirHostPRED，供公众免费使用。

结果部分的主要发现如下：

无监督投影揭示了增强的类间可分性

通过t-SNE和PCA等降维技术可视化不同特征空间，结果显示从基于组成的描述符转向PLM嵌入时，类间可分性显著提升。DPC和PAAC的投影图中，两类点云广泛重叠，无明显边界。而ESM-2嵌入，尤其是来自更大模型的嵌入，表现出渐进清晰的聚类结构。ESM2-t48-15B在t-SNE投影中产生了最紧凑、分离最清晰的点云，表明更大规模的模型能捕获比经典描述符更精细的判别性信号。

预测性能随模型规模扩展而提升

评测结果与可视化趋势一致。使用PAAC描述符时，SVM-RBF取得了最佳结果（测试集准确率0.778，AUC 0.844）。使用DPC描述符时，SVM-RBF也表现最佳（测试集准确率0.769，AUC 0.852）。当使用ESM-2嵌入时，性能随模型参数规模扩大而持续提升。具体而言：

•
ESM2-t6-8M嵌入：SVM-RBF的测试准确率为0.813，AUC为0.885。
•
ESM2-t33-650M嵌入：SVM-RBF的测试准确率提升至0.833，AUC为0.905。
•
ESM2-t48-15B嵌入：达到了最佳性能，SVM-RBF的测试准确率为0.852，AUC为0.914。

在所有评估的算法中，非线性分类器（特别是SVM-RBF，以及LGBM、XGB等集成方法）的性能普遍优于线性分类器（如LR、SVM-Linear）。交叉验证与独立测试集性能之间的差距很小（通常准确率相差小于2%），表明模型具有良好的泛化能力，没有严重过拟合。

VirHostPRED网络服务器的实现

为确保研究框架的广泛可用性，作者开发了VirHostPRED交互式网络应用。该平台允许用户以FASTA格式上传病毒蛋白序列，并实时获取基于ESM-2 15B嵌入和SVM-RBF模型计算的人类感染风险概率预测。

研究结论与讨论强调了VirHostPRED的重要意义：

研究表明，蛋白质语言模型嵌入，尤其是源自ESM-2 15B的嵌入，相较于传统的基于组成的描述符，能极大提升病毒宿主范围预测的准确性。将这类嵌入与稳健的非线性分类器（如SVM-RBF）相结合，实现了在验证集和测试集上一致的优异性能，证明了所学表示具有强大的泛化能力。

这项工作的核心价值在于，它提供了一个快速、可扩展的计算分流（triage）工具。其网络服务器VirHostPRED使研究人员和监测团队能够在无需广泛实验表征的情况下，快速评估新测序病毒蛋白感染人类的风险，从而为后续实验跟踪和风险评估提供早期预警信号。这有助于在资源有限的情况下，优化监测管线中的资源分配和病毒优先级排序。

此外，研究深入探讨了多个关键点：

1.
性能对比与优势：ESM-2嵌入（最高AUC 0.914）的性能显著超越了PAAC（AUC 0.844）和DPC（AUC 0.852）。这归因于PLM能够从数百万自然序列中学习，捕捉到包含结构、功能和进化约束的高阶、上下文相关表示，而不仅是局部物化性质。
2.
模型规模的效应：从8百万参数扩展到150亿参数，模型的判别能力持续增强，t-SNE投影中类间分离度也相应提高，这与PLM领域普遍观察到的“规模带来能力提升”的规律一致。
3.
分类器的选择：在九种算法中，SVM-RBF展现了最佳的整体性能。非线性分类器普遍优于线性分类器，说明嵌入空间中的关系是复杂的、非线性的，这对于有效捕捉宿主特异性相关的生物学特征至关重要。
4.
局限性与未来方向：研究也指出了若干局限性。例如，阴性训练集中噬菌体（bacteriophages）占比高达73.2%，这可能因原核与真核病毒的基本生物学差异而使任务相对容易，从而高估了性能。为此，作者在剔除了噬菌体的、仅包含真核病毒的更具挑战性的子集上进行了额外评估，模型仍保持了“良好”的判别能力（测试AUC 0.850），证明了其确实捕捉到了与人类感染性相关的、超越原核-真核区分的生物学特征分子信号。另一个局限性是缺乏在独立收集序列（如来自新病毒家族或地理上不同分离株）上的外部验证。未来的工作应评估VirHostPRED在面对分布变化时的稳健性。

总而言之，VirHostPRED不仅是一个实用的病毒风险评估工具，更彰显了大规模预训练模型直接从氨基酸序列中提取生物学意义的强大潜力。它代表了计算病毒学领域的一次重要进展，为加强全球大流行防备和病毒发现能力提供了新的、高效的技术路径。未来的发展将聚焦于整合结构和生态学特征、扩展宿主类群范围，并随着新病毒数据的出现持续更新模型，以进一步增强其实用性。

热点排行

新闻专题