实时追踪与谱系分型:Nextstrain平台如何强化拉沙病毒的基因组监测与全球公共卫生应对

《Emerging Microbes & Infections》:Lassa Virus Live Tracking and Lineage Assignment: How Nextstrain Can Enhance Surveillance and Public Health in Africa and Beyond

【字体: 时间:2026年03月09日 来源:Emerging Microbes & Infections 7.5

编辑推荐:

  本文介绍了为拉沙病毒(LASV)定制的Nextstrain与Nextclade开源分析资源,实现了实时进化树可视化、谱系快速分型与关键突变(如GPC A76)追踪。这些工具旨在解决西非地区基因组数据共享延迟、谱系注释不足的挑战,以支持疫情响应、临床决策(如指导单抗疗法选择)和全球公共卫生监测。

  
拉沙病毒基因组监测的现状与挑战
拉沙病毒(LASV)是一种在西非流行的、由啮齿动物传播的病毒,可引起严重的病毒性出血热——拉沙热。基因组监测对于理解病毒多样性、传播动态和不同谱系的分布至关重要。然而,当前LASV的基因组监测模式存在显著不平衡和数据延迟。截至2025年9月30日,公共数据库中的LASV序列主要来自尼日利亚(58.0%),其次是几内亚、塞拉利昂等国。样本宿主以人类和主要储存宿主Mastomys natalensis为主。一个关键问题是样本采集到序列公开发布之间存在严重延迟:虽然近几十年来延迟时间在持续缩短,但过去五年的平均延迟仍约为2.18年。这种数据共享的障碍和延迟,可能源于资源有限、基础设施不足以及以往与疫情报告相关的污名化和政治影响,从而阻碍了全面的监测和及时的公共卫生应对。
面向全球的拉沙病毒实时系统发育树
为了支持近实时的基因组监测,研究团队在Nextstrain平台上开发了三棵公开可访问、开源且持续更新的系统发育树,分别针对LASV的大片段(L segment)、小片段(S segment)以及糖蛋白复合体(GPC)基因。这些树可以在分歧尺度或推断的时间尺度上查看,并支持按国家、宿主或谱系等元数据进行交互式着色。其中,GPC构建的树包含的序列最多,在可视化抗原多样性和发现潜在免疫逃逸轨迹方面具有更高分辨率。此外,平台还提供了一个“缠结图”视图,用于链接L和S片段树上相同的分离株,以辅助检测可能的重配事件。系统发育分析显示,谱系II在所有数据集中占主导地位,其次是IV/V谱系。分析还发现,谱系III内部的主要亚谱系分化时间早于谱系IV和V之间的分化,这一顺序在两个基因组片段上是一致的。
由Nextstrain实现的拉沙病毒实时谱系地理可视化
Nextstrain平台能够实现LASV的实时谱系地理可视化,通过动态地图整合序列数据和采样日期,以追踪谱系在空间和时间上的移动。分析结果与早期研究一致,表明尼日利亚很可能是最近共同祖先最可能的地理起源状态。可视化显示了病毒谱系从尼日利亚向贝宁、利比里亚传播的可能历史路径,以及谱系VII从贝宁向西经多哥进入加纳的潜在轨迹。谱系II在贝宁共和国的检测也提示了从尼日利亚南部的跨境传播。这些地理谱系洞察为了解西非的LASV传播动态和追踪全球输入病例提供了历史和现实背景。
通过Nextstrain追踪重要的GPC突变
GPC是病毒进入宿主细胞的关键表面蛋白,也是宿主免疫和治疗性单克隆抗体的主要靶点。为了进行针对性监测,团队构建了独立于S片段其余部分的GPC特异性系统发育树。该树完全交互,可以按国家、谱系或用户选择的氨基酸变化进行着色。作为一个示例,研究可视化展示了GPC第76位氨基酸的变异情况,该位点位于广谱中和抗体25.10C的表位内。在构建的GPC树中,丙氨酸(A76)在主要流行于尼日利亚南部的谱系II中极为普遍。尽管深度突变扫描数据显示第228位是更强的25.10C逃逸决定因素,但第76位因其结构上的重要性仍具有免疫学意义。该平台允许用户近乎实时地查询任何氨基酸变化在系统发育树上的分布和频率,有助于临床和公共卫生人员跟踪具有潜在免疫或治疗相关性的突变出现与传播。
利用Nextclade进行拉沙病毒的快速谱系分型
针对LASV基因组的分段特性以及测序方法可能靶向不同区域的情况,研究团队开发了三个专用于Nextclade平台的数据集,分别针对GPC基因、L片段和S片段。用户上传序列后,Nextclade可快速进行突变识别、谱系分配,并将序列放置在标准化的参考树上。其中,GPC数据集针对该基因频繁被测序的特点进行了优化;L和S数据集则分别基于各自的片段。谱系分配遵循已有的LASV研究体系,并将遗传距离接近的谱系IV和V合并为IV/V。这些工具旨在满足对快速、准确谱系分型以指导临床决策和公共卫生干预的迫切需求。
LASV Nextclade构建体与CLASV可区分LASV与其他哺乳动物沙粒病毒
为避免将其他哺乳动物沙粒病毒误判为LASV导致临床误诊,研究通过调整“最小种子覆盖度”参数,优化了Nextclade构建体的相似性筛选门槛。经验证,L片段、S片段和GPC构建体的最佳阈值分别为0.120、0.220和0.220。在包含LASV及其他多种哺乳动物沙粒病毒的综合性测试集上,所有工具都能有效区分LASV。其中,L片段Nextclade构建体表现最佳(马修斯相关系数MCC = 0.974)。错误分析表明,假阳性结果多由加罗病毒等近期描述的病毒,或序列长度过短导致。这证实了优化后的Nextclade工具能有效减少假阳性和假阴性。
LASV Nextclade构建体能够准确分配谱系
对Nextclade工具谱系分配准确性的评估分为两部分。首先,在包含已知谱系的测试集上,L、S和GPC三个Nextclade构建体对所有序列的谱系分配都达到了100%正确。团队之前开发的机器学习工具CLASV也表现出色,尽管在不同谱系间存在性能差异,例如对谱系VII的准确率较低。其次,为了更严格地评估泛化能力,研究使用了一个完全排除在参考树构建之外的独立GPC序列集进行验证。结果显示,GPC Nextclade构建体在该验证集上对所有谱系的分配达到了100%准确;S片段构建体对谱系II、III、IV/V的分配完全正确,仅在谱系VI和VII上出现个别未分类或误分类。这表明Nextclade工具不仅能准确分配已知序列的谱系,还能很好地泛化到新的、未见过的序列。
通过系统发育树可视化减少错误结果
Nextclade会将新序列快速放置在参考树上,用户可通过可视化树结构来识别潜在的错误分类。分析显示,在测试中出现的假阳性序列(非LASV但被分配了LASV谱系)在树上通常表现为异常长的分支长度,明显区别于真正的LASV序列簇。例如,加罗病毒的序列在S片段树上并未形成一个单系群,而是分散在不同的簇中,这引发了关于其与LASV进化关系的新问题。因此,在解读Nextclade结果时,结合树形结构进行视觉检查,可以进一步降低因序列不完整或进化关系接近而导致的误判风险。
讨论与展望
本研究开发的一系列开源资源,为LASV的快速、交互式基因组监测和谱系分型提供了及时、可扩展的解决方案。实时谱系地理可视化增强了对传播动态的理解,而GPC特异性突变追踪则为治疗策略(如单抗选择)提供了信息。优化后的Nextclade工具能准确区分LASV并分配谱系,与CLASV工具形成互补。然而,当前LASV基因组采样不均、数据共享严重延迟(平均>2年)是工具效用和全球公共卫生应对的主要限制。研究呼吁公共卫生当局解决数据共享障碍,加速高质量序列的及时公开。随着测序工作的扩展,这些将持续维护更新的工具,将在支持实时追踪、风险评估和加强全球疫情准备方面发挥关键作用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号