基于Logan数据库的公共序列数据挖掘揭示新兴水生病原体(MrGV)的分布动态与流行病学特征

《Microbiology Spectrum》:Meta-analysis of public raw sequence data unveils the distribution and dynamics of emerging aquatic pathogens: using Macrobrachium rosenbergii golda virus as a case study

【字体: 时间:2026年02月10日 来源:Microbiology Spectrum 3.8

编辑推荐:

  本文通过创新性利用Logan数据库(基于SRA全库基因组组装)对公共序列数据(SRA)进行高效挖掘,以罗氏沼虾高拉病毒(Macrobrachium rosenbergii golda virus, MrGV)为案例,系统揭示了该新兴水生病原体的地理分布、宿主生命周期偏好(幼虫阶段高丰度)及分子进化特征,为低成本病原体监测和“One Health”全球疾病监控提供了新范式。

  
ABSTRACT
对公共存档序列数据中的新兴水生动物病原体进行搜索,是一种强大但具有挑战性的方法,可用于增进我们对新识别或特征不清的生物体的了解。然而,在序列读取档案(SRA)数据库中搜索目标序列需要大量的时间、数据存储和计算能力,限制了其可访问性。利用新的Logan数据库,我们对SRA数据集进行了荟萃分析,以调查一种新兴病毒——罗氏沼虾高拉病毒(MrGV)的存在情况。MrGV于2020年首次在孟加拉国孵化场反复大规模死亡的罗氏沼虾幼虫中被鉴定。此后,在中国中部沿海的江苏省有两份独立报告,以及在印度的一次幼虫死亡事件中检测到该病毒。本研究发现了MrGV存在于中国南方的两个额外省份、泰国和印度。我们还发现了分子证据,证实了先前怀疑的该病毒早在2011年就在南亚罗氏沼虾种群中传播,并且基于相对丰度,MrGV主要与幼虫阶段相关。总体而言,在科学文献中大部分未发表的数据库中发现MrGV序列,为我们了解病原体生物学提供了新的见解,包括MrGV的全球流行情况以及应筛查对虾的哪个生命阶段以防止病毒传播。这项工作说明了如何利用公共测序数据挖掘,辅以Logan等数据库和标准化的元数据提交,来支持具有成本效益的病原体流行病学研究,并加强全球疾病监测的“One Health”方法。
IMPORTANCE
在序列读取档案(SRA)数据库中搜索目标序列需要大量的时间、数据存储和计算能力,限制了其可访问性。本研究展示了如何利用基于SRA全库基因组组装构建的Logan数据库,快速高效地在SRA数据库中找到目标序列,从而将这些公开可用的数据集的应用扩展到其最初预期目的之外。在此,我们搜索了对虾中的一种新兴病毒——罗氏沼虾高拉病毒,以揭示其地理分布、宿主范围和相对丰度,而无需额外采样。我们展示了如何谨慎应用这种方法,同时改进元数据的质量和可访问性,从而利用测序数据集揭示病原体生物学的关键见解。这种数据挖掘可以为全球新兴、再发和罕见病原体的流行病学研究增添原本未知的数据,从而确定病原体在种群内部和种群之间的传播情况。
INTRODUCTION
巨型河流对虾罗氏沼虾是全球热带和亚热带地区的关键水产养殖物种,但由于多种疾病,其生产面临问题。罗氏沼虾高拉病毒(MrGV)于2020年首次在罗氏沼虾幼虫阶段被鉴定,与孟加拉国南部多个对虾孵化场的死亡事件相关。中国的两份罗氏沼虾后期幼体和幼体/成体的宏转录组数据集检测到了该病毒的存在;然而,仅在一只动物中记录了疾病或不良状况。在本研究进行期间,一项对2024年7月至9月印度罗氏沼虾孵化场大规模死亡事件的调查发现MrGV是致病因子。尽管有这些发现,MrGV在全球沼虾属物种中的存在程度在很大程度上仍是未知的。
MrGV属于巢病毒目,是具包膜的正链单股RNA病毒。巢病毒具有广泛的宿主范围,包括脊椎动物和无脊椎动物。感染无脊椎动物的巢病毒与能够感染脊椎动物(包括SARS-CoV-2)的病毒相比是一个较小的群体;然而,通过宏转录组病毒发现研究,人们对其多样性的了解正在加深。Roniviridae科内的病毒是一些最广为人知的无脊椎动物相关巢病毒,包括黄头病毒,其中黄头病毒基因型1因其与对虾大规模死亡相关而被世界动物卫生组织列为须通报疾病。自被鉴定以来,MrGV已被国际病毒分类委员会正式认可并命名为Nimanivirus lahi,隶属于新设立的Roniviridae科的第二个属Nimanivirus
随着更多研究产生短读长宏基因组、转录组和宏转录组数据以回答特定的研究问题,序列读取档案(SRA)数据库几乎呈指数级扩张。以前,在SRA数据库中搜索目标序列以解决各种研究问题需要耗费巨大的时间、数据存储和计算资源,使得SRA数据集的筛查对大多数用户来说难以实现。通过利用大规模云计算资源进行SRA全库基因组组装,Logan的DNA和RNA序列数据集减少了SRA数据集的冗余和数据量,使得用户可以更高效、更低成本地搜索这些数据。
在本研究中,我们对截至2023年12月的沼虾属SRA数据库进行了MrGV序列的荟萃分析,使用Logan组装的SRA来进一步描述该病毒的地理传播情况;利用系统发育学确定MrGV核苷酸序列的差异是否与地理位置相关;以及确定存在MrGV序列的物种和生命阶段,从而展示Logan数据库如何用于为疾病流行病学研究提供信息。
MATERIALS AND METHODS
Selecting SRA accessions and mapping Logan contigs
选择了在2023年12月10日之前提交至NCBI SRA数据库的所有沼虾属物种的转录组Logan组装数据,用于挖掘MrGV序列。使用minimap2将Logan组装的contigs映射到MrGV参考基因组。如果样本至少有90%的碱基被至少一个contig覆盖,则被视为MrGV阳性。
Relative abundance of MrGV reads
为了计算包含映射到参考基因组的Logan组装contig的SRA数据集中MrGV的相对丰度,将MrGV阳性SRA数据集中的原始读段映射到MrGV参考基因组。将MrGV的存在计算为每百万读段中的MrGV读段数,并使用反双曲正弦函数进行转换。
Construction of consensus MrGV genome sequences
将基因组覆盖率超过90%的SRA数据集的生物学重复读段合并,映射到MrGV参考基因组,以增加覆盖率并增强识别小核苷酸多态性的可能性。使用SAMtools生成一致性序列。然后将合并的原始读段重新映射到生成的一致性序列,并使用Snippy调用SNP。使用BCFtools包生成每个SRA数据集中可变位点包含IUPAC代码的一致性基因组。
Phylogenetic analysis
使用MAFFT对包含IUPAC格式的简并核苷酸位置的完整MrGV基因组以及公开可用的MrGV基因组进行多序列比对。使用MrBayes基于MSA构建贝叶斯共识树。基于ORF3序列构建了第二个贝叶斯共识树。
RESULTS
MrGV presence in Macrobrachium spp. SRA data sets
总共筛选了965个源自RNA的沼虾属SRA数据集是否存在MrGV。仅在罗氏沼虾SRA数据集中发现存在MrGV,出现在所有生命阶段,但明显偏好于幼虫阶段。在27%的罗氏沼虾胚胎SRA数据集、61%的幼虫SRA数据集、41%的后期幼体SRA数据集和7%的幼体/成体SRA数据集中映射到MrGV的读段。与其他生命阶段相比,幼虫中MrGV的相对丰度显著更高。幼虫的MrGV读段相对丰度中位数为6,013读段/百万,而胚胎、后期幼体和成体的中位数相对丰度分别为3.73、510.92和0.021读段/百万。MrGV基因组上的覆盖率并不均匀,大部分读段映射到病毒的3'端。
The relative abundance of MrGV increases over larval development
似乎与罗氏沼虾幼虫阶段在不同盐度下的定时发育研究相关的SRA数据集显示,在发育的前20天内,MrGV读段存在量增加。这些缺乏相关发表物的BioProject,在孵化后0、6、12、24、48小时以及第5、10、20天对幼虫进行三重采样。幼虫在5、15和25的盐度下发育。当使用反双曲正弦函数转换并绘图时,MrGV相对丰度在不同盐度下发育的幼虫中遵循相同的模式,在孵化后10-15天达到峰值,然后趋于稳定。平均MrGV相对丰度在孵化后2天之前保持在10读段/百万以下,之后平均MrGV读段增加到200至625读段/百万之间。通常,MrGV相对丰度持续增加,在第5至10天之间达到约7,000读段/百万,并维持到实验结束的第20天。
MrGV也存在于罗氏沼虾胚胎中。映射到MrGV的读段的胚胎SRA数据集源自一个BioProject。该BioProject似乎研究了罗氏沼虾在胚胎发育过程中的转录组;然而,未找到相关发表物,且无法将这些胚胎与盐度挑战的幼虫联系起来。MrGV读段存在于胚胎发育所有阶段的所有重复中。然而,MrGV读段数量随时间没有变化,在整个研究过程中保持持续低相对丰度,平均在每百万2到8个MrGV读段之间。
MrGV sequence type varies by location
总共使用88个SRA数据集组装了30个新的MrGV基因组。将同一BioProject内的生物学重复读段合并以增加MrGV覆盖率和调用SNP的能力。另外从NCBI GenBank获得了6个MrGV基因组。在36个MrGV基因组中,31个源自中国,2个源自泰国,2个源自印度,1个源自孟加拉国。中国的31个基因组源自三个省份:中国东南部两个相邻的省份广东和广西,以及中国东部的一个省份江苏。源自以色列、马来西亚或越南的罗氏沼虾SRA数据集的Logan contig均未映射到MrGV参考基因组。
基于所有完整MrGV基因组构建的中点根贝叶斯树表明,来自每个地点的MrGV彼此独立分枝。来自泰国、印度和孟加拉国的MrGV作为不同的、完全支持的分支。来自中国每个省份的MrGV也独立分枝,每个分支都得到完全支持。来自地理上接近的广东和广西两省的MrGV作为姐妹分支,而来自地理上遥远的江苏的MrGV则独立分枝。江苏是唯一存在覆盖多年SRA数据集的地点;尽管存在这种时间差异,MrGV基因组仍然聚集在一起。
导致不同地点MrGV独立分枝的核苷酸差异遍布MrGV基因组,其中大多数核苷酸差异(86.27%)并未导致 resulting 氨基酸序列发生变化。MrGV基因组组织成四个主要ORF。引起氨基酸序列改变的碱基变化在ORF1a、ORF1b、ORF2和ORF3中分别占13.68%、11.82%、10.00%和21.18%。ORF1b内关键巢病毒蛋白基序中的氨基酸变化很少。ORF3 5'端一个大的非胞质域包含14个导致氨基酸序列改变的位点。由于与SRA数据集相关的元数据有限,无法确定这些糖蛋白序列的差异是否赋予了MrGV毒力或致病性的差异。由于序列覆盖率低,未评估MrGV基因组5'非翻译区的变异;然而,已知包含巢病毒二级RNA结构的3' UTR在所有地点的MrGV基因组之间高度保守。
基于所有存在完整ORF3序列的SRA(或串联的生物学重复)的ORF3核苷酸序列的MSA构建了第二个贝叶斯共识树。由于整个MrGV基因组的覆盖率不均匀,选择ORF3是因为它具有最高的覆盖率和最多的SRA可用的序列。与基于完整基因组构建的树相比,该树具有更多的并系分支,并且通常具有较低的后验概率。然而,与完整基因组生成的树一样,来自广东和广西的样本以最大支持度与其他MrGV样本分开分枝,并且在该分支内,它们作为高度支持的姐妹分支。来自江苏的样本也形成了一个独立的分支,但支持度低于完整基因组构建的树。
DISCUSSION
本研究发现MrGV存在于亚洲多个地点的罗氏沼虾SRA数据集中。除了地理分布,我们确定MrGV的存在和高相对丰度与罗氏沼虾的幼虫生命阶段高度相关,并且显然不存在于沼虾属的其他物种中,尽管其他沼虾物种幼虫阶段的SRA数据集有限。尽管幼体和成体SRA构成了罗氏沼虾数据集的最大部分,但很少有动物的Logan contig映射到MrGV基因组,且MrGV相对丰度较低。
孟加拉国罗氏沼虾幼虫的大规模死亡首次发生于2011年。本研究显示,在孟加拉国开始发生死亡的同时,MrGV也存在于印度奥里萨邦的幼虫和后期幼体中;然而,与印度这些幼虫和后期幼体相关的元数据表明这些动物是健康的。有趣的是,将MrGV描述为2024年印度罗氏沼虾孵化场大规模死亡致病因子的研究来自印度同一研究所,该所在2011年提交了我们发现含有MrGV的SRA数据集。未来的研究应旨在了解MrGV如何在2011年进入孟加拉国和印度的孵化场,并确定如果MrGV自2011年以来就存在于奥里萨邦,为何直到最近才开始发生死亡。应特别关注罗氏沼虾遗传学或饲养条件是否在幼虫对MrGV的易感性中起作用。
我们在罗氏沼虾胚胎发育所有阶段的SRA数据集中发现了MrGV读段,这表明垂直传播是一种可能性。收集野生和/或未经筛查的抱卵雌性罗氏沼虾作为孵化场的亲虾可能是MrGV传入孵化场的一种途径。压力长期以来被认为是水产养殖中疾病进展的主要促进因素,养殖条件的压力可能是幼虫对MrGV感染易感性的一个因素。罗氏沼虾幼虫在13‰的盐度下表现最佳;因此,在高于或低于此值的盐度下养殖罗氏沼虾幼虫(例如BioProject PRJNA864119和PRJNA891247中使用的盐度)所带来的盐度胁迫可能使动物易受MrGV感染。
幼虫发育过程中MrGV相对丰度的变化提供了关于MrGV在对虾幼虫体内变得丰富的发育时间点的知识。MrGV相对丰度的初始增加与孵化后2天的幼虫相关,MrGV相对丰度在孵化后5至10天达到峰值然后趋于稳定。MrGV相对丰度的增加与罗氏沼虾幼虫通常处于溞状幼体III期的时间相吻合。
本研究受到SRA数据库相关元数据中存在大量数据差距和不一致性的限制。最重大的挑战之一是无法通过BioProject、BioSample或SRA标识符将发表物与数据集链接起来以填补这些元数据空白。由于这些缺失数据,特别是与健康状况、疾病临床症状或测序组织相关的数据,我们无法将MrGV的存在与健康状况不佳或濒死状态关联起来。当前研究还受到SRA数据库中幼虫数据集数量的限制。由于Logan数据库仅包含2023年底之前SRA中可用的数据,因此除了罗氏沼虾之外,没有其他沼虾物种幼虫阶段的组装SRA序列可用,并且后期幼体的SRA数据集仅限于45个来自日本沼虾的数据集和1个来自澳大利亚沼虾的数据集。鉴于这些限制,我们不能 confidently 确定MrGV的宿主范围仅限于罗氏沼虾,假设如果它能够感染其他沼虾物种,则主要与幼虫阶段相关。
SRA元数据中缺乏关于宿主健康状况的信息,意味着不可能将关键MrGV基序中的任何氨基酸变化与MrGV的感染性联系起来。没有一致、全面的元数据,可靠地解释测序数据仍然具有挑战性。谨慎应用这种方法,同时改进元数据的质量和可访问性,可以揭示关于病原体生物学、传播和控制的关键见解。
Summary
本研究展示了如何利用Logan数据库快速高效地在SRA数据库中找到目标序列,从而将这些公开可用的测序数据集的应用扩展到其最初预期目的之外。在此,我们使用Logan数据库搜索了对虾中的一种新兴病毒(MrGV),并展示了这如何能够增加关于该病毒的宝贵知识,包括地理分布、宿主范围和相对丰度,而无需额外采样或实验感染。然而,与SRA数据集相关的元数据通常输入不一致且维护不善。仔细应用这种方法,同时改进元数据的质量和可访问性,可以揭示关于病原体生物学、传播和控制的关键见解。这项研究说明了挖掘公共测序数据如何能够支持具有成本效益的病原体监测,并加强全球疾病监测的“One Health”方法。这种类型的调查可以为全球新兴、再发和罕见病原体的流行病学研究增添原本未知的数据,从而确定病原体在种群内部和种群之间的传播,并指导应筛查系统的哪些部分以防止病原体传播。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号