《Applied and Environmental Microbiology》:Metagenome-based vertical profiling of the Gulf of Mexico highlights its uniqueness and far-reaching effects of freshwater input
编辑推荐:
本研究通过宏基因组测序对墨西哥湾(GoM)水体垂直梯度(表层至2000米深)的微生物群落进行深入剖析,揭示了其显著区别于其他海盆的独特多样性。研究发现,约54%的预测基因序列为站位特异性,154个中高质量宏基因组组装基因组(MAGs)中145个代表新物种,凸显了GoM巨大的未知基因组多样性。尤为值得注意的是,在距海岸270英里、600米深的水体中检测到淡水来源MAGs的相对丰度较高,表明密西西比河等淡水输入的影响可深远且持久。此外,1,447个直系同源基因群(COGs)与深度显著相关,包括β-内酰胺酶、脱氢酶和CoA相关氧化还原酶等功能基因,为理解微生物功能适应深海环境提供了新见解。本研究为海洋微生物多样性管理和建模提供了重要数据支撑。
研究背景
尽管通过(主要)不依赖培养的宏基因组学方法发现了越来越多的现存微生物多样性,但大部分多样性尚未被揭示,尤其是像海洋这样的巨大环境。编目这种多样性对于更好地理解这种强大的生物地球化学力量在动态变化的世界中可能受到的影响至关重要。过去二十年中,已经努力收集覆盖全球海洋代表性部分的宏基因组样本。然而,由于从每个新样本中仍在获得更多见解,显然需要在空间和时间上进行更多采样,特别是在像墨西哥湾这样对人类活动重要且受其影响巨大但仍采样不足的区域。
研究站位
水柱样本是在2012年5月R/V Endeavor巡航EN509期间通过温盐深剖面仪(CTD)采水器采集的。从墨西哥湾西北部的三个站位(2、5和8)的表层(约3米)、混合层(ML; 15–25米)、深层叶绿素最大值(DCM; 70–90米)、DCM以下但氧气最小值(OM)深度以上(aOM; 100–150米)以及OM深度(200–400米)进行了鸟枪法宏基因组测序。在5号站位的OM深度以下(深部;600、1,000、1,470和2,107米)额外测序了四个宏基因组。
宏基因组统计
测序量(除EN56样本外意外测序深约3.4倍)范围为3至5 Gbp(千兆碱基对),平均覆盖了采样微生物群落估计序列多样性的58%。测序工作量覆盖的Nonpareil多样性(Npc)随深度增加而减少(皮尔逊r = -0.32),推测是由于在更深样本中观察到的基因组增大和微生物多样性增加。组装的重叠群数量、总组装长度(Mbp)和预测的编码序列(CDS)与测序工作量呈中等相关(皮尔逊r ~ 0.6),而组装N50仅呈弱相关(皮尔逊r = 0.31)。排除EN56样本,平均每个样本回收约64,500个重叠群和195,000个CDS。
微生物群落指标
除EN21样本外,平均基因组大小与密度相关性最强(皮尔逊r = 0.86),其次是温度(皮尔逊r = -0.80)和深度(皮尔逊r = 0.67),表明微生物基因组大小在密度更大、更冷、更深的水团中增加。同样,G+C%含量也随密度增加而最强增加(皮尔逊r = 0.88),其次是温度(皮尔逊r = -0.87)和深度(皮尔逊r = 0.58)。虽然所有样本的Alpha多样性与深度的相关性较弱(皮尔逊r = 0.37),但当分别考虑每个采样站位时,Alpha多样性与深度的相关性更强(站位2、8和5的皮尔逊r分别为0.60、0.68和0.77),这也表明在密度更大、更冷、更深的水团中Alpha多样性增加,并暗示基因组大小增加与G+C%含量和Alpha多样性增加相关,这证实了先前的研究。
基于对公开基因组数据库的宏基因组读段进行 taxonomic 注释(Kraken2和Bracken结果),从5号和8号站位的表层和混合层样本中分类的微生物群落比例最大(约20%对比<10%),并且在任何样本中分类的微生物群落不超过25%,表明GoM水柱群落在可用基因组数据库中的代表性不足。虽然样本EN21、EN84和EN56在分类组成上与其深度层的其他样本最不相似,但基于短读段、kmer的Beta多样性聚类显示按深度层的相似性大于按采样站位。即使将GoM样本与其他海盆的公开宏基因组样本进行比较,这种深度层相似性仍然成立。有趣的是,与北大西洋、南大西洋和太平洋样本相比,GoM的Alpha多样性显著较低(P < 0.05)。
在所有样本中,原绿球菌(Prochlorococcus)和Pelagibacter属的成员丰度最高(最大累积相对丰度分别为12.5%和5.3%),在DCM至表层的样本中丰度最大(> 1%相对丰度,DCM及以上对比< 1%以下)。原绿球菌在DCM以下基本不存在(< 0.1%),而一些Pelagibacter物种仍然是深水群落的重要成员,尽管它们在DCM以下的相对丰度要低得多(0.%–0.7%)。与DCM及以上的其他样本相比,样本EN21中原绿球菌和Pelagibacter物种的相对丰度大大降低(<0.2%)。事实上,2号站位的表层和混合层样本的分类丰度谱与5号和8号站位的看起来截然不同,但所有站位的DCM、aOM和OM谱看起来高度相似,表明存在来自海岸邻近性的信号和/或密西西比河的淡水河流输出对该站位的混合层和表层微生物组合有巨大影响。
功能基因含量分析
为了评估我们GoM宏基因组样本中每个站位(垂直)或每个深度层(水平)捕获的序列保守性和多样性,我们对从组装的重叠群预测的CDS在90%和95%核苷酸序列同一性以及40%和70%氨基酸序列同一性下进行了聚类,针对每个深度层(表层、混合层、DCM、aOM、OM和深部)、每个站位(2、5、8)和所有站位(表层OM和所有深度)的各种样本分组进行了分析。如果某个基因簇包含某个分组中所有样本的CDS序列,则计为共享基因;如果包含该分组中两个或更多(但非全部)样本的CDS序列,则计为柔性基因;如果是单例(仅包含1个CDS序列的簇)或仅包含单个样本的CDS序列,则计为站位特异性基因。该分析显示,在同一深度层跨不同站位采集的三个样本中,高达35%的基因(OM层90%核苷酸和40%及70%氨基酸簇)是水平共享的(平均约24%),但在同一站位采集的上五个深度层中,只有最多4%的基因序列是垂直共享的(平均约3%)。表层和深部层显示水平共享的基因序列最少,可能由于样本EN21和EN56在其他分析中表现为异常值。包含样本EN84的aOM层也是一个异常值,并且在该深度层内共享的基因略少于混合层、DCM或OM层。有趣的是,该分析强调,所有样本中67%的基因包含在95%序列同一性水平上为站位特异性的核苷酸CDS序列,揭示了海洋蕴藏的巨大序列多样性,并且我们的测序工作远未发现其全部。事实上,即使在40%氨基酸序列同一性下聚类CDS序列,60%的基因被发现是特定样本独有的(即站位特异性),并且任何两个样本之间共享基因的最大百分比是来自90%核苷酸序列同一性基因簇的56%。
为了评估测序工作量或测序多样性覆盖不完全在多大程度上影响了样本间共享基因的比例,我们对每个宏基因组进行了二次抽样,随机无放回地选择总读段的25%、50%和75%。然后组装二次抽样的宏基因组,预测CDS,并在每个二次抽样集内分别在40%氨基酸同一性下聚类基因。该分析显示,在25%二次抽样和完整集(100%样本)之间发现的最大差异仅是共享基因减少8.71%。这一结果表明共享基因与特异性基因的比率随测序工作量而变化,并且即使我们进行更深入的测序,也应该预期与上述报告类似的结果(但可能不会深到覆盖样本估计序列多样性的>99%,根据Nonpareil分析,估计平均需要92 ± 31 Gbp才能实现)。这也与我们来自样本EN56的观察结果一致,即站位特异性基因序列的回收也随测序工作量而变化。
基于COG类别和类别的功能分析显示,在广泛类别水平上,除代谢1类和E类别(氨基酸转运和代谢)的方差分别为9.21%和2%外,所有站位和深度的基因功能分布相似(约1%方差)。移动(X类别)类基因方差最小,但也构成最小的基因比例(2%或更少)。样本EN21和EN26在所有样本中拥有最大比例的假设(“n/a”类别)、保守假设(S类别 – 功能未知)和移动(X类别)类基因,以及最小比例的代谢1(C、G、E、F、H和I类别)和代谢2(Q和P类别)类基因。在代谢基因中,样本EN21和EN26在所有样本中拥有最小比例的P类别(无机离子转运和代谢)、I类别(脂质转运和代谢)、E类别(氨基酸转运和代谢)和C类别(能量产生和转换)基因。最后,平均每个样本约有50,000个基因(约预测CDS的22%)未获得注释且未在COG分析中体现。样本EN21未注释基因比例最大,为38%,比未注释基因计数排名第二的样本高出8%。
为了更深入探究,我们专注于在5号站位从表层到深部所有样本之间共享且获得非假设功能注释的基因序列。我们将每个宏基因组的读段映射到源自该宏基因组的每个单独基因序列,并计算每个基因在每个样本中的标准化相对丰度。接下来,我们对每个样本中分配了相同基因功能的所有基因的相对丰度求和。我们计算了汇总基因与密度的相关性,密度与温度和深度强相关。5号站位的7,508个共享基因序列被分配给2,544个基因功能。其中,1,108个功能显示与密度强正相关(皮尔逊r ≥ 0.5)。另外339个功能显示与密度强负相关(皮尔逊r ≤ 0.5),其余1,097个功能显示弱相关或无相关性(-0.5 < 皮尔逊r < 0.5)。该分析显示86个不同的脱氢酶基因和27个氧化还原酶基因与深度正相关(皮尔逊r ≥ 0.5)。同样,它显示21个不同的脱氢酶基因和3个氧化还原酶基因与深度负相关(皮尔逊r ≤ -0.5)。此外,还有62个正相关和9个负相关的CoA相关基因、不同的50S核糖体蛋白和磷酸果糖激酶,以及β-内酰胺酶和转座酶,它们在更冷、更深的水团中丰度增加。定性地看,某个功能相对丰度的增加通常与该功能在群落中基因数量的增加相吻合(即更多基因组或物种拥有相同功能的不同拷贝),但也存在一个或仅少数基因序列(或等位基因)丰度大大增加的例子(即携带该基因的特定群落成员变得更多)。我们在此没有进一步报告表层和深部之间差异存在/缺失的基因序列,因为这些基因的相对丰度在某些样本中低于检测限,并且仅5号站位就包含超过430,000个基因序列,其中304,072个基因序列(5号站位所有CDS的69%)是特定于单个样本的,其中许多功能未知/假设。
rMAGs描述
总共,我们从GoM宏基因组样本中回收了209个rMAGs,其中154个质量良好,完整性≥ 50%且污染≤ 10%。其中,145个与MiGA的NCBI Prok和Tara Oceans MAGs数据库相比共享< 95% AAI,表明它们可能代表新物种。这些MAGs中约有一半与GTDB参考基因组有>95% ANI匹配(n = 72),表明相关基因组已被先前研究回收但尚未命名。有趣的是,209个rMAGs中的168个(80%)仅从一个样本组装而成,209个rMAGs中的67个(32%)仅在一个样本中可检测到(相对丰度 > 0)。此外,在单个样本中检测到的67个rMAGs中,有59个在样本EN56中检测到,8个在样本EN21中检测到。其余的rMAGs在样本集中表现出七种不同的相对丰度模式。一些rMAGs在表层和混合层或仅在DCM中可检测到,而其他一些在表层、混合层和DCM中检测到。类似地,一些rMAGs仅在aOM和OM中检测到,而一些在aOM、OM和深部或DCM、aOM和OM中检测到。只有四个rMAGs仅在深部检测到。没有rMAGs在所有深度层或所有样本中可检测到,但有几个在深水和浅水中都可检测到,揭示了跨水柱的显著多功能性。后者MAGs包括Alteromonas macleodii(与最接近可用基因组的AAI为97%)和Desulfuromonas sp.(与Desulfuromonas soudanensis的AAI为40%),它们在表层(0–200米)和深部(>1,000米)都显示出相对较高的丰度。
讨论
总的来说,我们的结果表明,GoM中很大一部分微生物多样性在数据库可用的基因组和基因中是未知的,至少在物种水平上是如此,甚至分配给已知属或科的rMAGs也主要代表新物种。在读段水平上,最多只有25%的微生物群落能被分类为代表已知(已命名)物种,进一步证实了GoM水柱群落在培养和非培养数据库中的代表性不足。因此,即使对于像海洋这样被认为现在已经很好表征的环境,进行测序工作以表征其多样性仍然值得,以便编目地球上现存的多样性。可能是由于GoM不仅靠近主要人类种群和活动,而且其不寻常的石油渗漏和密西西比河等主要河流的影响,使得它拥有比其他海洋不成比例的更多基因组多样性。GoM宏基因组显示出与先前表征的其他海盆(如北大西洋、南大西洋和太平洋)不同的Alpha多样性(P < 0.05)也与这一解释一致。
我们分析的另一个亮点是仅特定于单个样本的基因序列数量很高。虽然预期在相似深度(水平)比在深度之间(垂直)发现更多共享基因,但垂直共享的基因数量相当低,而站位特异性基因序列的比例相应地很高。例如,我们的分析显示,所有样本中67%的基因在95%核苷酸同一性水平上代表独特序列,并且任何两个样本之间共享基因的最大百分比在此同一性水平上仅为约56%。我们的预测是,即使测序工作量增加5或10倍,站位特异性基因多样性的减少量也将低于10%。与这些结果一致的是,样本EN56测序工作量增加340%相对于其他样本并未导致序列回收或共享基因序列的比例超出其他样本的范围,这也表明站位特异性基因序列随测序工作量而变化,推测是由于稀有生物圈的序列回收增加。这些结果在某种程度上呼应了同一物种分离株基因组比较分析揭示的大量基因组特异性基因(例如,>50%的总检测基因),表明泛基因组的概念可能同样适用于整个群落,而不仅仅是物种内的多样性。此外,我们的结果表明,构成物种泛基因组大部分的辅助基因在GoM中不同物种的泛基因组之间基本上不共享;否则,我们会观察到相对较小(或更饱和)的群落泛基因组。也许这些结果至少部分可归因于海洋微生物的浮游性质,因为种群混合和迁移的参数受洋流控制,其中占据相同生态位空间的相似物种在分离的水团中漂移,并通过中性进化过程分化。也可能这些洋流、水团、渗漏和河流输入的影响因GoM相对于其他海盆的独特特征而更加突出。
同样值得注意的是,密西西比河(或其他河流)对GoM的影响可能如此显著,以至于在距海岸270英里、600米深的样本EN56中,基于微生物群落成员的相对丰度,检测到微弱但清晰的淡水信号。该样本具有不同于其他深水(及所有)样本的分类谱,检测到的前三个最丰富物种是Fontibacterium commune(4.1%)、Candidatus Nanopelagicus limnes(0.8%)和Polynucleobacter acidiphobus(0.7%),所有这些已知栖息于各种淡水或低盐度条件,先前未在较高盐度下识别;在其他样本中这些物种的相对丰度要低得多(Fontibacterium为0.02% ± 0.01%,其他< 0.001%)。EN56群落中第四个主要成员代表一个与Paenibacillus larvae(一种蜜蜂寄生虫)相关(在属水平)的新物种,但该物种的相对丰度与其他样本一致(0.16% ± 0.03%)。样本EN56也是混合层以下唯一一个具有高相对丰度沿海聚球藻(Synechococcus)的样本(0.3%),聚球藻在表层和混合层样本中占主导地位(0.3%–0.9%),但在DCM、aOM、OM和深部样本中减少(<0.05%),与深部淡水影响的假设一致。最后,样本EN56测量的盐度与其他深水样本一致(约34.9 PSU),远低于这些物种先前被识别的低盐度和淡水条件。当然,存在诸如采样瓶泄漏或某种表层水混合或下沉过程也可能发生,但我们没有注意到任何采样瓶泄漏的证据,并且来自站位EN56的群落信号与我们的表层样本截然不同。该信号也未在任何其他GoM宏基因组中观察到,表明在文库制备和/或测序过程中发生污染的可能性很低(样本也在海上过滤,而非岸上;因此,淡水污染的机会很低)。因此,该信号极不可能归因于污染。基于物理化学数据,先前已经观察到深远的淡水侵入事件。据我们所知,这是首次基于分子数据记录此类侵入事件。此外,重要的是要注意淡水MAGs只招募了总宏基因组的相对较小部分(约7%)。因此,这些生物体不太可能原位繁殖(生长);相反,它们很可能作为下沉有机物质的一部分在我们采样点被发现,或代表最近侵入事件的残留DNA。因此,这些结果可能代表未来研究此类淡水侵入事件对本土微生物组合及其多样性影响的一个有趣方向。
另一个样本EN21,距离密西西比河口约50英里,也表现出淡水信号,尽管其信号在物理化学测量中比在淡水相关物种的识别中更为明显。2号站位的表层显示出较低的盐度(29.6对比36 PSU)和增加的荧光(0.9对比0.07 mg/m3),且DCM层荧光峰值降低(0.3对比0.8 mg/m3),并且表层和混合层的分类谱不同,包含更大比例的未分类读段和降低的原绿球菌相对丰度,与5号和8号站位相比。2号站位的表层样本Pelagibacter物种的相对丰度也降低。这一发现揭示了密西西比河(可能还有其他河流)周围表层海洋中存在一个在当前数据库中大部分未知的半咸水群落,需要在未