《PLOS Computational Biology》:A topological map of the genetic components of grapevine—Admixture meets SOMmelier machine learning
引言:探索种群遗传结构的新方法交汇
在群体遗传学中,推断亚种群水平的遗传结构对于理解塑造遗传多样性的进化力量和种群历史至关重要。基于STRUCTURE和ADMIXTURE软件的混合模型分析方法因其直观、可解释的输出而成为标准工具。这些方法通过统计模型估计每个样本个体在K个假设祖先群体中的混合比例(Q值)。与此同时,非模型方法如主成分分析(PCA)、k-means聚类等也被广泛用于样本相似性分析,作为模型方法的补充。
本研究探讨了一个核心方法学问题:基于多位点种群数据的传统遗传混合分解,与利用机器学习(特别是自组织映射,SOM)的聚类方法之间有何关联?我们通过自定义的SOM-based工具SOMmelier来实现这一探索。SOMmelier能够通过识别共突变SNP模块并将其排列在拓扑感知的遗传景观中来描绘遗传结构。“拓扑感知”指的是遗传模块在一个二维图谱中的组织方式,其空间邻近性反映了彼此的相似性。
我们选择了栽培葡萄作为验证假设的模型。葡萄是一种具有重要经济价值、全球分布且驯化历史悠久的作物,展现出巨大的形态和遗传多样性。先前的研究利用名为SOMmelier的SOM应用,分析了包含近800个全球样本的全面SNP数据集,关注了样本的地理结构及其在葡萄驯化和历史栽培不同时期的归属,但未深入考虑数据内在的遗传结构。
结果
1. 混合分析与SOM描绘:可视化跨地理区域的遗传多样性
我们对来自Laucou数据集的783个葡萄样本进行了混合分析和自组织映射(SOM)描绘分析,并将其按照九个地理区域进行组织。SOM图像描绘了遗传景观,其中共突变的单核苷酸多态性(SNP)簇可视化为斑点状区域。具有高超额次要等位基因频率(eMAF,也称为SNP-score)值的SNP以红色高亮显示,而具有低和中SNP-score的区域分别标记为蓝色和绿色。初步检查SOM肖像图显示,每个地理区域都有独特红色和蓝色斑点模式,这些模式既有重叠区域也有独特区域,表明了共享和区域特异性的SNP模式。例如,红色斑点主要集中在EMCA、BALK和MFEAS区域的SOM肖像图下半部分,而在IBER、ITAP和WCEUR区域则集中在上半部分。总体而言,我们在不同地理区域识别出大约七到十个这样的共突变SNP斑点状簇。SOM肖像图使得可以直观估计来自不同地理区域的样本之间的遗传相似程度。
混合分析假设存在两个遗传组分(K=2)时,分别以浅蓝色和红色表示,初步提示SOM肖像图中的红色斑点模式与混合组分的幅度存在关联。当引入第三个(K=3)和第四个(K=4)遗传组分时,观察到了进一步的分化,特别是在IBER和BALK区域。对每个地理区域平均遗传组成的计算显示,优势祖先成分具有群体特异性:WCEUR富含红色组分,MFEAS富含蓝色,IBER富含浅蓝色,BALK富含绿色。混合分析识别的这四个主要组分对应于SOM肖像图中的特定区域。
总之,跨九个地理区域的SOM肖像图和混合组分的比较揭示了内在SNP协方差结构中的平行模式。该分析表明,在粗分辨率水平上存在两个主要簇,在更高粒度水平上至少存在四个簇。
2. 混合组分与SOM斑点模式相关联
接下来,我们将四个主要遗传组分定义为原型,考虑了它们主要的地理位置和葡萄用途。这些原型被定义为:西部酿酒葡萄(West-wine)、伊比利亚酿酒葡萄(IBER-wine)、东部鲜食葡萄(East-table)和巴尔干酿酒葡萄(BALK-wine)。鲜食葡萄用途主要与蓝色的东部鲜食葡萄组相关,而酿酒葡萄用途则在WCEUR(红色组分)、BALK(浅蓝色)和IBER(绿色)相关的样本中富集。
每个原型的平均SOM肖像图揭示了各自组别的特异且几乎不重叠的区域。为了将SOM斑点模式与遗传组分联系起来,我们计算了组分百分比谱(Q值)与每个SOM像素的平均SNP-score谱之间的Spearman秩相关系数(SCC)。生成的相关系数图以红色表示正相关,蓝色表示负相关,提供了遗传组分在SOM中的“空间”表示,与各自组分的平均SOM中的红色斑点显示出强烈的相似性。因此,每个原型组分都与SOM中的一个独特区域相关联。
与每个遗传组分相关的SNP在其各自的SOM区域表现出高SNP-score值,从而能够基于SCC>0.7的阈值提取明确的SNP列表。这些区域内识别的SNP数量变化超过一个数量级,从2,539个(红色簇,与西部酿酒葡萄相关)到仅262个(绿色簇,与巴尔干酿酒葡萄相关)。这些突变中,78–84%位于基因附近。
我们对六个混合组分(K=6)重复了此分析,得到了两个额外的组分,称为麝香鲜食葡萄(Muscat-table,黄色)和红葡萄酒葡萄(Red-wine,紫色)。前者可被视为东部鲜食葡萄组的衍生组分,而后者主要源于伊比利亚酿酒葡萄组和部分西部酿酒葡萄组,这从它们与其“父”组相似的SOM肖像图中得以揭示。所有组别都以其在平均SOM肖像图及其相关系数图中的特异性斑点模式为特征。
总之,混合组分与SOM谱之间的相关分析提供了相关系数图,其中高相关区域与高SNP-score区域基本一致。这些不同的SOM区域提供了相关的遗传特征,如SNP和基因列表,用于进一步的下游分析。
3. 在SOM肖像图中解析混合组分
我们更系统地研究了K=2–6时混合遗传组分与SOM景观之间的关联。双组分聚类(K=2)与SOM左上角(红色组分)和右下角(青色)的SNP相关,从而大致沿对角线将图谱分为西部的酿酒葡萄和东部的鲜食葡萄。进一步将K从3增加到4,逐步分解了青色组分和SOM右侧的相关斑点,而红色组分和左侧斑点基本保持不变。增加到K=5(黄色)分解了蓝色组分,再增加到K=6(紫色)则分解了红色和青色组分,从而总体上产生了混合组分的层次分裂,这些组分通过它们在SOM中的相关斑点得以可视化。值得注意的是,K=5和6在SOM中提供了位置明确的区域,分别对应黄色和紫色的混合组分。交叉验证(CV)误差图未达到最小值,因此暗示了K>6时可能存在更细粒度的组分。
然而,连续k值之间的CV误差增量变化对于k<5逐渐减小,然后收敛到一个恒定衰减,这表明大约存在四个主要的祖先群体,而k>4反映了更细微的亚结构,这可能源于复杂的进化动态,无法通过清晰的聚类来获取,正如几乎所有k值的最大遗传组分的幅度在超过90%到低于50%之间连续变化所揭示的那样。一项最近独立的、对超过2,000个栽培和野生葡萄样本进行的全基因组测序研究,使用了与本文类似的地理分布样本,也得出了非常相似的混合分析CV误差曲线。因此,我们与之前的研究一样,认为K=6是一个合适的选择,它反映了葡萄样本内在的遗传异质性,而没有过度细化。
总体而言,我们发现两个遗传组分(K=2)过度简化了葡萄的多样性,但可以很容易地估计其他组分对西部酿酒葡萄(红色)的贡献。四个组分提供了合理的遗传分层,覆盖了主要簇群,而K=6进一步细化了它们,并提取了主要来自东部的麝香风味和主要来自西部的红色果皮颜色的遗传关联组分。与SOM景观的相关性识别了包含遗传组分SNP的斑点簇,分辨率最高可达六个组分。
4. 基因组组分与表型之间的关联
我们接下来检查了具有各种表型特征的样本在K=6混合分层中的分布,以及它们的平均自组织映射(SOM)肖像图。来自不同地理区域的样本在特定的混合组分中表现出不同的富集,这反映在它们各自的昵称中。一个例外是“麝香鲜食葡萄”(黄色)组分,它包含了来自东部和西部地区的样本,也包括起源于北非(马格里布)的品种。意大利样本主要贡献于邻近区域,特别是WCEUR和BALK,形成了一个连接WCEUR和BALK样本特征斑点模式的独特斑点模式。
鲜食葡萄用途在六个混合组分中的两个占主导地位,尽管在东部地区(EMCA和MFEAS)也观察到相当比例的酿酒和兼用品种。在SOM肖像图中,酿酒到鲜食的用途梯度在很大程度上与相应斑点模块的西到东轴对齐。鲜食葡萄用途与无籽和麝香风味相关,这两者在SOM肖像图中都表现出独特的斑点模式。因此,富集于不同混合组分中的表型性状与特定的斑点及其包含的SNP相关联,这使得可以直观地感知它们之间的相互关系。
5. 样本景观的拓扑结构
混合分析提供了所考虑遗传组分的高度信息化的组成图,有效地将高维遗传数据投影到低维空间。然而,这种投影并不直接反映拓扑关系,即数据点在数据空间内的排列。SOM肖像图的成对相关图(PCM)可视化样本间SNP数据的协方差结构。当样本按照K=4排序时,出现了四个不同的相关簇。在相关相似性网络表示中,这些簇呈现为四个相对离散的数据云,每个对应一个独特的遗传组分。轮廓图评估了这些簇的紧密度和相互重叠程度。红色、青色、蓝色和绿色组分的正轮廓值表明,与其指定簇的关联性强于与下一个最相似簇的关联。
对于K=6,PCM揭示了额外的非对角棕色区域,表明某些遗传群体之间的重叠增加。例如,在蓝色(东部鲜食葡萄)和黄色(麝香鲜食葡萄)组之间观察到重叠,以及在青色(伊比利亚酿酒葡萄)和洋红色(红葡萄酒葡萄)组之间观察到较小程度的重叠。这种模式与在SOM肖像图中观察到的相互关系一致。在相似性网络表示中,额外的组分被相应地定位,其各自的群体簇连接并重叠,导致大多数样本出现负轮廓值,这意味着k=5(黄色)和特别是k=6(洋红色)为主的样本部分表现出更强的簇间而非簇内相似性得分。
值得注意的是,数据空间的拓扑结构表明,西部酿酒葡萄和东部鲜食葡萄簇之间的分离最大,伊比利亚酿酒葡萄和巴尔干酿酒葡萄群体位于两者之间。这种排列大致对应于各自样本区域的地理分布。麝香鲜食葡萄和红葡萄酒葡萄组分别与东部鲜食葡萄组以及伊比利亚酿酒葡萄组与西部酿酒葡萄组重叠。替代的相似性表示,如系统发育树或独立成分分析(ICA),在很大程度上保留了这种拓扑结构,但可能改变距离关系,为样本空间中的数据表示提供了替代视角。总之,样本SNP的SOM肖像图的多维映射提供了反映样本数据之间相似性的数据景观。
6. SNP景观的拓扑结构
作为其独特属性,SOM描绘为每个样本生成“个体”图像,从而可以直观地比较它们的SNP景观。这些肖像图的特征是(红色)“斑点”模块,代表在相应样本中显示出高SNP-score的共突变SNP簇。我们的SOM程序生成一个“个性化”的摘要图,提供了在个体肖像图中观察到的所有斑点模块的概览。斑点模块基本上覆盖了上面讨论的所有相关区域。为了概览,我们还计算了每个样本的平均SNP-score。每个组中的SNP-score方差随着主要组分比例的降低而衰减,对于红色组分最大,然后随着k(k=1…K)的增加而趋于平稳。检测到的斑点数量分布表现出类似的行为,这反映了元基因方差与斑点检测之间的关系。
接下来,我们检查了斑点模块之间的相关结构,这些结构在图的斜对角上呈现反相关,特别是在红色(k=1)西部酿酒葡萄相关斑点和蓝色(k=3)东部鲜食葡萄相关斑点之间,而相邻斑点主要呈正相关,这与样本相关图(PCM)中显示的样本相关结构一致。对于组分特异性的斑点网络,我们计算了斑点共表达图,这些图连接在每个组的个体肖像图中出现超过50%的斑点,并将它们与平均组肖像图进行比较。自然地,共表达斑点在平均斑点过表达区域积累,但也揭示了它们的多样性,特别是对于k>3。与标准着色相比,水位线着色能更好地将SNP-score大于和小于零的区域分别以红色和蓝色可视化。
因此,SNP景观的拓扑结构以模块化的斑点模式、它们的相关性和共表达网络为特征,这些将景观划分为不变SNP区域和高度变异区域。总体而言,SNP景观从而提供了一个网络表示,其中斑点作为节点,它们的共表达链接和/或相互相关性作为边。它通过提供以特征为中心的视角来补充样本景观,该视角可视化葡萄基因组中遗传特征的邻近关系。
7. 斑点分割、遗传标记和知识挖掘
接下来,我们旨在识别与混合分析推断的遗传组分相关的遗传特征——特别是SNP及其相关基因。为此,我们生成了组分摘要图,提供了在K=4和K=6的组分肖像图中检测到的突变“斑点”的概览。整体的斑点模块化在K=4和K=6之间基本保守(斑点A–E),尽管在K=6时观察到了额外的分辨率,其中“双斑点”B′和C′与B和C一起出现。这反映了青色(K=2,伊比利亚酿酒葡萄)和洋红色(K=6,红葡萄酒葡萄)组之间斑点B和B′的特征细分,以及蓝色(K=3,东部鲜食葡萄)和黄色(K=5,麝香鲜食葡萄)组之间斑点D和D′的特征细分。这些模式表明了相应遗传群体之间的混合事件。
这些模块的SNP-score谱与混合组分的比例密切相关,表明基因型组成与检测到的群体结构之间存在强烈的对应关系。每个斑点模块包含76到360个SNP,这些SNP映射到几乎相同数量的基因。使用基因本体(GO)术语进行的基因集富集分析显示,每个斑点模块内的基因与不同的功能类别相关联,提供了对遗传组分生物学相关性的见解。
例如,k=1(红色,斑点A)与增强的线粒体和细胞色素复合物组装相关,这促进了ATP的产生以满足更高的能量需求,同时细胞内钙和其他离子稳态的严格调节支持关键的信号传导和酶功能;同时,观察到参与伴侣介导的蛋白质折叠的基因表达增加。组分k=2(青色,斑点B)与增强的代谢活动相关,初级和有机物质代谢过程驱动基本的细胞功能。此外,黄素腺嘌呤二核苷酸(FAD)结合和衔接子活性等分子功能的富集,强调了对于维持高效代谢途径和细胞内通讯至关重要的酶促反应和蛋白质相互作用的微调。组分k=3(蓝色,斑点C)表明翻译、肽生物合成和蛋白质代谢过程上调,这暗示了蛋白质的稳健生产和周转,对于生长和适应至关重要,而增加的酰胺生物合成活性支持肽键的形成。同时,对有机氮化合物的反应突出了植物对含氮分子的敏感性,这对于合成氨基酸和核苷酸至关重要。此外,Set1C/COMPASS和组蛋白甲基转移酶复合物等细胞成分的富集指向活跃的染色质重塑和表观遗传调控,确保对基因表达的精确控制。组分k=4(绿色,斑点D, E)反映了膜结合和细胞内细胞器的关键作用——这些是区室化和优化生化过程的完整解剖实体——确保酶促反应、基因调控和信号转导等活动在定义的亚细胞区域内高效发生。因此,使用SOM进行斑点分割提供了与混合分析遗传组分相关的SNP和基因列表,并在下一步中能够使用基因集富集方法进行功能挖掘。
8. 混合分析和SOM拓扑结构反映了栽培葡萄传播的足迹
葡萄栽培的历史结合了本地适应性与广泛的营养繁殖和迁移,有些品种实现了广泛或全球分布,而另一些则基本局限于狭窄的地理区域。我们分析中提取的混合组分大致对应于栽培葡萄的六个遗传簇(CG1–CG6),这是根据全基因组测序结合其地理起源和性状特征定义的。SOM中高SNP-score的峰值以拓扑感知的方式排列,表明逐渐分化的谱与日益遥远的峰值特征相关联。CG1和CG2簇反映了大约11,000年前后冰期变暖时期起源于西亚/黎凡特(CG1)和南高加索(CG2)的早期驯化足迹。由于我们数据集中来自该区域的样本数量有限,CG1和CG2不易分解。然而,起源于高加索北部和黑海地区(今俄罗斯和乌克兰,RUUK)以及部分巴尔干地区(包括摩尔多瓦)的品种携带了CG2的痕迹,并在SOM中具有特定的斑点模块。
源自CG1的栽培葡萄传播通过安纳托利亚、巴尔干和意大利(CG3和CG4),到达伊比利亚半岛(CG5)和西欧,栽培葡萄大约在6,000–7,000年前抵达该地。来自意大利半岛(ITAP)的品种表达了一种有别于所有其他欧洲群体的特定斑点模式,这是由于该地区的历史事件连接了南意大利和希腊的基因型,突出了希腊作为欧亚大陆西部和东部之间“桥梁”的作用。“红葡萄酒葡萄”遗传组分(k=6)混合了来自IBER和WCEU的品种,包括法国和德国品种,可能与葡萄牙和法国葡萄之间比西班牙葡萄之间更接近有关。因此,SOM提供了一种基因空间的“足迹”方法,广泛反映了CG1–6遗传组分之间的地理亲缘关系。通过这种方式,SOM描绘通过将混合组分组织在由基因组拓扑结构信息形成的空间连贯景观中来补充其分解。
讨论与结论
本研究探讨的核心方法学问题是,多位点种群研究中使用成熟且常用的遗传混合分解,与利用基于机器学习的SOM描绘进行多位点遗传特征聚类分析之间的关系。我们假设遗传组分Q值与SOM不同斑点中识别的遗传评分值相关,结果发现SOM描绘将遗传混合组分识别为种群中共突变SNP的模块,并将它们分布在拓扑感知的遗传景观中。这里的“拓扑感知”意味着遗传模块在二维图谱中作为“斑点状”特征出现,并根据它们的相互相似性进行排列。因此,SOM描绘通过提供一个易于感知的遗传景观来扩展和补充混合分析的信息内容,该景观以网络状结构可视化了遗传组分之间的亲缘关系。此外,“描绘”意味着可以为每个个体样本以及针对选定性状、属性和地理区域的样本子组生成这些景观,从而能够将它们与遗传组分相关联。
我们以欧洲葡萄的群体遗传学为例进行了研究。考虑了多达六个遗传组分,这些组分积累成具有偏好地理起源和葡萄用途的簇,例如东部鲜食葡萄和西部酿酒葡萄、来自巴尔干和伊比利亚的酿酒葡萄,以及指代麝香风味和红色果皮的更多混合组。有趣的是,这些组与通过对全球收集的2,000多个葡萄样本进行全基因组测序数据得出的葡萄祖先和地理簇相对应。遗传景观的拓扑结构与古典地中海世界的地理图相似,范围从南高加索的格鲁吉亚伊比利亚王国和亚美尼亚高地以及黎凡特,到伊比利亚半岛、马格里布和西欧。遗传图谱显示出主要遗传混合组分高SNP-score的明显“山峰”尖端,每个尖端通常收集数百个特异性SNP。遗传拓扑结构反映了葡萄驯化和随后的传播在空间和时间上是动态的这一事实,定义了从野生到栽培群体的连续体。
随着k>4的增加,SNP的分布逐渐变得分散,并覆盖了主要组分k=1–4的区域。这些结果表明,葡萄基因组只能部分地由互不相交、清晰的遗传簇来描述,而是揭示了相互混合和更连续的分布特征。交叉验证(CV)误差图暗示最大K大于6,但这似乎对我们的数据过拟合。因此,在选择最大K时,采取“少即是多”的方法似乎是可取的,特别是当Q值的分布显示为广泛的连续值时。并行的SOM分析因此提供了对合理且可解释的K值的额外评估。在此背景下,SOM通过使用轮廓评分以及随着K增加对增量斑点模式的视觉检查提供了另一种评估策略。此外,SOM斑点分析能够直接提取遗传组分的SNP、基因及相关功能。因此,SOMmelier不仅可视化了遗传景观的拓扑结构,还通过提供关于额外遗传组分可变性及其功能作用的详细信息来补充混合分析。
SOMmelier 是一个强大的方法,它补充和扩展了混合分析以研究遗传变异。它可以用于建立混合比例之间的多维亲缘关系,以嵌入由于遗传漂变、迁移和突变等过程引起的群体分化。葡萄基因组说明了祖先群体在其初始位置的适应性分化,以及假定的差异基因渗入。使用整合了人口统计学和自然选择效应的混合组分,可以根据拓扑图来解释表型变异。我们认为SOMmelier是一种将遗传混合分析扩展到更广泛应用范围的方法。另一个有趣且具有挑战性的领域是,在考虑野生葡萄(Vitis sylvestris)样本的情况下,对来自高加索地区的葡萄样本进行更详细的分析,以建立栽培葡萄种植中心之一的遗传图谱。