《Frontiers in Plant Science》:Comparative chloroplast genomics of Cypripedioideae: structural divergence, adaptive evolution, and phylogenomic insights
编辑推荐:
本综述通过对杓兰亚科48个完整叶绿体基因组的比较分析,系统揭示了自然选择是驱动密码子使用偏性(CUB)的主要因素(贡献度>90%),而非突变压力。研究发现了显著的谱系特异性结构变异,包括基因组大小差异(147–230 kb)、反向重复区(IR)扩张/小单拷贝区(SSC)收缩以及ndh基因丢失。这些基因组结构特征与物种从温带到热带的环境适应性密切相关。Ka/Ks分析表明绝大多数基因(94.7%)受到纯化选择,其中光系统和核糖体蛋白基因约束最强。系统发育分析清晰解析了属间关系,表明基因组结构、密码子使用模式与生态分布之间存在关联。该研究为理解兰花乃至其他植物谱系的适应性进化提供了重要的基因组学框架。
1 引言
兰科植物是开花植物中物种最丰富、形态最多样的类群之一。杓兰亚科作为兰科五个公认的亚科之一,虽然物种多样性适中(约200个现存物种),但其广泛的生态分布范围(从温带到热带)使其成为研究跨环境梯度适应性进化的理想模型。该亚科包含五个属:Cypripedium、Selenipedium、Phragmipedium、Mexipedium和Paphiopedilum,各属呈现出独特的生物地理格局。占据不同生态位的植物物种经常表现出由栖息地特异性选择压力驱动的显著功能和形态分化。叶绿体基因组因其在光合作用中的关键功能及其独特的遗传模式,为研究适应性进化提供了强大框架。尽管质体基因组进化较慢,但非编码区和特定编码序列的突变可以解析物种和种群水平的分化。比较研究表明,质体进化与谱系间的生态适应密切相关,包括杓兰亚科。密码子使用偏性通过影响mRNA稳定性、翻译效率和准确性以及蛋白质折叠,从而影响生物适应和进化轨迹。本研究对代表杓兰亚科所有主要谱系的48个物种的叶绿体基因组进行了全面分析,旨在系统描述杓兰亚科叶绿体基因组的结构变异和CUB模式,评估突变压力和自然选择在塑造密码子使用偏性中的相对贡献,并研究环境响应基因的密码子使用与生态变量之间的相关性,比较占据不同栖息地物种的基因组结构变异,以阐明适应性进化的分子机制。
2 材料与方法
2.1 植物材料取样与DNA提取
新鲜P. armeniacum叶片组织采自中国贵州省黔西南布依族苗族自治州兴义市。凭证标本保存于北京林业大学。使用改良的CTAB法从约100 mg硅胶干燥的叶片组织中提取总基因组DNA。
2.2 基因组测序与叶绿体基因组组装
使用Illumina NovaSeq 6000平台进行全基因组测序,产生约4.5 Gbp的原始数据。使用GetOrganelle和NOVOPlasty进行叶绿体基因组组装。
2.3 基因组注释与可视化
使用GeSeq和CPGAVAS2对组装的质体进行注释。使用CPGView生成环状基因组图谱。
2.4 叶绿体基因组数据获取与质量控制
从NCBI GenBank获取杓兰亚科物种的完整叶绿体基因组。经过质量控制后,保留47个基因组,与新测序的P. armeniacum一起,数据集包含4个属的48个物种。
2.5 相对同义密码子使用分析
计算所有物种的相对同义密码子使用(RSCU)值,以量化密码子使用偏性。
2.6 中性分析
通过GC12与GC3的线性回归分析,区分突变压力与自然选择对密码子使用的贡献。
2.7 ENC-GC3分析
计算有效密码子数(ENC)和同义第三位点GC含量(GC3s),绘制ENC-GC3s图以评估突变与选择的主导作用。
2.8 简单序列重复分析
使用MISA识别48个杓兰亚科质体中的完美微卫星 loci,并按重复单元长度、基因组位置进行分类。
2.9 Ka/Ks分析
通过计算非同义替换率与同义替换率的比值(Ka/Ks)评估叶绿体蛋白编码基因的选择压力。
2.10 叶绿体基因组共线性与结构分析
使用genoPlotR等软件进行基因组共线性分析,包括基因组大小、GC含量、基因数量、区域边界和基因组成。
2.11 叶绿体基因组系统发育分析
基于81个串联的蛋白编码基因,使用最大似然法进行系统发育重建,并使用SH-aLRT、近似贝叶斯后验概率和UFBoot评估分支支持。
2.12 多组统计比较分析
使用非参数Kruskal-Wallis H检验比较三个主要属(Paphiopedilum、Cypripedium、Phragmipedium)在八个基因组参数上的差异。
3 结果
3.1 杓兰亚科叶绿体基因组组装、结构与特征
成功组装了P. armeniacum的完整叶绿体基因组(162,782 bp),显示出典型的四分体结构。对48个完整杓兰亚科叶绿体基因组的全面调查揭示了基因组结构和核苷酸组成的显著种间变异。基因组大小从147,384 bp到229,932 bp不等,平均为164,284 bp,变异幅度约82.5 kb。这种异质性主要由基因组区域的差异扩张和收缩驱动,尤其是LSC和IR边界。总GC含量范围在26.66%至37.82%之间,平均为34.94%。11个Cypripedium物种的基因组大小从157,050 bp到229,932 bp不等,平均为188,297 bp,扩张主要是由于非编码区AT富集重复序列的增殖。30个Paphiopedilum物种的叶绿体基因组更小且结构独特,范围在154,569 bp至163,243 bp之间,平均为159,016 bp,其特征是显著的IR扩张和剧烈的SSC收缩。6个Phragmipedium物种的质体最紧凑且结构均匀,范围在147,384 bp至151,238 bp之间,平均为149,927 bp,GC含量最高(平均36.21%)。
3.2 RSCU分析
对48个杓兰亚科物种完整叶绿体基因组的RSCU分析显示,整个亚科存在一致的CUB,其特征是强烈偏向于使用第三位点为A或T的密码子,而G或C结尾的密码子使用不足。密码子使用偏性在属间高度保守。基于RSCU值的层次聚类主要按属将物种分组。
3.3 SSR分析
SSR分析在48个杓兰亚科叶绿体基因组中识别出17,584个完美微卫星 loci,每个基因组包含78-293个SSR。SSR类别分布显示出一个不寻常的模式:八核苷酸重复最为丰富(24.78%),其次是单核苷酸重复(16.81%)和九核苷酸重复(16.26%)。基因组区室分布分析显示显著的位置特异性富集,基因间区(IGS)含有最多SSR(52.76%),而CDS中仅占9.71%。SSR motif组成显示出与杓兰亚科叶绿体基因组AT富集性质一致的强核苷酸偏向性。
3.4 ENC-GC3分析
对四个属48个杓兰亚科物种的分析显示,叶绿体蛋白编码基因存在中度密码子使用偏性。平均ENC值范围从Paphiopedilum dianthum的51.11到Phragmipedium lindenii的53.02,亚科平均值为52.09。在基因水平上,大多数基因分布在Wright理论曲线下方,这种系统性偏差表明自然选择是塑造杓兰亚科质体同义密码子使用的主要力量。
3.5 中性分析
对48个杓兰亚科物种进行的中性分析显示,GC12与GC3之间的相关性非常弱,决定系数(R2)范围从0.0000到0.0920,平均为0.0051。回归斜率从-0.0193到0.3237不等,平均为0.0535,显著偏离中性期望值1.0。这些接近零的斜率和最小的相关性表明GC12和GC3在很大程度上独立进化,为自然选择(而非突变偏向)是塑造该亚科同义密码子使用的主导力量提供了有力证据。
3.6 Ka/Ks分析
为了评估杓兰亚科叶绿体蛋白编码基因的进化选择压力,计算了来自48个物种的41,790个直系同源基因对的Ka/Ks比值。纯化选择是作用于杓兰亚科叶绿体基因组的主要进化力量。在所有基因对中,91.6%表现出Ka/Ks < 1.0,其中58.9%处于强纯化选择下(Ka/Ks < 0.5),32.6%处于松弛纯化选择下(0.5 ≤ Ka/Ks ≤ 1.0)。只有8.4%的基因对Ka/Ks > 1.0。选择压力在不同功能类别间差异很大。RubisCO大亚基(rbcL)表现出最强的纯化选择,平均Ka/Ks为0.113。光系统II基因和ATP合酶亚基也经历了强纯化选择。相比之下,核糖体蛋白,特别是大亚基的蛋白,显示出更松弛的约束。
3.7 叶绿体基因组共线性与结构分析
对48个杓兰亚科物种的基因组范围共线性分析揭示了 largely 保守的 synteny,中间穿插着界定亚科内主要进化谱系的属特异性结构重排。所有物种都保持了被子植物典型的四分体质体结构。尽管整体序列保守,但在基因组区室之间的连接处,特别是在IR-SSC边界,观察到了显著的异质性。这些区域表现出属特异性动态,显著促进了基因组大小变异。Paphiopedilum物种显示出最显著的边界移动,其特征是广泛的IR扩张加上极端的SSC收缩。相比之下,Cypripedium质体主要通过LSC扩大而扩张,这是由AT富集重复序列的增殖驱动的,而非IR边界移动。Phragmipedium和Mexipedium处于中间结构位置,显示出中度的IR扩张和SSC收缩。谱系特异性进化特征也体现在ndh基因补体上:所有Paphiopedilum物种都缺乏功能性的ndhA、ndhE、ndhF、ndhG、ndhH和ndhI基因。
3.8 系统发育分析
基于来自110个兰科物种的81个串联叶绿体蛋白编码基因的最大似然系统发育重建,稳健地解析了亚科间关系,并澄清了102个研究的杓兰亚科分类群的进化位置。杓兰亚科形成一个强支持的单系群,是兰亚科-树兰亚科谱系的姐妹群。在杓兰亚科内,恢复了四个主要的属级谱系,均具有高统计置信度:Cypripedium、Paphiopedilum、Phragmipedium和Mexipedium。Cypripedium在亚科内占据最基部的系统发育位置。Paphiopedilum被恢复为一个强单系属。Phragmipedium和Mexipedium xerophyticum形成一个强支持的新热带姐妹群。
3.9 叶绿体基因组特征的多组比较
比较分析揭示了三个杓兰亚科属(Cypripedium、Paphiopedilum、Phragmipedium)之间叶绿体基因组特征的显著差异。检查的八个参数中有六个显示出统计学上显著的属间变异。虽然平均进化速率没有显著差异,但Cypripedium表现出最高的平均速率。GC含量检测到显著差异,Cypripedium的值最高。基因组大小也差异显著,Cypripedium最大,Paphiopedilum最紧凑。基因密度和编码序列比例在属间也不同,Cypripedium显示出最高值。tRNA基因数量和IR长度也显著不同,Cypripedium拥有最高的数量/长度。相比之下,AT偏斜在属间是保守的。相关性分析表明基因组参数之间存在强烈的相互依赖性。基因组大小与GC含量呈负相关。进化速率与GC含量和基因密度呈正相关。编码比率与基因密度呈正相关,与基因组大小呈负相关。IR长度与其他特征仅显示出弱相关性。
4 讨论
本研究对48个完整杓兰亚科叶绿体基因组的CUB和结构变异进行了全面分析。结果表明,密码子使用偏性主要受自然选择而非突变压力塑造,驱动了跨不同生态位的谱系特异性分子适应。尽管整体质体结构基本保守,但在关键区域,特别是在反向重复边界,存在显著的物种特异性变异。这些发现为理解植物叶绿体基因组的进化动力学及其在促进生态适应中的作用提供了新见解。杓兰亚科质体保持了典型的四分体结构,但IR/SSC边界区域表现出显著的物种特异性变异,与谱系相关。功能基因水平上,核心光合作用基因在所有检查的杓兰亚科物种中高度保守,表现出强纯化选择。相比之下,参与环境响应的基因表现出更高的变异性和升高的Ka/Ks比值。杓兰亚科48个分析物种的叶绿体基因组表现出显著的非随机密码子使用偏性,强烈偏向于同义第三位点为A/U结尾的密码子。环境背景似乎驱动了杓兰亚科的谱系特异性密码子优化。高海拔Cypripedium物种比低海拔Paphiopedilum表现出更强的A/T结尾密码子偏好。基因的功能类别显示出差异性的密码子使用偏性。基于完整叶绿体基因组序列的系统发育重建稳健地解析了属级分化和属内聚类,确认了该亚科的单系性。观察到种间系统发育关系与叶绿体基因组结构特征之间存在显著相关性,IR边界变异和基因重排模式显示出支系特异性特征。
5 结论
通过对48个完整质体的比较分析,本研究阐明了支撑杓兰亚科适应性辐射的分子机制,并推进了我们目前对兰花进化生物学的理解。我们证明同义密码子使用主要受自然选择而非突变压力塑造,突出了密码子优化作为生理和生态适应的功能性驱动因素。此外,谱系特异性质体结构进化与生态 specialization 密切相关。这些发现揭示了叶绿体基因组结构不仅反映了进化历史,而且积极促进了多样化,提供了基因组结构与适应性辐射之间的机制联系。系统发育基因组学分析、结构变异作图和密码子使用模式谱的整合提供了一个综合框架,解析了主要支系,并揭示了基因组特征如何追踪生态梯度。我们的结果表明,杓兰亚科的适应性进化是由序列水平优化、功能基因内容进化和大规模结构重排共同塑造的,证明了基因组结构、选择制度和系统发育历史在驱动开花植物进化轨迹中的相互作用。这里识别的分子特征,包括谱系特异性密码子偏好、IR/SSC边界动态和ndh基因保留模式,代表了应用研究的宝贵资源。