《Animals》:Sleeping-Site Decisions in Tibetan Macaques: Social and Seasonal Drivers
Huihui Chen,
Tong Zhang,
Peipei Yang and
Xi Wang
编辑推荐:
这篇综述中心思想在于,本研究通过计算分析,预测了西班牙纯种(PRE)母马中与繁殖效率相关的长链非编码RNA(lncRNA),其可能通过DNA:RNA三链体结构(DNA:RNA triplex)结合在基因启动子区的CpG岛上,从而调控关键基因的表达,为解析马繁殖力(Fertility)的低遗传力(heritability)复杂性状提供了新的表观遗传(epigenetic)机制视角,并可能为基因组选择(genomic selection)提供功能性标记。
简单摘要
繁殖力是马育种项目成功的关键因素。然而,母马生育力的分子机制在很大程度上仍不明确。本研究聚焦于长链非编码RNA(lncRNA),这类非编码转录本已被认为是基因表达的关键调控因子。lncRNA调控基因活性的一种机制是形成DNA:RNA三链体结构。我们通过计算方法,分析已发表的基因组数据,预测哪些lncRNA能够通过与西班牙纯种(PRE)母马繁殖效率相关的基因形成三链体结构。分析揭示了一些潜在的调控相互作用,其中大部分位于称为CpG岛的基因组区域,这些区域通常与基因启动子相关,并在基因表达的表观遗传调控中起着关键作用。这些结果表明,lncRNA可能通过招募表观遗传调控因子来调节与繁殖力相关基因的表达。对这些分子相互作用的表征,可以增进我们对马繁殖力调控机制的理解,并识别出可能有助于功能信息基因组预测的非编码区域,但这需要进一步的实证验证。
引言
繁殖对于马的繁殖、保护和遗传改良至关重要。母马的繁殖能力,包括初产年龄、产驹间隔、繁殖效率和生产寿命等参数,决定了种马场的经济效益和群体的数量可持续性。遗传选择在维持最佳繁殖率和缩短繁殖周期方面发挥着关键作用。然而,马属物种表现出独特的生理挑战,如显著的繁殖季节性、低繁殖力以及每后代高昂的能量成本。这些因素凸显了在育种计划中最大化繁殖效率的重要性。
然而,研究母马繁殖能力的遗传基础受到多种技术和生物学限制的制约。首先,繁殖性状通常表现为低到中等的遗传力,这限制了通过传统选择实现遗传进展。其次,遗传评估的可靠性受到表型记录不完整、选择偏差以及每匹繁殖母马后代数量有限的影响。第三,马品种的群体结构往往是封闭的,并表现出不同程度的近交水平,这使得区分遗传和环境效应变得困难。因此,对繁殖性状遗传价值的传统评估往往准确性有限,阻碍了该领域的进展。因此,鉴定与母马繁殖能力相关的基因组标记,成为提高育种效率的关键策略。将基因组数据纳入育种计划可以提高遗传评估的可靠性,同时减少世代间隔和对表型数据的依赖。在其他物种中,全基因组关联研究(GWAS)已成功识别出与繁殖力、卵巢效率或生产寿命相关的基因组区域。然而,马的基因组研究仍然有限。例如,先前一项针对西班牙纯种(PRE)母马的GWAS确定了多个与繁殖效率相关的SNPs和候选基因。因此,该物种的基因组学研究仍处于早期阶段,表征超越常规SNPs的功能标记,将为揭示决定繁殖能力的潜在遗传机制提供有价值的见解。
从这一视角来看,长链非编码RNA(lncRNA)是极具前景的候选分子。lncRNA是长度超过200个核苷酸、缺乏蛋白质编码能力的调控性转录本,可在表观遗传、转录和转录后水平调控基因表达。其机制之一是形成DNA:RNA三链体结构,通过与DNA双螺旋的大沟发生瞬时Hoogsteen碱基配对。这种结合并非随机,而是集中在富含CG二核苷酸、构成CpG岛的启动子区域。多项研究表明,lncRNA与这些区域相互作用,促进染色质重塑复合物的招募,从而进一步激活或抑制靶基因的转录。例如,lncRNA PARTICLE与MAT2A(S-腺苷甲硫氨酸合成酶2型同工酶)启动子的CpG岛形成三链体,招募PRC2(多梳抑制复合物2)复合物诱导甲基化和基因沉默。另一例子是lncRNA Khps1,它作为组蛋白乙酰化酶的锚点,介导染色质激活,从而促进SPHK1(鞘氨醇激酶1)基因表达。因此,lncRNA通过调节CpG岛的表观遗传状态,以顺式(cis)或反式(trans)机制调控邻近或远处基因的表达。
从结构角度来看,lncRNA通常具有由单链和双链部分组成的复杂环状模块结构。然而,lncRNA中的DNA结合位点需要具有可及性才能形成三链体。参与Watson-Crick相互作用的核糖核苷酸无法用于与DNA双螺旋形成所需的Hoogsteen相互作用。因此,在预测三链体的流程中整合结构数据被认为有利于提高准确性。众多在哺乳动物中的研究表明,lncRNA在生殖器官中表现出组织和阶段特异性的表达模式,它们调控关键过程,如卵母细胞成熟、卵泡发育、黄体功能和母胎通讯。在马中,尽管研究仍然稀少,但最近的转录组分析揭示了可育和次可育母马子宫分子景观的差异。这些发现表明,lncRNA可能在该物种的繁殖力调控中扮演相关角色。
在此背景下,西班牙纯种(PRE)马是研究繁殖能力的理想模型。PRE是国际上最受认可的马品种之一,拥有超过28.2万注册个体,分布于超过70个国家。其育种计划由西班牙纯种马育马者国家协会(ANCCE)管理,包括定期遗传评估和强大的谱系及表型登记。先前的研究已证实了亲本效应在繁殖能力传递中的存在,以及近交衰退对PRE母马繁殖效率和寿命的负面影响。这些研究巩固了该品种作为研究马繁殖遗传基础的参考模型的地位。本研究旨在基于先前GWAS确定的候选基因,探索这些特定靶基因与lncRNA之间潜在的调控相互作用,从而为阐明PRE母马繁殖力的分子机制提供见解,并识别可用于未来基因组选择计划的候选功能标记。据我们所知,这是首个专门预测与马(Equus caballus)母马生育力相关基因存在顺式(cis)作用DNA-lncRNA三链体相互作用的研究。
材料与方法
2.1. 全基因组关联研究分析
本研究整合了之前已发表的关于PRE马的研究数据。它采用了GWAS方法,利用单变量线性混合模型来识别与母马繁殖力相关的遗传变异和候选基因。繁殖力使用繁殖效率(RE)性状进行评估,该性状定义为母马在每个年龄段最佳与实际产驹次数之间的百分比偏差。GWAS在一个包含819匹马的强大队列中进行,并使用前10个主成分控制群体分层,获得了0.999的基因组膨胀因子,证实了统计偏差的缺失。
2.2. 基因组窗口定义与LncRNA鉴定
从Ensembl数据库第115版(基因组组装EquCab3.0)中检索靶基因的转录起始位点(TSS)。为每个基因定义了相对于TSS上游-50 kb至下游+50 kb的固定基因组窗口。此阈值是基于先前研究,表明大于50 kb的窗口与高假阳性率相关。位于这些窗口内的lncRNA位点被进一步筛选,并从Ensembl数据库第115版中获取其典型转录本序列。为了评估遗传变异的潜在功能影响,将显著GWAS SNP的基因组坐标与已识别lncRNA的位点进行比对,以确认共定位。潜在lncRNA结合位点被定义为从每个繁殖力候选基因TSS上游3500 bp延伸至下游1500 bp的区域,以捕获核心和远端的哺乳动物启动子元件。所有基因组序列同样从Ensembl数据库第115版下载。
2.3. 三链体形成与LncRNA可及性的计算预测
通过软件LongTarget的命令行版本来预测lncRNA与靶基因上下游区域之间建立的三链体。使用推荐参数以优先考虑高亲和力相互作用,同时减少由短随机序列匹配产生的假阳性预测数量。此外,使用随机化的靶基因和lncRNA转录本序列,以及以肌肉生长抑制素(MSTN)基因启动子区域作为阴性对照,应用了置换测试。LongTarget会考虑lncRNA与靶DNA之间可能构成的所有Hoogsteen碱基对,及其稳定性、同一性和其他生物物理测量值,以识别预测结合位点密度最高的区域作为排名首位的候选三链体形成寡核苷酸(TFO1)。为了增强三链体相互作用预测的准确性,进一步选择第1类命中(即根据LongTarget排名靠前的假定三链体)进行下游分析。在Ensembl基因组浏览器上可视化LongTarget预测的DNA中假定lncRNA结合区域,以识别与预测CpG岛的重叠。最后,使用ViennaRNA软件包中的RNAplfold软件来研究候选lncRNA的序列可及性。根据先前研究,这种可及性被认为是与DNA形成三链体相互作用的先决条件。应用默认参数进行最大碱基对跨度和窗口大小设置。应用0.5的未配对概率(Punp)阈值来选择lncRNA序列内高度暴露的区域。Punp值范围从0到1,其中0表示该区域深埋于lncRNA的二级结构内,1表示完全可及。
结果与讨论
探索lncRNA与先前通过GWAS识别的候选基因之间的相互作用,为马繁殖能力的遗传结构提供了一个新的功能视角。这种方法提供了一种有前景的策略,通过识别可能提高马育种计划内遗传评估准确性的功能标记,来克服传统选择固有的局限性,例如低遗传力和表型记录稀缺。近期在马的模型中的研究进一步强调了这种潜力,突显了lncRNA在各种生殖组织中的动态表达。在此背景下,本研究旨在预测lncRNA与PRE母马繁殖效率相关的蛋白质编码基因之间潜在的DNA:RNA三链体相互作用,整合基因组背景和结构可及性,以识别具有调控靶基因表达能力的高可行性候选调控分子。
3.1. 基因组靶点与候选LncRNA选择
根据Laseca等人发表的GWAS,选择了15个与PRE母马生育力相关的基因。为了识别潜在的顺式调控元件,我们定义了从每个候选基因TSS延伸±50 kb的基因组窗口。在这些窗口内,为四个先前与母马繁殖力相关的基因(HTRA3、ERCC1、FOXA3和PRSS21)识别出了lncRNA。总共识别出11个lncRNA位点:ERCC1附近4个,HTRA3和PRSS21附近各3个,FOXA3附近1个。对基因组坐标的分析显示,三个显著的GWAS SNP位于候选lncRNA的位点内。这些繁殖力相关变异直接位于lncRNA位点内,表明它们可能作为因果调控变异发挥作用,而不仅仅是作为连锁不平衡的中性标记。关于其注释状态,所有11个已识别的lncRNA位点在Ensembl数据库中目前被归类为“新基因”,这一发现与近期马的整个转录组研究一致。与顺式作用调控模型一致,已识别lncRNA相对于其靶基因的基因组定位进一步支持了其功能相关性。与靶基因的距离范围从1.2 kb到49.8 kb,这与最近用于识别马睾丸、卵巢和胎盘中功能性lncRNA研究所应用的邻近性标准相符。
3.2. 三链体形成预测与基因组调控背景
我们使用LongTarget研究了选定的繁殖力相关基因与附近lncRNA之间的潜在相互作用。该软件基于Hoogsteen和反向Hoogsteen碱基配对预测所有可能的DNA:RNA三链体,并识别具有最高重叠结合位点密度的三链体形成寡核苷酸(TFO1)。为了评估特异性并将有意义的相互作用与背景噪音区分开,我们使用打乱的lncRNA序列、打乱的基因组区域以及位于不同染色体上的对照基因(MSTN,肌肉生长抑制素,ECA18)的启动子进行了平行分析。这些置换和对照数据集为区分真实相互作用与随机匹配提供了参考。结果显示,某些基因-lncRNA对产生的重叠三链体数量明显多于其相应的打乱或对照序列,表明相互作用是序列依赖性的。例如,PRSS21-lnc140240对表现出最稳健的相互作用,其特征是在PRSS21启动子区域内有一个由34个重叠三链体组成的密集簇。相比之下,对lncRNA或启动子区域的随机化在很大程度上消除了相互作用。此外,它似乎对PRSS21基因座具有高度选择性,因为当映射到对照基因MSTN的启动子时,该lncRNA仅产生6个重叠三链体。相对于生物学阴性对照的约4.4倍富集表明,高结合密度是PRSS21靶点特异的。相比之下,其他对与对照组相比没有显示出明显差异,甚至随机序列显示出更高的预测三链体密度,表明它们不形成稳定的DNA:RNA三链体相互作用。所有分析均使用描述的参数进行,最小长度为50 bp,最小稳定性和同一性阈值分别为1和60%,以优先考虑高置信度三链体。为了确定这些相互作用的生物潜力,我们分析了TFO1序列的生物物理特性。相互作用位点的大小差异很大,范围从51到150个核苷酸,平均长度为74.0。总的来说,这些数据构成了潜在功能性的有力指标。此外,还分析了靶基因的基因组背景,以确定假定的lncRNA结合位点是否与CpG岛等调控区域重合。我们为大多数对识别出了与CpG岛重叠的假定lncRNA结合位点。与CpG岛重叠命中数最多的对是HTRA3-lnc82066,有24个重叠命中,其次是PRSS21-lnc140240和HTRA3-lnc117842。结果暗示了其中一些lncRNA的潜在调控作用。这与先前的研究一致,即lncRNA结合位点通常位于CpG岛内。最近一项关于马启动子甲基化的研究揭示了这些区域对马转录调控的重要性。提出的作用机制涉及lncRNA作为支架或引导物,招募修饰DNA或组蛋白甲基化状态的蛋白质,例如DNMT3b和PRC2。然而,三链体在CpG岛的富集并不一定意味着招募表观遗传修饰因子,它们也可能通过替代机制调控转录。因此,虽然CpG重叠突出了调控潜力,但其确切的作用模式,无论是表观遗传招募、空间重组还是竞争性阻断结合,都需要实验验证。
3.3. 基于二级结构的候选LncRNA可及性
使用ViennaRNA软件包中的RNAplfold评估了候选lncRNA的可及性。该软件计算每个核苷酸的局部碱基配对概率。基于此信息,可以根据热力学参数预测RNA分子二级结构内呈单链的区域。这一步至关重要,因为通过Hoogsteen碱基配对形成DNA:RNA三链体需要RNA链处于未配对状态以适应DNA双链的大沟。为所有lncRNA识别了与LongTarget预测的三链体形成位点兼容的单链区域。我们发现重叠三链体的总数差异很大,从lnc129946在CpG岛内的35个三链体到lnc85946的1个。其中一些可及区域,特别是在lnc129946、lnc82066和lnc140240中,代表了形成三链体的有力候选,因为结构暴露是在RNA和DNA双螺旋之间建立Hoogsteen相互作用的前提条件。相比之下,lnc85946的低可及性表明预测的TFO位于RNA结构上不可用的区域,这可能限制其形成三链体的能力。通过应用这种结构约束,假阳性率有望降低,进一步支持排名靠前lncRNA的调控潜力。这种方法在生物学上是准确的,因为三链体形成必须克服RNA二级结构的热力学稳定性,而构成环或其他结构的RNA区域展开相关的能量成本可能构成障碍。
3.4. 调控马繁殖力的高置信度基因-LncRNA相互作用
为了识别高置信度的基因-lncRNA相互作用,我们应用了一种综合方法。首先选择位于每个候选基因TSS ±50 kb范围内的lncRNA,这与顺式作用调控范围一致。评估预测的DNA:RNA三链体以识别高置信度结合位点,并分析其基因组背景以确定与CpG岛的重叠。最后,检查lncRNA中DNA结合区域的结构可及性,以确认与三链体形成的兼容性。通过整合基因组邻近性、三链体富集、CpG岛重叠和二级结构可及性,对初始候选相互作用集进行了细化,从而识别出一个具有最强潜在生物学相关性的高置信度基因-lncRNA调控对子集。我们采用了分层过滤策略,其中用于选择的主要标准是预测TFO1中重叠三链体的密度。根据LongTarget方法,具有更高数量重叠三链体的区域被认为表现出更大的结合潜力和特异性,反映了更高可能性的生物学相关相互作用。这得到了置换和阴性对照的进一步支持,证实观察到的高密度是序列特异性的,而非随机匹配的结果。其次,我们根据RNA结构可及性对富集的候选分子进行过滤。Hoogsteen碱基对的建立与参与环和其他元素形成的Watson-Crick氢键不相容。深埋在结构内的区域代表了可能阻止DNA:RNA三链体相互作用的能量屏障。然而,lncRNA可能通过替代机制发挥作用。基于这些标准,三个基因-lncRNA对脱颖而出,成为最稳健的候选:PRSS21-lnc140240、HTRA3-lnc82066和ERCC1-lnc129946。这些相互作用显示出:1) 与随机化和对照数据集相比,具有高密度的重叠三链体;2) 位于结构可及区域内的三链体形成寡核苷酸比例高;3) 与启动子近端区域的CpG岛有显著重叠。这些特征共同表明,这些lncRNA可能与它们的靶基因构成稳定的三链体。其中,PRSS21-lnc140240代表了相互作用的最强候选。PRSS21启动子内三链体的密集聚类,加上相对于MSTN对照的选择性富集、高RNA可及性以及与CpG岛的重叠,暗示了一种靶向且序列特异的调控机制。PRSS21的产物,睾丸素,是一种对精子获能至关重要的丝氨酸蛋白酶,这涉及精子细胞表面成分的蛋白水解切割。这一系列事件对于促进与卵母细胞的相互作用至关重要,因此对包括马在内的不同物种的受精过程至关重要。同时,一个SNP直接位于lnc140240位点内,表明该遗传变异可能直接调节转录本的调控功能,而不仅仅是作为连锁标记。先前在马中的转录研究已经探讨了lncRNA在与生殖功能相关的不同组织(包括睾丸、卵巢皮质、颗粒细胞、卵母细胞和胎盘)中的差异表达。在这些情况下,lncRNA的生物学作用是基于基因组位置预测其靶基因来确定的。然而,在这些数据集与本研究中识别的高置信度相互作用之间,没有发现共同的靶基因或lncRNA。造成这种差异的因素之一可能是lncRNA表达的高度时空特异性,这在很大程度上取决于发育阶段和组织类型。方法学差异也可能导致结果之间缺乏重叠。这些作者仅依赖距离来识别候选lncRNA的靶基因,距离值范围为10至100 kb。然而,仅此标准并不能确保识别出生物学相关的相互作用。相比之下,我们的研究整合了DNA:RNA三链体形成的预测,以及lncRNA二级结构和靶基因基因组背景固有的生物物理约束,以优先考虑具有最高调控潜力的相互作用。最后,马lncRNA缺乏统一的命名法进一步使跨研究比较复杂化。
3.5. 局限性与未来方向
虽然本研究识别了调控马繁殖力的高置信度lncRNA候选分子,并支持了lncRNA可能通过DNA:RNA三链体形成调控繁殖力的假说,但必须考虑计算设计固有的一些局限性。首先,我们的结果是纯粹的计算预测,尚未经过实验验证。最终确认需要体外和体内评估基因启动子与lncRNA之间的结合,以及功能研究来确定这些相互作用是否影响基因表达和