《Annual Review of Animal Biosciences》:Long Noncoding RNAs in Dogs: Comparative Insights Across Species and Breeds
编辑推荐:
本篇综述深入探讨了犬(Canis lupus familiaris)长链非编码RNA(lncRNAs)的研究进展。文章系统阐述了利用犬类独特的品种多样性、简化遗传结构及与人相似的疾病谱等优势,整合长、短读长RNA测序及多组学数据,在lncRNA发现、注释与功能解析方面取得的关键成果,并展望了构建犬类泛基因组与泛转录组以揭示其完整转录组多样性的重要方向。
引言:lncRNAs的谜团与研究价值
长链非编码RNAs(lncRNAs)是一类长度超过200个核苷酸、通常不编码蛋白质的RNA分子。近年研究认为,将长度阈值提升至500个核苷酸有助于更清晰地区分其与微小RNA(miRNAs)、核仁小RNA(snoRNAs)等其他非编码RNA。lncRNAs并非单一功能实体,而是一个异质性集合,包括基因间lncRNA(lincRNAs)、反义RNA、增强子RNA(eRNAs)和正义重叠转录本等。与广泛表达的mRNA不同,lncRNAs的表达通常具有高度的组织特异性、发育阶段特异性和条件特异性。尽管大规模研究计划如ENCODE和FANTOM已在哺乳动物中揭示了数千个lncRNA位点,且最新注释显示人类和小鼠基因组中已注释的lncRNA基因数量甚至超过了蛋白质编码基因,但绝大多数lncRNA的功能相关性仍是活跃辩论的焦点。一方观点认为,多数lncRNA可能是开放染色质和随机转录的非功能性副产物;另一方则以Mattick等人为代表,提出了一个统一框架,认为lncRNA通过RNA-RNA、RNA-蛋白质和RNA-染色质相互作用等不同层面,是基因表达的关键调控因子。本综述旨在通过犬类模型的视角,借助其独特的品种结构、丰富的表型多样性和日益增长的基因组资源,探索这一争论,以帮助阐明哪些lncRNA在何种情况下具有功能相关性。
犬类模型在lncRNA研究中的优势
家犬被视为连接基因型与表型关系的强大模型,这主要得益于其三个核心优势:丰富的品种多样性、明确的疾病特征以及简化的遗传结构。经过强烈的人工选择,全球有超过400个被认可的犬品种,使其成为地球上形态最多样化的哺乳动物物种。这种选择育种造成了品种内极高的遗传同质性和品种间显著的表型分化,为剖析复杂性状的遗传基础提供了遗传上易处理的系统。这种简化有助于解决人类全基因组关联研究(GWAS)中常因位点异质性而受限的统计效力问题。此外,许多犬的遗传性疾病在临床、组织学和分子特征上与人类对应疾病高度相似。对于任何特定性状或疾病,可能涉及的编码和/或非编码变异相对较少,这使得利用犬模型进行致病基因发现更为高效。超越蛋白质编码基因变异的例子,在犬中已经鉴定出数个与极端表型相关的自然突变lncRNAs。近年来犬基因组组装和转录组资源的进步,为跨不同组织和品种更准确地注释lncRNAs奠定了关键基础。
在基因组资源方面,自基于拳师犬的首个犬类参考基因组发布以来,犬类基因组资源在质量和多样性上均取得了显著进展。截至2025年,美国国家生物技术信息中心(NCBI)基因组数据库列出了30多个公开可用的犬科物种基因组组装。长读长测序技术的进步推动了重大改进,例如使用PacBio数据对拳师犬基因组进行升级,产生了CanFam6组装,显著提升了基因启动子区域的序列连续性。此外,还生成了其他品种的参考基因组,如德国牧羊犬基因组(CanFam4/Cfam_GSD)和大丹犬基因组(CanFam5/Cfam_GDA),以更好地捕捉家犬的遗传多样性。大规模计划如Dog10K项目旨在对数千个犬科基因组(包括240个犬品种)进行测序和分析,提供了全面的遗传变异目录。在转录组研究方面,多项计划极大地扩展了我们对犬类基因表达的理解。例如,Hoeppner等人利用10个犬类组织的短读长RNAseq数据,扩展了Ensembl数据库中蛋白质编码基因的替代异构体集,并提供了CanFam3.1中的首组7,200个多外显子lincRNAs。Le Béguec等人跨26个不同组织注释并表征了10,400个犬lncRNA的表达,揭示了强烈的组织特异性模式以及与犬类转座元件的联系。BarkBase项目结合了27个成年犬组织的转录组学(RNAseq)和表观基因组学(ATACseq)数据,有助于解释犬类编码和非编码元件的功能。CanISO数据库汇编了157个犬肿瘤和匹配正常组织的RNAseq数据,包含超过87,000个新重建的转录本异构体和近61,000个已知异构体。犬基因组注释(DoGA)联盟利用捕获5‘转录起始位点(TSS)的STRT2-seq方法,生成了覆盖家犬和狼超过132个组织的转录图谱,鉴定了超过100,000个候选启动子。此外,将来自40个组织(包括15个脑区)的7,000万条纳米孔和PacBio全长互补DNA(cDNA)长读长RNAseq数据整合到CanFam_GSD基因组的注释中,改善了基因注释,并允许在富含重复序列的区域以高完整性注释7,725个lncRNAs。这些资源使犬类原始模型在探索基因组的调控结构,特别是lncRNA在正常或疾病状态下的作用方面具有独特优势。
犬类基因组lncRNA注释的工具与数据库
短读长与长读长RNAseq策略
短读长和长读长测序技术的进步极大地增强了转录组分析能力。典型的短读长RNAseq分析流程包括将读数映射到参考基因组、从这些比对中重建转录本模型以及量化基因和转录本表达水平。对于重建的新转录本模型,评估其编码潜力对于区分新的蛋白质编码RNA和非编码RNA至关重要。CPAT、FEELnc等专用工具基于机器学习对开放阅读框长度、核苷酸组成和序列保守性等特征进行分类。然而,短读长数据在识别剪接异构体方面存在挑战,即使对于智人的蛋白质编码转录本,性能最佳的工具也只能恢复21%的已注释异构体,对非编码RNA的恢复率更低。相比之下,长读长测序能产生跨越整个转录本的读数,无需组装即可在全新分辨率下研究转录组,尤其有利于检测包含转座元件重复结构域的lncRNAs。其分析流程使用minimap2进行读数比对,使用Bambu或IsoQuant进行转录本重建。长读长LRGASP联盟研究评估了长读长转录组分析工具的性能,强调了根据特定研究目标选择工具以及生成参考注释时使用高质量数据的重要性。
参考注释数据库:Ensembl与RefSeq
Ensembl和RefSeq数据库是公开可用参考注释的主要来源。两者在注释mRNA和lncRNA的方法上存在差异,这影响了下游分析和生物学解释。Ensembl的RNAseq流程将来自健康组织和样本的读数合并,使用BWA工具比对到基因组,创建外显子比对块,根据读对信息分组为原始转录本,然后使用Exonerate重新比对以创建一组剪接比对,最后结合原始转录本和这些剪接读段生成所有可能的转录本变体,选择读段支持度最高的变体作为代表性转录本。大多数非编码RNA通过使用BLASTN将基因组序列与Rfam比对进行注释。RefSeq则使用STAR将健康样本的RNAseq读数比对到基因组,比对后的读数传递给Gnomon进行基因预测。RefSeq手动策划lncRNA基因,要求高质量转录本至少由三个外显子支持,或者如果是双外显子或无内含子转录本,则需有更强证据(如RNAseq数据)支持。两个数据库的注释包括了拳师犬(Cfam_BOX)、德国牧羊犬(Cfam_GSD)、大丹犬(Cfam_GDA)、拉布拉多犬(Cfam_LAB)和巴辛吉犬(Cfam_BAS)的品种特异性注释,以及作为家犬外群的澳洲野犬(Cdingo_DIN)。
由于输入转录组证据和定义长链非编码RNA的生物信息学标准不同,两个数据库报告的犬类lncRNA数量差异很大。对于RefSeq(版本230),lncRNA基因数量在10,080到13,400之间。而Ensembl(版本114)的数量范围从Cfam_GSD的6,446个到Cfam_GDA的仅1,858个。这种差异可能由于每个Ensembl注释使用了不同的RNAseq数据集,且这些注释并非在同一时间框架内生成,导致识别潜在lncRNA的标准不同。由于底层转录组证据和生物信息学流程的差异,RefSeq和Ensembl犬类lncRNA目录之间的一致性极为有限,少于1%的多外显子犬lncRNA表现出相同的intron-chain结构(相比之下,犬mRNA的这一比例为13%)。与其他模式生物相比,犬类注释的lncRNA数量仍然相对有限。人类和小鼠注释受益于整合广泛生物学证据与人工策划的金标准GENCODE资源。因此,GENCODE/Ensembl目前报告智人有超过35,000个lncRNA基因,小家鼠有近33,000个。相比之下,Ensembl在犬类基因组组装(Cfam_GSD)中仅注释了约5,000个lncRNA基因。这个数量与斑马鱼更为接近,尽管这些物种都有超过20,000个注释的蛋白质编码基因。人类和小鼠基因组最近GENCODE版本中lncRNA注释的大幅增加,很大程度上得益于整合了捕获长读长转录组测序策略,这表明通过纳入长读长RNA测序数据和改进新的lncRNA发现的计算流程,犬类也能实现类似的改进。
比较与进化视角
比较基因组学为理解跨物种进化关系提供了一个强大框架。尽管最初设计用于研究蛋白质编码基因,但这些方法已被调整用于研究lncRNAs。跨物种基因组比较为大规模识别潜在功能性lncRNA提供了稳健框架,因为进化约束预计会在这些序列中留下可检测的特征。近年来,已开发出多种评估lncRNA保守性的计算工具,这些工具采用了不同的方法学,包括同线性(例如,围绕mRNA锚点位置保守的lncRNA)和序列比对,涵盖局部(如保守的短基序)和全局(如完整基因结构)尺度。比较基因组学已成为在广泛物种中检测和注释保守lncRNA的强大方法,揭示了lncRNA进化迅速,即使在近缘物种间也常表现出有限的序列保守性,这与蛋白质编码基因形成对比。然而,lncRNA保守性分析面临诸多挑战。许多lncRNA在基因组的定位靠近蛋白质编码位点,使得难以区分其进化轨迹与相关蛋白质编码基因的轨迹。此外,lncRNA富含转座元件等重复元件,这由于多重比对和特异性降低问题而使序列比对复杂化。最后,比较基因组学的一个主要限制在于查询和目标基因组组装及注释的质量和完整性。
在犬类中,先前的比较保守性分析已凸显了lncRNA保守性的异质性。例如,Hezroni等人在包括犬在内的16种脊椎动物中鉴定了数百个具有相似表达的同源lncRNA,显示了深层的进化同源性以及跨谱系的不同选择压力。先前的研究利用从Ensembl Compara数据库的多个全基因组比对(WGAs)中提取的位置比较基因组学方法,研究了犬与人类(分歧时间约9,000万年)之间的lncRNA保守性。研究表明,总共10,400个lncRNA中,约9%的严格集合在人类中具有一一对应的同源物。这些保守的lncRNA不仅共享同线性位置,而且表现出相似的基因结构,在两个物种中具有可比的平均每基因外显子数。更近期的,Degalez等人结合了基于同线性、WGA和功能短基序富集的不同方法,提高了在13种哺乳动物(进化分歧达4亿年)中同源lncRNA的检出率。他们揭示,68%的人类lncRNA通过至少同线性或序列比对方法检测到潜在的小鼠同源物。此外,他们利用参考lncRNA OTX2-AS1(与参与大脑和感觉发育的转录因子基因OTX2反义)证明了结合互补策略对于完善保守lncRNA注释的价值。
受Degalez等人工作的启发,本研究评估了家犬品种与澳洲野犬之间长链非编码RNA的保守性,并使用统一的RefSeq注释进行了成对同线性和序列比对分析,以鉴定一一对应的同源lncRNAs。在种内水平(即比较家犬品种和澳洲野犬),使用基于同线性的方法鉴定了约30%的一一对应同源lncRNAs,而使用Liftoff工具的序列比对策略则鉴定了约70%,分别对应0.2和0.57的Jaccard指数。结合同线性和比对方法的结果增加了保守lncRNA的数量,两个集合的并集产生了10,800个保守基因,对应于每个组装初始品种特异性lncRNA目录的80%以上。与最近的野生近亲澳洲野犬相比,基于同线性和序列比对,分别有20%和55%的犬类lncRNAs是保守的,反映了两物种间的中等分歧。相比之下,与亲缘关系更远的物种(人类、小鼠和斑马鱼)的比较显示保守性显著下降。应用Degalez等人流程的严格标准(要求lncRNA及其两个侧翼蛋白质编码基因均保守),只有2%的犬类lncRNA在人类和小鼠中具有同线性同源物,而在斑马鱼中这一数字降至仅0.3%,这再次凸显了超出哺乳动物谱系后lncRNA的快速进化更替。序列比对方法证实了这一趋势:约3%的犬类lncRNA与人类lncRNA显示一一对应同源性,犬与小鼠之间检测到0.2%的保守lncRNA,而在斑马鱼中未鉴定到任何同源物。
犬类性状与疾病中的功能性lncRNAs
与单基因性状相关的突变lncRNA
大多数人类和犬类的GWAS已鉴定出位于基因组非编码区域的、与孟德尔性状和复杂性状相关的变异。特别是,与未转录的基因间区域相比,lncRNA富含遗传变异。然而,确定此类变异的实际功能影响仍是一个重大挑战。在犬类中,只有少数研究调查了lncRNA突变在单基因疾病或体型变异中的因果作用,均涉及外显子区域内的单核苷酸变化。
第一个例子是位于GDNF基因上游、以反义方向转录的lncRNA GDNF-AS中的一个单核苷酸变化,与纯种犬中一种罕见的以痛觉不敏为特征的神经病变相关。结合系谱分析、靶向测序和等位基因特异性聚合酶链式反应(PCR),该核苷酸变化被证明是疾病的致病变异。qRT-PCR分析显示,与健康犬相比,观察病例的背根神经节中lncRNA和mRNA表达水平均显著降低。此外,利用电泳迁移率变动分析(EMSA)观察到,该突变显著改变了转录因子的结合。这些结果表明GDNF-AS可能作为增强子RNA(eRNA)发挥作用,其突变可能破坏了GDNF表达,导致感觉缺陷和自残行为。
第二个例子是在X连锁进行性视网膜萎缩(XLPRA1)中,在反义lncRNA ROBO1-AS和ROBO2-AS中发现了候选变异。利用核糖核酸酶保护分析和qRT-PCR,Appelbaum等人证明ROBO1-AS和ROBO2-AS以顺式作用方式与ROBO1和ROBO2形成lncRNA/mRNA双链体。这些观察可能说明,这些轴突导向ROBO通路的内源性反义转录本可能在视网膜重塑中发挥作用,促进了患病动物观察到的视网膜变性。
第三个功能性研究是关于反义lncRNA IGF1-AS。作者在胰岛素样生长激素因子1基因(IGF1)的反义lncRNA的最后一个外显子内发现了一个单核苷酸变化。该突变不仅影响犬,也影响狼和郊狼的体型和体重。他们还在距今5万年的古狼和古犬DNA中发现了该突变,结合比较基因组学方法,证明该lncRNA在犬科动物,特别是狼谱系的进化中发挥了关键作用。他们量化了IGF1 mRNA和IGF1-AS的表达水平,显示小型犬和大型犬之间没有差异,但在大型犬的血清中观察到IGF1蛋白多出两到三倍。因此,他们提出IGF1-AS可能在不影响其转录的情况下,调控IGF1 mRNA的翻译速率。
除了上述三个例子,多项GWAS还鉴定了序列(内含子和外显子)内具有基因组变异的lncRNA。这些候选突变具有显著的表型-基因型关联统计显著性,但其实际影响尚不清楚。例如,在MSRB3基因最后一个外显子下游27 kb的一个lncRNA中发现突变,与犬以及猪和羊的耳部大小相关。另一个突变位于反义lncRNA ADAMTS9-AS中,其关联的mRNA基因ADAMTS9是人类体脂分布的新候选基因,在犬中与体重变异显著相关。在ADRB1的 divergent lncRNA ADRB1-AU1中发现候选突变,该蛋白质结合Gαs偶联蛋白受体,控制表皮毛囊干细胞群。该lncRNA内含子内的变异与不同犬品种被毛下绒层的有无相关,表明其在决定犬被毛构成中的作用。在品种特异性疾病背景下,通过全基因组关联方法,在lncRNA区域鉴定出一个可能与拉布拉多犬前十字韧带(ACL)断裂相关的单核苷酸多态性(SNP)。这些发现表明,这些lncRNA可能在这些疾病或性状的遗传易感性中发挥作用。
癌症和疾病模型中差异表达的lncRNAs
与人类相似