在单细胞和空间分辨水平解析不同癌症类型的长链非编码RNA多样性

《Nature Methods》:Unraveling lncRNA diversity at a single cell resolution and in a spatial context across different cancer types

【字体: 时间:2026年05月15日 来源:Nature Methods 32.1

编辑推荐:

  长链非编码RNA(long noncoding RNAs, lncRNAs)参与发育和疾病过程中的基因调控。本研究克服了批量测序lncRNA分析的固有局限性,利用单细胞和空间转录组学(spatial transcriptomics, ST)数据,分析了13种癌

  
长链非编码RNA(long noncoding RNAs, lncRNAs)参与发育和疾病过程中的基因调控。本研究克服了批量测序lncRNA分析的固有局限性,利用单细胞和空间转录组学(spatial transcriptomics, ST)数据,分析了13种癌症类型中通过TAR-scRNA-seq流程识别出的219,442个潜在lncRNA。通过鉴定lncRNA的细胞类型特异性和在不同组织区域的空间分布来评估其功能。研究人员将其与五个现有数据库进行比较,确认了共享的lncRNA,并发现了94,795个未注释的lncRNA。所识别的lncRNA在七种癌症类型中,通过三种单细胞分辨率的空间转录组学平台和两种长读长空间测序方法(包括靶向和非靶向方法)进行了实验验证。lncRNA与调控元件、疾病变异的全基因组共定位,以及与蛋白质编码基因的成对空间自相关分析,均提示了其潜在的功能作用。研究团队在AWS云上建立了一个免费、快速且用户友好的数据库“SPanC-Lnc”。SPanC-Lnc将有助于发现异质性组织内特定细胞群中潜在的功能性lncRNA,为生物学研究提供新的见解。
研究背景与科学问题
长链非编码RNA(long noncoding RNAs, lncRNAs)构成了转录组中大部分允许转录的区域。尽管数量庞大,但当前对转录事件的了解大多局限于编码蛋白质的1-2%的基因组。随着高通量技术的发展,lncRNA在包括癌症在内的多种疾病中的功能相关性日益凸显,它们常作为疾病识别的重要分子靶点。然而,对lncRNA的检测一直受限于其低丰度、细胞类型特异性表达模式以及现有计算工具对既往注释的依赖。以往的研究主要依赖于批量RNA测序(bulk RNA sequencing, RNA-seq)数据,这不可避免地导致了细胞类型信息和组织空间背景的丢失,而这两者对于理解发育和疾病状态下的转录调控至关重要。空间信息提供了转录本在组织内的位置、邻近细胞、共定位转录本或蛋白质及其相互作用伙伴的宝贵信息,从而增强了对生物学过程的理解。
单细胞RNA测序(single-cell RNA-seq, scRNA-seq)和空间转录组学(spatial transcriptomics, ST)等先进技术能在单细胞水平对转录本进行测序,同时保留空间信息。高达40%的lncRNA是多聚腺苷酸化(polyadenylated)的,另外40%是双态性(bimorphic)的,因此,通过使用多聚腺苷酸捕获方案(如10x Visium),可以分析这些转录本。此前利用scRNA-seq对乳腺癌样本进行的研究,仅在单细胞水平评估了已知(已注释的)lncRNA。其他声称分析了lncRNA“空间转录组”的研究,通常只是检查了lncRNA在不同批量组织中的表达,而非捕捉组织切片内lncRNA的细微表达模式。这些研究没有探索新的未注释lncRNA。虽然已为批量测序数据建立了几种新转录本识别方法,但将这些方法应用于空间转录组学和单细胞RNA测序数据,不仅能促进注释的扩展,还能揭示关于lncRNA的额外信息层,包括细胞类型特异性和空间背景,以揭示它们与蛋白质编码基因相互作用的物理表现。尽管这些技术尚未解决非多聚腺苷酸化lncRNA或整个稀有lncRNA谱系的识别问题,但创建一个通过尖端空间转录组学技术检测到的潜在lncRNA库,将为生物学发现奠定坚实基础。
此前,一些泛癌(pan-cancer)研究已经检查了临床相关的lncRNA,但本研究构成了对未表征或新的潜在lncRNA进行的大规模、空间分辨率调查,整合了细胞类型特异性信息,以推进对其在癌症中作用的理解。本研究旨在克服现有研究的局限性,通过整合大规模的单细胞和空间转录组学数据,系统性地发现、注释和验证多种癌症类型中新的lncRNA,并初步探索其功能,从而构建一个全面的空间和单细胞泛癌lncRNA图谱。
研究内容与意义
本研究题为“在单细胞和空间分辨水平解析不同癌症类型的lncRNA多样性”,发表在国际顶级期刊《Nature Methods》上。研究人员整合了来自13种癌症类型的28个已发表内部空间转录组学样本和24个单细胞RNA测序样本的数据,利用TAR-scRNA-seq流程分析了潜在的新lncRNA。研究发现了大量未注释的转录活性区域(unannotated transcriptionally active regions, uTARs),并通过多种实验平台(包括STOmics、Takara Bio Seeker、Xenium原位测序、Oxford Nanopore Technologies和PacBio MAS-Seq长读长测序)以及qRT–PCR进行了交叉验证。研究人员进一步通过分析其细胞类型特异性、空间分布、与癌症相关基因的空间共表达、与RNA结合蛋白(RNA binding proteins, RBPs)的预测相互作用、与调控元件和疾病变异的共定位,来推断这些新lncRNA的潜在功能。最终,研究团队构建了一个名为“SPanC-Lnc”的免费、快速、用户友好的在线数据库,将所有发现和资源公开。这项研究不仅极大地扩展了癌症相关lncRNA的注释,更重要的是,通过单细胞和空间分辨率提供了前所未有的洞察力,为理解lncRNA在肿瘤异质性、微环境调控和治疗反应中的作用提供了全新视角和宝贵资源,推动了非编码RNA研究领域的发展。
主要技术方法
本研究综合利用了多种高通量测序和生物信息学分析方法。研究数据来源于13种癌症类型的28个内部空间转录组学样本(主要使用10x Visium平台,包括新鲜冷冻和FFPE样本)和24个公开及内部的单细胞RNA测序样本。核心分析采用基于隐马尔可夫模型(HMM)的TAR-scRNA-seq流程,从比对后的BAM文件中识别未注释的转录活性区域(uTARs),并生成表达矩阵。为验证和拓展发现,研究人员使用了多种前沿空间技术进行交叉验证,包括:1) 单细胞分辨率空间技术:Takara Bio Seeker(乳腺癌、黑色素瘤样本)和STOmics OMNI测序(黑色素瘤、结直肠癌样本);2) 高分辨率多重荧光原位杂交技术:10x Xenium(针对76个候选cuTARs设计定制panel);3) 长读长空间测序:对10x Visium文库的未片段化cDNA进行Oxford Nanopore Technologies和PacBio MAS-Seq测序,以确认转录本真实性。此外,还通过定量逆转录PCR(quantitative reverse transcription PCR, qRT–PCR)对选定候选lncRNA进行了湿实验验证。在生物信息学分析方面,使用CPAT和RNAsamba评估编码潜力,利用BEDtools与多个公共数据库(如FANTOM、LncBook、NONCODE、GENCODE v.47)进行注释重叠和结构表征,应用AlphaGenome预测剪接位点,并采用空间自相关分析(双变量Moran‘s指数)、共表达网络分析(hdWGCNA)和机器学习工具(HLPI-Ensemble)来推断lncRNA的潜在功能、与癌症相关基因的共表达及与RNA结合蛋白的相互作用。
研究结果
1. 在空间和单细胞数据集中识别潜在lncRNA
研究人员分析了来自13种癌症类型的样本,使用TAR-scRNA-seq流程识别潜在的未注释转录活性区域(uTARs)。将跨样本重叠的uTARs合并为非冗余的癌症相关uTARs(cancer-associated uTARs, cuTARs)集。共识别出219,442个cuTARs,其中约40-60%与公共lncRNA数据库(如FANTOM、LncBook、LNCipedia、NONCODE)中的条目重叠,而大量cuTARs(94,795个)是未注释的。通过比较GENCODE v.43和v.47,发现许多在v.43中未注释的uTARs在v.47中被归类为lncRNA,验证了本方法的发现能力。大多数cuTARs(76.6%)被CPAT和RNAsamba共同预测为非编码,且长度超过200 bp,符合“长链”非编码RNA的特征。通过重叠转录起始位点(transcription start site, TSS)、多聚腺苷酸化位点(poly-A sites, PAS)和剪接位点等外部证据,对cuTARs进行了结构表征,并利用AlphaGenome预测了其剪接模式。
2. 识别癌症组织区域富集的lncRNA
研究人员探究了cuTAR表达是否特异性地局限于活检组织内的肿瘤区域。在头颈癌(head and neck, H&N)和结直肠癌(colorectal cancer, CRC)样本中,鉴定出在病理学家注释的或基于基因表达谱推断的肿瘤区域内差异表达的cuTARs。通过比较癌区与正常区表达这些cuTARs的spots百分比,识别出在肿瘤区域特异性高表达的候选cuTARs。这些候选物在TCGA(The Cancer Genome Atlas)的批量RNA-seq数据中也显示出在对应癌症类型中较高的表达,支持其肿瘤特异性。
3. 使用空间长读长测序确认lncRNA检测
为增加转录本识别的可信度,研究人员对10x Visium文库的未片段化cDNA进行了Oxford Nanopore Technologies和PacBio MAS-Seq长读长测序。尽管这些文库仍存在3‘偏好性,但长读长产生了更长的片段,使得cuTAR信号的比对比使用Visium短读长数据更为可靠。在头颈癌、皮肤鳞状细胞癌(squamous cell carcinoma, SCC)和基底细胞癌(basal cell carcinoma, BCC)样本的ONT数据中,以及结直肠癌样本的PacBio数据中,均成功检测到了大量cuTARs,其空间表达模式与短读长数据一致,从而验证了从短读长数据中检测到的uTAR表达是真实的转录信号,而非流程假象。
4. Takara Bio Seeker和STOmics空间数据在单细胞分辨率确认cuTARs
研究人员在Takara Bio Seeker平台(乳腺癌、黑色素瘤样本)和STOmics平台(黑色素瘤、结直肠癌样本)的单细胞分辨率空间数据中验证了cuTARs。在Seeker数据中观察到了与Visium/scRNA-seq一致的编码基因和癌症特异性cuTARs的表达模式,相当一部分在Visium/scRNA-seq中识别的cuTARs也在Seeker样本中检测到。在STOmics数据中,超过一半的cuTARs在至少三个细胞中被检测到。这些结果在单细胞分辨率上交叉验证了cuTARs的存在和空间表达模式。
5. 通过定量逆转录PCR实验检测lncRNA
通过qRT–PCR对七个选定的cuTARs进行了实验验证和定量。使用针对每个cuTAR的特异性引物,在头颈癌、皮肤鳞状细胞癌、基底细胞癌和结直肠癌样本中成功检测到了除一个低信号外的所有目标lncRNA,为计算分析结果提供了湿实验支持。
6. 通过lncRNA与癌症相关基因的空间共表达分析推断潜在功能
利用双变量Moran‘s指数识别空间可变的cuTARs与癌症标志基因之间的共表达模式,以数据驱动的方式预测功能性cuTARs。在头颈癌样本中,发现一些cuTARs与大量癌症相关基因(如参与P53通路、G2M检查点的基因)存在高度空间共表达。共表达网络分析(hdWGCNA)进一步揭示,一个候选cuTAR(cuTAR170206)与一个基因模块共表达,该模块富含多种癌症标志,并与已知在转移性口咽癌中下调的基因NDRG1高度共表达。这些分析提示了这些cuTARs可能参与癌症相关的调控网络。
7. 通过机器学习预测与RNA结合蛋白的相互作用及共定位推断功能
lncRNA通过与RNA结合蛋白相互作用来调控mRNA和蛋白质的定位与功能。研究人员应用机器学习模型HLPI-Ensemble来预测候选cuTARs与RNA结合蛋白的相互作用。例如,在乳腺癌样本中,cuTAR215705被预测与RNA结合蛋白ELAVL1(HuR)和TARDBP(TDP-43)相互作用,并且它与基因BIRC5(survivin)及ELAVL1在肿瘤细胞中呈现空间共定位。已知ELAVL1与BIRC5的表达上调相关,这提示cuTAR215705可能通过相互作用子参与乳腺癌的调控。
8. 与癌症治疗反应相关的细胞类型特异性lncRNA案例研究
  • 案例1:肢端和皮肤黑色素瘤中的细胞类型特异性lncRNA及其与抗PD-1免疫治疗反应的关联:通过分析公共黑色素瘤单细胞RNA测序数据集,识别了不同细胞类型中差异表达的lncRNA,并分析了它们对抗PD-1治疗的反应。发现了一些在肿瘤细胞中上调的cuTARs,并与已知的黑色素瘤相关蛋白编码基因(如PMEL、MLANA、ESRP1、ANXA1)共表达。此外,还鉴定出在治疗前后差异表达的cuTARs,提示它们可能参与治疗反应。
  • 案例2:髓母细胞瘤PDOX模型中对palbociclib的反应:在患者来源的异位移植(patient-derived orthotopic xenograft, PDOX)小鼠模型中,比较了palbociclib(一种CDK4/6抑制剂)处理与未处理的样本。发现一些在未处理的人肿瘤区域表达的cuTARs,在药物处理后的人肿瘤区域下调或不再表达,其趋势与已知的原癌基因(如FOXM1、PLK1、E2F1、GLI2)相似,表明这些lncRNA可能受到相同通路的调控。
9. 使用Xenium定制panel验证lncRNA检测、癌症特异性和共表达模式
研究人员设计了包含76个cuTARs的定制Xenium panel进行独立验证。所有设计的cuTARs均被检测到表达,且显著高于基因组DNA阴性对照探针的信号。差异表达分析确认了cuTARs的癌症类型特异性,与之前在单细胞RNA测序和Visium中的观察一致。在单细胞分辨率下可视化显示,这些cuTARs特异性表达于预测的肿瘤细胞中。此外,在Visium、Xenium、Seeker和scRNA-seq等多个平台样本中,验证了cuTAR215705和cuTAR32998与BIRC5的共表达模式及其互斥表达关系。生存分析显示,在TCGA乳腺癌队列中,cuTAR215705高表达与不良预后相关,而cuTAR32998高表达与较好预后相关,且这两个cuTARs对患者的分层效率优于BIRC5基因本身。
10. 一个空间和单细胞泛癌lncRNA图谱
本研究的所有发现已通过建立在AWS云上的“SPanC-Lnc”数据库公开。该数据库交互式地提供了lncRNA/cuTAR注释、跨癌症表达比较、通过UMAP叠加展示的细胞类型特异性、在肿瘤切片内的空间定位可视化、剪接连接点预测以及相关元数据查询功能。SPanC-Lnc是一个具有单细胞和空间背景的大型泛癌已知和新lncRNA资源,弥补了现有主要基于批量RNA测序数据的lncRNA资源在分辨率上的不足。
讨论与结论
本研究利用先进的转录组学技术,揭示了癌症中大量先前未注释和/或未表征的lncRNA的多样性 repertoire。通过跨多种癌症类型的整合分析,研究人员发现了表现出动态表达模式和肿瘤特异性空间分布的lncRNA,这表明它们可能在肿瘤发生和癌症进展中扮演主要调控因子的潜在角色。
在结构层面,lncRNA可能源自增强子、启动子、假基因或转座子。源自活性增强子转录的lncRNA(e-lncRNA)已知参与许多癌症相关的生物学过程。在遗传水平,疾病相关的全基因组关联研究(genome-wide association study, GWAS)单核苷酸多态性(single-nucleotide polymorphism, SNP)或表达数量性状基因座(expression quantitative trait loci, eQTL)可能通过改变共定位lncRNA的水平来调控附近的蛋白质编码基因。与涉及细胞周期、细胞增殖、免疫反应、血管生成、缺氧和转移等癌症相关通路的编码基因的空间自相关,揭示了这些新lncRNA在癌症发展关键生物学过程中的潜在参与。
本研究中,500 bp窗口内的读数被合并并注释为一个单一的uTAR。虽然这种启发式方法简化了注释,但也引入了潜在的局限。本研究对cuTAR的发现和表征主要基于Visium和单细胞RNA测序数据,其中转录本边界较短且更保守,降低了在新lncRNA识别过程中过度合并的风险。STOmics/Seeker数据用于验证而非发现。研究人员优先考虑的是表达特异性、可重复性和生物学关联,而非精确的转录本边界。因此,尽管存在细微的注释差异,这些cuTARs的生物学信号和特异性仍然稳健。该图谱提供了一组具有生物学相关性的癌症特异性、细胞类型特异性和治疗响应的lncRNA,可作为生物学发现的基础,并可随着转录本注释的改进而进一步完善。
虽然多聚腺苷酸化lncRNA是本研究的主要焦点,但其他类别的非编码RNA,如环状RNA(circular RNAs, circRNAs)、前体microRNA/microRNA、piRNA以及非多聚腺苷酸化lncRNA,也在癌症中异常表达并参与基因调控。识别这些lncRNA以及本研究提出的新lncRNA集合,将为未来研究提供宝贵资源。值得注意的是,研究人员还添加了STOmics(随机六聚体捕获)数据以补充多聚腺苷酸捕获方法。这暗示其中一些uTARs可能是非多聚腺苷酸化lncRNA,值得在未来研究中进一步探究。
从单细胞RNA测序和空间数据中识别出的大量lncRNA,可以被指定为特定细胞亚群(包括稀有细胞)的高表达标志物。SPanC-Lnc构成了一个可扩展的资源,用于研究lncRNA生物学的基本方面,提供了在单细胞和空间分辨率上识别新lncRNA并推断其功能的新方法。通过系统比较不同细胞亚群中的lncRNA表达,该发现框架能够探究细胞类型特异性、转录异质性和上下文依赖性表达模式,这些是通过批量RNA测序无法获得的。空间信息的整合进一步允许检查lncRNA表达如何随组织架构变化,例如肿瘤核心、免疫富集区域和侵袭边缘。这种空间分辨的视图为研究微环境相关的转录程序提供了机会,并可通过lncRNA与编码基因和通路的共定位和共调控,生成关于lncRNA原位调控的可检验假设。值得注意的是,SPanC-Lnc建立了一个标准化的计算策略,用于整合单细胞和空间数据集,以跨不同技术平台和癌症类型注释、优先排序和可视化lncRNA。因此,它提供了一个参考数据库,可以扩展以包含更多组织、疾病状态和新兴的单细胞及空间技术的额外数据集。通过实现以细胞分辨率系统探索非编码转录组,该资源促进了旨在定义lncRNA表达和功能调控原则的机制研究。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号