《Advanced Science》:SiCmiR Atlas: Single-Cell miRNA Landscape Reveals Hub-miRNA and Network Signatures in Human Cancers
编辑推荐:
本文推荐一篇题为“SiCmiR Atlas: Single-Cell miRNA Landscape Reveals Hub-miRNA and Network Signatures in Human Cancers”的研究。该工作介绍了SiCmiR,一种仅需977个LINCS L1000标志基因即可从单细胞RNA测序(scRNA-seq)数据中高精度预测成熟微小RNA(miRNA)表达谱的双层神经网络模型。研究构建了首个专门的单细胞成熟miRNA表达数据库——SiCmiR Atlas,涵盖362个公共数据集、936万个细胞和726种细胞类型,为癌症生物标志物发现和细胞间通讯研究提供了宝贵的社区资源。
文章内容归纳总结
1 引言
微小RNA(miRNA)是关键的转录后调控因子,其失调与癌症的增殖、干性、侵袭和免疫逃逸等几乎所有特征相关。然而,由于单细胞小RNA测序的技术障碍,miRNA在单细胞水平的行为在很大程度上仍无法探究。现有方法如加权基因共表达网络分析(WGCNA)或基于注释的方法,受限于功能注释不全和覆盖范围有限。尽管单细胞RNA测序(scRNA-seq)在mRNA水平研究上取得重大进展,但单细胞miRNA测序仍不成熟,面临多聚腺苷酸化依赖、适配体二聚体形成、数据高稀疏性等挑战。近期研究如miRSCAPE和miTEA-HiRes在单细胞分辨率下改进了miRNA活性的推断,但前者需要约2万个基因特征,易受零膨胀影响;后者依赖于经典靶基因列表,无法捕获连续的miRNA表达谱。
SiCmiR通过仅依赖977个标志基因且不需要靶基因的先验知识,解决了这些局限性。它证明了在肝细胞癌、胶质母细胞瘤和促肾上腺皮质激素(ACTH)分泌型垂体腺瘤中的稳健性,并在单细胞分辨率下揭示了癌症中的414个枢纽miRNA以及细胞外囊泡(EV)介导的细胞间通讯。为了最大化该方法的效用,研究进一步将跨多个数据集的预测结果汇编为SiCmiR Atlas,这是首个致力于单细胞成熟miRNA表达的公开数据库,提供交互式可视化、生物标志物挖掘和细胞类型解析的miRNA-靶标网络。通过将批量样本的统计能力与细胞类型水平元数据结合,SiCmiR建立了一条剖析异质性组织中miRNA调控的实用途径,从而加速了肿瘤学中生物标志物和药物靶点的发现。
2 结果
2.1 SiCmiR的性能分析与特征选择
SiCmiR的性能通过基准测试多种模型架构并验证使用977个输入特征的有效性进行评估。SiCmiR使用了来自LINCS L1000项目的977个标志基因。基线性能在神经网络、ResNet和Transformer模型之间进行比较,神经网络实现了优越的性能并被选用于后续优化。使用L1000特征,训练集和测试集中所有miRNA的平均皮尔逊相关系数(PCC)分别达到0.75和0.67。三折交叉验证证实了此性能的稳健性。当特征数量限制在1000左右时,L1000标志基因始终优于选定的可变基因集,并大幅降低了计算成本。SiCmiR的预测准确性也高于miRSCAPE。在6462个TCGA泛癌样本上重新训练两个框架后,使用977个标志基因,SiCmiR在独立测试集上达到0.67的PCC,优于miRSCAPE的0.61。在单个miRNA性能方面,最高的预测PCC是0.984,对应的是公认的致癌miRNA hsa-miR-21-5p。
2 were used for model performance evaluation. (A–D) compares the performance of models with the number of nodes in hidden layers set to 512 and 1024, the number of hidden layers ranging from 1 to 4, the dropout rate ranging from 0.1 to 0.4 in the SGD optimizer, and the learning rate ranging from 0.05 to 0.4. (E,F) Average PCC of each miRNA in the train set and test set using mRNA features of L1000 landmark genes, top 1000, 5000, 10 000 variable mRNAs, and all mRNAs. (G,H) Performance of SiCmiR excels miRSCAPE overall and across all cancer types. (I–L) High correlation between observed and predicted values in SiCmiR, highlighting miRNAs with the top performance.">
2.1.2 通过特征丢失和稀疏性进行压力测试以评估模型稳健性
为了评估SiCmiR是否依赖于有限的标志基因子集,进行了压力测试,包括随机特征丢弃和SHAP引导的特征去除。随机移除5%–90%的L1000标志基因导致性能平稳且逐渐下降,没有出现突然的性能崩溃。即使大约70%–80%的基因被掩盖,模型仍保持非平凡的预测准确性。这种模式表明模型依赖于广泛的基因集,而不是少数不可或缺的基因。SHAP排序的消融揭示了一种明显的不对称性。从低到高按SHAP值移除特征会导致性能稳步恶化,直到超过90%的最低排名标志基因被移除,此后性能迅速崩溃,表明存在一个紧凑的高重要性核心。相反,从高到低按SHAP值顺序移除特征会导致所有指标几乎呈线性恶化。这些结果表明,SiCmiR依赖于一个紧凑的核心和一个广泛分布的尾部特征,反映了非稀疏的、分布式的表示,而不是对一个小而孤立的子集的依赖。
为了评估SiCmiR在单细胞谱中常见的稀疏性下是否保持稳定,对矩阵进行了三种互补的扰动。首先,应用了非零条目的统一掩盖。其次,引入了使用泊松方案的分位数分层丢失。第三,通过多项UMI下采样模拟测序深度减少。在所有扰动中,随着稀疏性增加,性能持续下降。在均匀掩盖下,模型在大约95%密度时崩溃。分层的泊松式掩盖表现出中间效应,性能下降更平缓。相比之下,UMI下采样显示出更大的稳定性。多项下采样单独产生性能随测序深度降低而下降。值得注意的是,在UMI下采样的基础上添加泊松式掩盖,稀疏性达到80%–90%而模型没有崩溃。Z评分归一化将稀疏性降至零,但无法恢复在掩盖或下采样期间丢失的排序或协方差信息,模型性能继续遵循Z评分前的稀疏性曲线。总之,这些结果表明,尽管SiCmiR在深度和稀疏性减少下保持稳定,但推荐使用细胞类型平均或bootstrap池化谱进行应用,因为它们显著降低了稀疏性并提高了预测可靠性。
2.2 跨癌种泛化、批量测序和单细胞测序案例研究
为了评估所提方法在单细胞miRNA表达预测中的适用性,首先分析了永生细胞系数据,假设细胞间表达同质,因此批量测序谱代表平均的单细胞表达。SiCmiR成功预测了K562、293T、HeLa和A549细胞的生物标志物表达。随后,SiCmiR被应用于Peng等人收集的胰腺导管腺癌(PDAC)样本的单细胞测序数据。细胞类型使用原始研究中的标记基因进行注释。与文献中已知的101个失调miRNA列表相比,SiCmiR使用池化数据正确预测了66个miRNA,使用单细胞数据直接预测了28个。总体而言,SiCmiR的准确度为0.65,而miRSCAPE为0.29。其中,hsa-miR-30b-3p在DC1中高表达,与批量测序中正常组织相比肿瘤组织的表达更高一致。hsa-miR-21-5p在DC2和MUC5+DC1中过表达,与报告的细胞类型恶性轨迹和对临床结果的负相关一致。
+ DC1, and malignant DC2. (H) T-SNE shows cell annotation of cells in the PitNET scRNA-seq dataset. (I,J) The feature plot of the inferred expression profile of hsa-miR-136-3p and hsa-miR-410-3p showed a significant difference between tumor cells and stromal cells, as in real data.">
为了进一步测试对未包含在TCGA数据中的癌症类型的泛化能力,将SiCmiR应用于Zhang等人的ACTH分泌型PitNET单细胞测序数据。使用基质细胞作为基线,SiCmiR预测了55/75个报告的失调miRNA,使用池化数据的灵敏度为0.73。预测的hsa-miR-136-3p和hsa-miR-410-3p表达在基质细胞中高于肿瘤细胞,与预期一致。使用非池化的单细胞数据,预测了46个miRNA。这些结果表明SiCmiR适用于TCGA训练数据中未出现的癌症类型,这表明模型已学习到与mRNA相关的miRNA表达模式,其应用不仅限于TCGA的癌症类型,还扩展到多种癌症类型。
SiCmiR也适用于批量组织和药物扰动样本。对于肝细胞癌(HCC)与正常组织,恢复了Varghese等人报告的24个差异表达miRNA(DEmiR)中的19个。在模型测试集中PCC ≥ 0.8的13个DEmiR中,正确预测了12个,包括hsa-miR-139-3p/5p和hsa-miR-378d。这些结果证明了SiCmiR在癌症组织中识别DEmiR的有效性。进一步将SiCmiR应用于本实验室测序的、用肉桂(一种传统中药)在三种浓度下处理的A549细胞的批量RNA测序数据,通过qPCR验证了DEmiR。鉴定出7个DEmiR,包括5个在测试集中PCC ≥ 0.8的miRNA。这些结果证明了SiCmiR在识别药物扰动的DEmiR方面的有效性。
为了确定SiCmiR是否泛化到癌症衍生谱之外,进一步在GTEx队列中评估了其性能。尽管TCGA肿瘤和GTEx正常组织之间存在显著的技术和生物学差异,SiCmiR在PCC ≥ 0.8的miRNA中保持了0.553的PCC,在所有miRNA中平均为0.465。相比之下,当在TCGA上训练的XGBoost模型迁移到GTEx时,miRSCAPE的准确性显著下降,在大脑、乳腺、结肠、肝脏和肺组织中平均PCC降至0.25以下。这些结果表明,SiCmiR捕获了miRNA-mRNA调控结构的一个可转移部分,该部分超出了癌症衍生模式的范围。
2.3 SiCmiR Atlas构建与软件实现
为了展示方法的实用性,构建了SiCmiR Atlas,它整合了来自362个公开可用的单细胞测序数据集的936万个单细胞,跨越189个解剖学上不同的人体组织,涵盖26个主要器官。细胞根据原始研究进行注释,产生了726个独特的细胞身份,从深度嵌入的组织特异性亚型到广泛共享的免疫谱系。临床元数据被分为84种生理或疾病状态,分布在12个广泛的疾病类别中。基于这一综合资源,实现了四个完全集成的分析模块:数据收集和注释、生物标志物识别、miRNA或mRNA差异分析、内置的miRNA-靶标相互作用(MTI)网络构建器。特别是,差异分析模块支持细胞类型之间的对比分析,允许用户跨不同细胞类型和疾病背景在单细胞分辨率下识别上下文特异性失调的miRNA。总之,这些结果表明SiCmiR Atlas提供了一个统一的、注释的单细胞miRNA生物学数据库。它支持交互式查询,通过UMAP可视化细胞簇分布,并提供一套连贯的工具用于交互式探索、生物标志物发现和构建细胞类型解析的调控网络。值得注意的是,据我们所知,SiCmiR Atlas代表了首个专门致力于单细胞成熟miRNA表达的公开可用资源,为实际的机制研究和转化应用提供了可扩展的、数据驱动的基础。
为了进一步展示SiCmiR Atlas的分析能力,系统性地识别了跨多种组织和状态的细胞类型特异性miRNA生物标志物。来自726个注释细胞类型的预测表达谱被汇总,以优先考虑在特定谱系中持续高表达的miRNA。代表性的热图展示了一组细胞类型富集的miRNA,揭示了跨不同生物学背景的强大且反复出现的表达模式。该分析不仅确认了已建立的标记物,例如内皮细胞中的hsa-miR-126-5p和上皮细胞中的hsa-miR-141-3p,还潜在地发现了用于细胞身份和功能的新候选物。这些保守的特征为基于miRNA的细胞类型注释提供了宝贵的参考,促进了批量miRNA数据的解卷积,并可能作为研究特定细胞区室中调控回路切入点。
2.4 SiCmiR发现的枢纽miRNA作为癌症生物标志物
miRNA与mRNA表达之间的相关性越高,可以提取的表达模式就越好,它们之间的调控就越活跃和紧密。在PCC为0.8时观察到一个肘状转变,高于此阈值的miRNA显示出显著的跨癌种参与度增加。PCC = 0.80因此被采纳为枢纽miRNA识别的阈值。在独立测试集中,414个miRNA满足此阈值,在33种癌症类型中显示出可重复的表达谱,暗示其受靶mRNA的紧密调控。与PCC < 0.8的miRNA相比,这些枢纽miRNA形成了更密集的癌症相关网络,平均度约为11.12,是其他miRNA的约2.4倍。其靶标的基因本体富集突出了与肿瘤发生、进展和转移相关的核心通路。
为了解释模型预测,应用SHAP来量化每个特征的贡献。SHAP加权边的网络分析揭示了12个功能模块。在由特征COL1A1、CDC25A和GLI2驱动的模块10中,miRNA聚集在14号染色体上。值得注意的是,41个COL1A1贡献的miRNA中有32个,例如hsa-miR-127-3p/5p、hsa-miR-134-5p、hsa-miR-136-3p/5p,位于该染色体上。靶标富集分析将该模块与转移相关过程联系起来,包括血管生成、细胞外基质重塑和上皮-间质转化。对于这32个miRNA,COL1A1表现出强烈的、正的、且显著大于任何次要特征的SHAP贡献。生存分析表明,这些miRNA的顶级贡献者COL1A1、TGFB3、CDC25A、TNIP1、STAT5B和TRAK2与透明细胞肾癌(KIRC)和乳头状肾癌(KIRP)的预后相关。与这些机制见解一致,在TCGA-KIRP队列中,14号染色体富集的miRNA集合表达升高的患者表现出明显更差的总生存期。由于肾细胞癌的进展依赖于血管生成、侵袭和迁移,这些发现与COL1A1相关miRNA富集的通路一致,并共同展示了模型解释如何揭示驱动癌症发展的枢纽miRNA/mRNA轴。
2.5 SiCmiR解锁胶质母细胞瘤中EV介导的通讯图
miRTalk通过将发送者-发送者-接收者-接收者“分泌评分”与从单细胞谱中推断的mRNA表达推断的接收者细胞RISC活性耦合,描述了EV-小RNA货物如何重塑肿瘤生态位。然而,成熟miRNA丰度通常与miRNA基因表达不一致,这限制了这种方法。为了解决这个问题,将SiCmiR推断的单细胞miRNA谱整合到miRTalk框架中,并重新评估了胶质母细胞瘤(GBM)中的细胞间通讯。质量控制后,保留了3497个细胞,识别出八个经典谱系,包括恶性细胞、OPC样细胞及其脑内驻留的基质对应物。汇总显著边产生了一个发送者-接收者矩阵,突出显示了来自恶性细胞和巨噬细胞的显著通讯流量,而少突胶质细胞祖细胞样细胞(OPC)和神经元主要作为接收者。鉴定了114501个高置信度的miRNA-靶标对。将SiCmiR推断的成熟miRNA丰度整合到miRTalk工作流程中,显著扩展了预测的EV介导的miRNA-靶标网络的广度和生物学一致性。这种SiCmiR增强的工作流程产生了114501个高置信度miRNA-靶标相互作用,是原始代理分析的20多倍,并使边在TCGA-GBM队列的批量RNA测序谱中显示预期负相关miRNA-mRNA斯皮尔曼相关的可能性增加了三倍。平均相互作用得分增加了近50倍,反映了更密集、更可靠的相互作用格局。与更强的相互作用将转化为更大的抑制作用的预期一致,总抑制效应也略有增强。

在单个miRNA分辨率上,SiCmiR识别了调节肿瘤微环境的谱系限制性EV货物。hsa-miR-125b-5p在TCGA GBM样本中显著升高。在TCGA-GBM内部,miR-125b-5p水平与其已验证靶标的表达呈负相关,表明在批量组织中有有效的靶标抑制。特征叠加证实miR-125b-5p在发送者恶性簇中富集,而其靶标TNFAIP3在恶性簇和邻近星形胶质细胞中相互表达。这些相关性支持了一个自分泌环,其中富含miR-125b的EVs在肿瘤核心内加强脂质代谢信号并抑制细胞凋亡。同样,hsa-miR-10b-5p抑制接收者OPC样细胞中的五个促凋亡基因,这些细胞通常是GBM中恶性细胞的祖细胞,与先前报道的miR-10b赋予生存优势和侵袭表型一致。相比之下,巨噬细胞富集的hsa-miR-21-5p将致癌信号输出到恶性簇,与B3GNT5、ICAM1和TNFAIP3呈正相关。总之,这些结果表明,提供由SiCmiR预测的成熟miRNA表达不仅增加了网络覆盖范围,而且显著增强了miRTalk的细胞间miRNA-靶标相互作用的生物学合理性,提供了EV介导通讯的更高分辨率视图。
3 讨论
本研究介绍了SiCmiR,这是一个计算框架,旨在仅从977个标志基因推断miRNA活性,并将这些预测扩展到SiCmiR Atlas,这是首个开放的单细胞成熟miRNA景观存储库。通过将输入空间从超过2万个基因减少到977个,SiCmiR减轻了零膨胀,并在33种TCGA肿瘤类型和多个单细胞测序数据集中达到了最先进的准确性。SiCmiR Atlas将预测谱和细胞类型元数据存储在用户友好的网页中,支持交互式下游应用。在HCC、GBM和ACTH-PitNET的概念验证案例研究表明,框架恢复了文献支持的致癌miRNA,揭示了具有预后价值的候选枢纽调控因子,并阐明了恶性和基质群体之间EV介导的串扰。
然而,将批量衍生模型应用于单细胞数据需要谨慎解释。从生物学角度看,批量RNA测序捕获了群体平均的转录关联,可能无法完全反映仅在单细胞分辨率下可观察到的细胞类型特异性或状态依赖的miRNA-mRNA定量关系。从技术角度看,单细胞分析引入了丢失和可变的检测灵敏度,这会削弱真实分子丰度与观测表达值之间的耦合。这些因素表明,当生物异质性或技术噪声占主导时,批量训练模型的准确性可能会降低。稀疏性仍然是单细胞转录组学中固有的挑战。压力测试结果凸显了未来对噪声感知架构和稀疏性鲁棒特征先验的需求。值得注意的是,从批量FPKM采样将保留的基因组成转向较低表达排名。这种组成变化与图中的曲线交叉相吻合,表明反转源于采样引起的特征协方差结构变化,而非真正的模型失败。这一结果突显了在模型训练期间纳入原始计数信息的价值。此外,跟踪了Z评分归一化前后的稀疏性。正如预期,Z评分将零映射到有限值并消除了数值稀疏性,但它无法恢复在掩盖或下采样期间丢失的排序或协方差信息,模型性能继续遵循Z评分前的稀疏性曲线。总之,这些结果表明,尽管SiCmiR在深度和稀疏性减少下保持稳定,但推荐使用细胞类型平均或bootstrap池化谱进行应用,因为它们显著降低了稀疏性并提高了预测可靠性。
在结果中,对成熟miRNA水平的准确预测以及同一家族内成熟miRNA表达水平之间观察到的相关性是生物学上预期的。同一家族的成员通常共享大量的序列相似性,这可能导致mRNA靶标组重叠,这一方面与模型设计的基本原理一致。此外,同一miRNA簇的成员也源自相同的前体初级转录本,位于染色体邻近位置,并共享共同的转录调控因子。这些转录和基因组关系建立了一个生物学背景,可能有助于模型的性能,尽管它缺乏明确的翻译信息,如等位基因变异、DNA和组蛋白修饰,以及转录后信息,如pri-miRNA结构约束、Dr