基于先验引导因子分解的单细胞RNA测序数据可靠插补

《PLOS Computational Biology》:Prior-guided factorization for reliable imputation of scRNA-seq data

【字体: 时间:2026年03月21日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本文针对单细胞RNA测序(scRNA-seq)数据中因技术捕获损失(dropout)导致的过多零值难以区分其生物学(静默表达)或技术噪声来源的挑战,提出了一种全新的插补框架scZN。该研究从RNA双态转录的物理过程出发,将插补问题构建为一个受生物学先验和多重正则化约束的非负矩阵分解(NMF)优化问题,从而能够重建细胞表达谱。结果表明,scZN在抑制不应表达基因的虚假激活、增强细胞异质性分辨率、改善发育轨迹推断和通路分析等方面均优于现有方法,为单细胞数据下游分析提供了一个兼具准确性与可解释性的统一解决方案。

想象一下,科学家们正试图通过一台超级显微镜观察人体内每一个细胞的“工作日志”——基因表达谱,以揭示疾病奥秘或发育过程。这项强大的技术就是单细胞RNA测序(scRNA-seq)。然而,这台“显微镜”有个恼人的缺陷:由于技术限制,它经常会漏掉很多本应记录下来的信号,导致数据中出现大量零值。更棘手的是,这些零值中,有些是细胞确实“沉默”了某个基因(生物学零),有些则纯粹是技术故障没“拍到”(技术丢失,即dropout)。现有的数据处理方法很难区分这两者,要么过度“脑补”引入虚假信号,要么过于保守错失真实信息,严重干扰了对细胞真实状态和功能的判断。
为了解决这个根本性难题,一项名为“Prior-guided factorization for reliable imputation of scRNA-seq data”的研究在《PLOS Computational Biology》上发表。研究人员没有将插补简单地视为一个数据平滑或填充任务,而是从生物学第一性原理出发,提出了一个全新的框架scZN。该研究认为,观察到的scRNA-seq数据是RNA双态(开/关)转录随机过程与技术丢失共同作用的结果。基于此,scZN将插补构建为一个受生物学先验知识约束的非负矩阵分解(Nonnegative Matrix Factorization, NMF)问题。其核心思想是将原始的基因表达计数矩阵分解为两个具有明确生物学解释的非负因子矩阵:一个代表细胞对潜在生物学模块(如细胞类型)的归属概率,另一个代表各模块的基因表达特征。通过引入细胞类型标签等先验信息,并联合零膨胀负二项(Zero-Inflated Negative Binomial, ZINB)分布损失、z-score正则化等多种约束进行端到端优化,scZN能够更可靠地重建细胞表达景观,在填补技术丢失的同时,有效抑制不应表达基因的虚假激活。
这项研究主要采用了以下几个关键技术方法:首先,研究基于非负矩阵分解构建了生成式模型框架,将插补表达矩阵建模为两个可解释因子矩阵的乘积。其次,模型整合了多重正则化损失函数,包括基于Frobenius范数的NMF重建损失、模拟零膨胀与过度离散特性的ZINB负对数似然损失、保持细胞内部基因表达相对模式的z-score正则化损失,以及利用细胞类型标签增强可解释性的分类损失。最后,研究在多个真实的公开scRNA-seq数据集上进行了系统性基准测试,这些数据集涵盖人脑、小鼠胚胎干细胞、时间序列、阿尔茨海默病等多种生物学场景和测序平台,并使用了调整兰德指数(ARI)、聚类准确率(ACC)、F1分数、轮廓系数等指标进行量化评估,同时结合UMAP可视化、差异表达分析、KEGG通路富集、RNA速度分析等多种下游分析手段验证插补效果。
研究结果
概述 scZN
研究人员提出了scZN框架,它支持基于先验引导的监督式插补以及完全无监督的插补。该框架假设转录爆发遵循伽马-泊松(负二项)过程,而技术丢失引入了过多的零,并明确使用零膨胀负二项(ZINB)分布来对这两种稀疏性来源进行建模。为了缓解因子分解的非凸性,scZN以线性方式将谱系特征和细胞类型等生物学结构作为先验知识注入分解过程。
性能基准测试
在包含ERCC spike-in在内的多个真实数据集上的系统比较表明,scZN及其在先验引导下的变体scZN_priorNMF能够实现更清晰的细胞簇分离,并在细胞周期相位分类等任务上取得最高的准确率和宏F1分数。在外部一致性评估中,仅有少数方法相比原始数据有整体提升,而scZN_priorNMF在所有数据集和评估指标上实现了最大的改进。在计算效率和内存消耗方面,scZN和scZN_priorNMF也位列前三,显示出优异的高通量数据处理潜力。
超参数消融实验
通过对NMF重建、ZINB、z-score和分类这四种正则化项的不同组合进行测试,研究发现四项联合使用的配置能获得最佳的聚类指标(ARI=0.650)和轮廓系数,表明各项损失在优化中扮演了独特且互补的角色。引入先验知识能有效提升模型性能的稳定性。
先验标签的鲁棒性分析
研究表明,scZN_priorNMF对先验标签的质量具有鲁棒性。即使使用基于聚类的标签,也能表现出强大的插补性能。标签比例敏感性分析显示,随着可用标签比例增加,性能平稳提升;标签扰动实验则证实模型性能随标签噪声增加而单调下降,未发生标签信息泄露。
scZN不会引入虚假生物学信号
在人脑数据集上的多层面评估显示,scZN_priorNMF改善了UMAP可视化中的整体结构和簇边界清晰度。与多种基线方法相比,scZN更好地保留了细胞类型特异性标记基因的表达模式,未在无关细胞类型中引起异常上调。通过火山图、差异显著性分析和基因-基因相关性比较,证实scZN在去噪的同时,最大程度地保留了原始数据的相关结构和生物学特异性。虚假表达泄漏率分析表明,scZN_priorNMF在神经元和少突胶质前体细胞(OPC)之间具有最低的泄漏率。KEGG通路富集分析也显示,上调的基因富集在与其细胞类型相符的、有生物学意义的通路上,如神经元中的“神经活性配体-受体相互作用”通路,而未出现无关通路的错误富集。
稳健重建基因-基因相关性
通过比较人胚胎干细胞(H1和DEC)数据在插补前、插补后与批量RNA-seq数据之间的基因-基因相关性,研究发现scZN_priorNMF插补后的数据与批量RNA-seq的相关性模式一致性显著高于原始scRNA-seq数据。子采样稳定性分析和代表性标记基因(如ESRRB)表达模式可视化进一步证实,scZN_priorNMF能够恢复因dropout而丢失的、具有生物学意义的细胞类型特异性表达差异和基因共表达网络。
scZN强化细胞轨迹重建
在H1胚胎干细胞向定型内胚细胞(DEC)分化的时间序列数据集上,使用Monocle 3进行拟时序分析。原始数据的拟时序排序与真实时间点严重不符,且DEC标记基因HNF1B表达几乎缺失。而基于scZN_priorNMF插补数据的分析则得到了显著改善的UMAP结构,拟时序重建正确地排序了大部分时间点,并恢复了HNF1B在分化过程中的预期表达模式,表明适当的插补能实质性增强时间序列scRNA-seq的轨迹分析。
scZN增强RNA速度分析
利用已知谱系真相的小鼠齿状回数据集,研究评估了插补对scVelo和VeloVI两种RNA速度推断模型的影响。插补后,两种方法在跨边界方向一致性(CBDir)指标上均提升了20%以上。潜在时间分析、UMAP速度流线图及沿推断时间线的基因热图均显示,插补后的时间趋势变得更清晰、更准确,表明scZN能够缓解dropout效应,提升RNA速度分析的可靠性。
阿尔茨海默病scRNA-seq分析
在一个dropout率高达93.53%的阿尔茨海默病(AD)数据集上应用scZN。插补后,细胞异质性增加,聚类指标改善。差异表达和KEGG通路富集分析显示,AD组上调基因显著富集于免疫球蛋白超家族细胞粘附分子(IgSF CAM)信号、脊髓小脑性共济失调等与神经炎症、应激反应相关的通路,而对照组则富集于MAPK信号、非酒精性脂肪肝病等通路,符合AD的经典分子特征。这证明了scZN在高度稀疏的数据中增强细胞类型分辨率的同时,能保留有生物学意义的差异信号。
研究结论与意义
该研究提出的scZN框架,通过将单细胞数据插补重新定义为在计数统计模型和生物学先验联合约束下的、可解释的因子分解过程,成功解决了当前深度学习方法常有的两大局限:将所有零值视为缺失值进行全局平滑,以及插补局限于Scanpy等工具筛选的高可变基因(HVG)。scZN的核心贡献在于其在可解释的非负矩阵分解(NMF)空间中进行优化,同时考虑了计数统计和生物学先验,从源头上解决了深度学习模型的常见问题。综合来看,scZN在多个真实数据集上持续优于十余种竞争方法,在提高插补准确性的同时,保持了生物学一致性,并显著改善了拟时序分析和RNA速度分析等下游任务的结果。在阿尔茨海默病数据分析中观察到的神经炎症相关通路上调,既与先前研究吻合,也验证了scZN的有效性和实际应用价值。尽管scZN在无监督设置下性能提升有限,且存在需要预设因子分解秩k、计算成本较高等局限性,但它为处理单细胞RNA测序中的缺失值提供了一个统一且具有生物学意义的强大解决方案,并为未来扩展到多组学、空间转录组数据以及整合剪切/未剪切计数的联合分析奠定了方法学基础。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号