基于scLENS数据驱动降维的全自动单细胞RNA测序聚类方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《CMES - Computer Modeling in Engineering and Sciences》：A Fully Automated, Data-Driven Approach for Dimensionality Reduction and Clustering in Single-Cell RNA-seq Analysis

【字体：大中小】 时间：2026年01月27日 来源：CMES - Computer Modeling in Engineering and Sciences

编辑推荐：

　　本研究针对单细胞RNA测序分析中传统降维方法依赖固定参数、影响聚类可靠性的问题，开发了一种集成scLENS自动主成分选择与ChooseR/MultiK共识聚类的全自动流程。在33个真实和模拟数据集上的测试表明，该方法使ChooseR和MultiK的聚类性能分别提升约14%和10%，尤其在数据稀疏度高、分布偏斜大的"困难"数据集上表现突出，为单细胞分析提供了更可靠的自动化解决方案。

单细胞RNA测序（scRNA-seq）技术的出现为解析细胞异质性提供了前所未有的分辨率，但随之而来的高维数据处理挑战也不容小觑。传统的分析流程中，降维（DR）和聚类是关键步骤，然而这些步骤往往依赖于研究人员的主观参数设置，就像摄影师手动调焦一样，不同的人可能会得到截然不同的结果。特别是主成分分析（PCA）这一常用降维方法中，主成分（PC）数量的选择常常依赖于软件默认值或简单经验法则，这种"一刀切"的做法显然无法适应不同数据集特有的生物学复杂性。

尽管近年来出现了ChooseR和MultiK等自动化聚类工具，它们能够通过共识聚类自动确定最佳聚类数量，但在降维环节仍然固守固定的PC默认值（MultiK使用30个PC，ChooseR使用100个PC）。这就好比给了自动驾驶汽车一个智能导航系统，却限制了它的轮胎只能使用固定气压——无法根据路况灵活调整。这种局限性促使研究人员思考：能否通过数据驱动的方式优化降维步骤，实现真正意义上的端到端自动化分析？

为了解决这一瓶颈问题，来自韩国基础科学研究院（Institute for Basic Science）的Hyun Kim团队开展了一项创新性研究。他们巧妙地将scLENS——一种基于随机矩阵理论（RMT）和信号稳健性测试的自动PC选择方法——与ChooseR和MultiK聚类算法相结合，构建了一套全新的全自动分析流程。这项研究成果发表在《CMES - Computer Modeling in Engineering and Sciences》上，为单细胞数据分析领域带来了重要突破。

研究人员主要采用了几个关键技术方法：首先将原本用Julia和R语言开发的scLENS、ChooseR和MultiK统一转换为Python实现，确保技术栈的一致性；然后利用scLENS的数据驱动信号选择机制替代传统的固定PC降维，其中scLENS通过L2归一化预处理、随机矩阵理论噪声过滤和信号稳健性测试三个核心步骤确定最优PC数量；在聚类环节分别采用ChooseR的共聚类矩阵与轮廓评分策略和MultiK的rPAC（反向模糊聚类比例）评分体系进行共识聚类；最后通过元素中心相似性（ECS）、调整兰德指数（ARI）等多项指标在33个包含ZhengMix、Tabula Muris和T细胞数据集上进行性能评估。

scLENS集成提升ChooseR和MultiK的聚类性能

通过系统性的基准测试，研究人员发现scLENS集成带来了最显著的聚类性能提升。当与scLENS结合时，ChooseR的聚类性能平均提高约14%，MultiK提高约10%。这些增益在调整兰德指数（ARI）、标准化互信息（NMI）和调整互信息（AMI）等多个评估指标上均保持一致。统计分析进一步证实了这种改进的显著性（p<0.05），且效应量较大（r>0.5）。更重要的是，这种性能提升转化为了生物学意义——在10个真实ZhengMix数据集上，scLENS集成的流程在标记基因恢复方面表现出色，能够更准确地识别T细胞亚型的固有分子特征。

scLENS改进的嵌入质量驱动聚类性能提升

性能改进的程度高度依赖于数据集特性。在模拟T细胞和真实ZhengMix数据集上，scLENS带来了14%-18%的性能提升，而在模拟Tabula Muris数据上，虽然MultiK因已达到性能上限（ECS≈1）而无法进一步改进，但ChooseR仍获得了约9%的提升。这种差异的根本原因在于嵌入质量的改进程度，具体体现在邻居纯度（NP）指标上。例如，在一个模拟T细胞数据集中，scLENS确定的28个PC构建的图相比默认30个PC的图显示出更高的NP值（从0.89提升至0.94），从而显著改善了聚类边界和性能。

易解与难解问题：数据变异性和稀疏度水平如何影响聚类性能

深入研究显示，scLENS的改进效果在"困难"数据集上尤为明显。当数据的稀疏度较高（>0.84）且细胞间总基因表达变异性（CV(TGC)）较大（>0.4）时，scLENS确定的PC数量与默认值之间的差距（PC gap）越大，带来的NP增益和聚类性能提升就越显著。相反，在信息丰富、分布偏斜较小的"容易"数据集上，即使PC gap很大，改进空间也有限。这一发现为理解不同降维方法在不同数据特性下的表现提供了重要见解。

研究结论与讨论部分强调，将传统的固定PC降维过程替换为scLENS数据驱动信号选择方法，能够显著提升聚类性能（10-15%），特别是在处理具有高稀疏度和异质性的挑战性数据时表现优异。与肘部法（显著降低性能）、scVI和Scanpy默认PCA（仅达到基线水平）等其他降维方法相比，scLENS展现出了独特优势。

值得注意的是，scLENS需要全特征值分解，这在大规模数据（如超过10万个细胞）上可能带来可扩展性挑战。研究人员建议通过代表性子采样或高变基因选择来缓解这一问题。此外，该方法不仅适用于scRNA-seq数据，还能扩展到单细胞染色质可及性测序（scATAC-seq）和空间转录组学等其他组学数据类型。

这项研究的另一个重要意义在于为非线性降维方法的评估提供了更公平的基线。许多基于神经网络的非线性方法在benchmark研究中常与固定维度的线性方法比较，这种比较可能存在偏差。而使用scLENS优化后的PCA作为对比基线，能够更准确地评估非线性方法的真实优势。

总之，这项研究开发的全自动管道通过智能整合数据驱动降维与共识聚类，显著降低了单细胞分析中的人为主观因素，为大规模单细胞研究提供了更可靠、可重复的分析工具。其Python实现确保了广泛的适用性，有望在癌症生物学、免疫学等领域的细胞图谱构建中发挥重要作用。

联系信箱：

粤ICP备09063491号

热点排行