scSurvival:基于细胞分辨率的临床癌症队列数据单细胞生存分析

《Cancer Discovery》:scSurvival: Single-Cell Survival Analysis of Clinical Cancer Cohort Data at Cellular Resolution Open Access

【字体: 时间:2026年05月03日 来源:Cancer Discovery 33.3

编辑推荐:

  生存分析是癌症研究的基石。技术进步使得越来越多的队列级癌症研究将单细胞测序与临床生存数据相结合。然而,目前尚无有效策略可直接基于单细胞数据建模生存结局。为填补这一空白,研究人员提出了scSurvival,这是一种基于注意力的多示例Cox回归框架,将每个肿瘤样本

  
生存分析是癌症研究的基石。技术进步使得越来越多的队列级癌症研究将单细胞测序与临床生存数据相结合。然而,目前尚无有效策略可直接基于单细胞数据建模生存结局。为填补这一空白,研究人员提出了scSurvival,这是一种基于注意力的多示例Cox回归框架,将每个肿瘤样本视为细胞的集合,以预测患者和单细胞水平的生存结局。为应对高维性、稀疏性和批次效应,scSurvival集成了基于变分自编码器(Variational Autoencoder, VAE)的特征提取模块与生成建模,以增强特征鲁棒性和跨批次泛化能力。综合模拟验证了scSurvival卓越的性能和可扩展性。在黑色素瘤和肝癌单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)队列中,scSurvival准确预测了患者预后并识别出对生存最关键的细胞亚群。总之,scSurvival能够稳健地预测患者生存期,同时揭示与生存相关的细胞亚群,推动了癌症研究中单细胞生存分析的发展。
研究背景与立项依据
生存分析长期以来一直是癌症研究中调查总生存期(Overall Survival, OS)和无进展生存期(Progression-Free Survival, PFS)等时间-事件结局的基石。随着单细胞RNA测序(scRNA-seq)技术的普及,越来越多的队列级癌症研究开始对数百名患者进行单细胞转录组谱分析,并结合临床生存数据。然而,早期研究受限于样本量,主要依赖将批量RNA测序(bulk RNA-seq)数据的生存信息通过数据整合间接迁移至单细胞数据,缺乏直接利用单细胞数据本身进行生存建模的有效工具。尽管简单的策略如伪批量(pseudobulk)汇总或细胞类型比例分析允许使用标准生存模型,但这些方法会导致严重的信息丢失,无法捕捉细胞异质性。因此,直接在单细胞分辨率下进行生存预测并识别关键亚群是一个亟待解决的挑战。在此背景下,研究人员开发了scSurvival工具,相关研究发表在《Cancer Discovery》上。
关键技术方法概述
本研究开发了一种名为scSurvival的计算框架,其核心是基于注意力的多示例Cox回归(Attention-based Multiple-Instance Cox Regression, AMICR)。该方法将每个肿瘤样本视为多个实例(细胞)的集合。技术架构上,结合了基于变分自编码器(VAE)的特征提取模块,利用零膨胀高斯(Zero-Inflated Gaussian, ZIG)分布处理单细胞数据的技术丢弃(dropout)和稀疏性,并引入层归一化(LayerNorm, LN)和挤压激励(Squeeze-and-Excitation, SE)模块进行基因特征重加权。模型训练采用两阶段策略:首先预训练VAE提取稳定特征,随后联合优化整个模型进行多示例Cox回归。研究使用了模拟数据集以及真实的黑色素瘤免疫治疗队列(48个样本,32名患者)和肝癌单细胞图谱(189个样本,124名患者)进行验证。
研究结果
scSurvival概览
研究人员构建了scSurvival框架,其核心是将患者的高维单细胞数据压缩为低维特征,通过多头注意力机制聚合为患者水平的表征,进而进行Cox回归分析。该模型不仅能输出患者风险评分,还能通过注意力权重推断特定细胞亚群的风险倾向,实现了从单细胞到患者水平的统一分析。
基于单细胞分辨率风险评分预测的基准测试
通过Splatter模拟的单细胞数据集评估显示,scSurvival能够准确划定真实的风险驱动细胞亚群。在基础模拟中,其对真实驱动细胞的识别准确率高达98.7%,F1分数达0.989。五折交叉验证(fivefold Cross-Validation, CV)显示预测的患者风险评分能显著分层生存结局(log-rank检验 P < 0.0001),平均一致性指数(Concordance Index, C-index)为0.942。在最具挑战性的模拟场景(Sim.6)中,即使风险细胞嵌套在大簇内缺乏明确边界,scSurvival仍保持了高精度。与基于主成分分析(PCA)、高度可变基因(HVG)和非负矩阵分解(NMF)的方法相比,基于VAE的特征提取表现最优。
scSurvival快速且具可扩展性
在H100高性能GPU计算平台上,scSurvival表现出优异的可扩展性。对于固定100名患者的队列,即使细胞总数增至100万,运行时间呈线性增长,约17.5分钟完成分析,内存占用约30 GB。对于固定10万个细胞的不同规模队列(10至500名患者),运行时同样呈线性扩展。这表明scSurvival能够处理超大型单细胞数据集。
scSurvival在黑色素瘤队列中识别风险相关细胞亚群
在黑色素瘤免疫治疗队列分析中,scSurvival揭示了B细胞和浆细胞普遍具有较低的风险评分,这与三级淋巴结构(Tertiary Lymphoid Structures, TLS)的形成有关。在空间转录组学验证中,低风险区域与TLS位置吻合。单核细胞/巨噬细胞则显示出明显的双峰风险评分模式。差异表达分析表明,高风险细胞上调了SPP1和MSR1等M2型标志物,而低风险细胞则高表达CXCL9及MHC II类基因。基因本体(Gene Ontology, GO)富集分析进一步证实,高风险细胞富集于中性粒细胞迁移和脂质代谢通路,而低风险细胞富集于免疫激活和抗原呈递通路。在患者水平,scSurvival预测的风险评分能有效分层患者生存期(C-index = 0.812)。
scSurvival识别黑色素瘤预后T细胞状态并实现生存预测
针对T细胞的分析显示,细胞毒性T细胞和调节性T细胞倾向于与较长生存期相关,而记忆T细胞则与较短生存期相关。高风险T细胞上调了多种免疫抑制受体(如HAVCR2/TIM-3和LAG3)及热休克基因(如HSPA1A)。相反,低风险T细胞高表达TCF7、CCR7和IL7R等与T细胞长寿和干细胞样记忆潜能相关的基因。利用该模型对独立的黑色素瘤单细胞数据集进行预测,结果显示非响应者样本的T细胞风险评分显著高于响应者。在多变量Cox回归中,scSurvival衍生的风险评分被证实是生存的显著预测因子。
scSurvival揭示肝癌队列中生存相关细胞亚群
在包含超过100万个细胞的肝癌单细胞图谱中,scSurvival计算了所有细胞的水平风险评分。研究发现高风险巨噬细胞表现出SPP1高表达和CXCL9低表达的特征。通过对高低风险肿瘤细胞的差异基因和通路分析,发现高风险肿瘤细胞富集于细胞周期、DNA复制和有丝分裂纺锤体等增殖相关通路,而低风险肿瘤细胞则富集于代谢和解毒过程,这揭示了肿瘤细胞内不同的生物学状态及其对预后的影响。
结论与讨论
本研究提出的scSurvival是一个端到端的深度学习框架,首次实现了直接从单细胞数据中联合进行患者生存预测和细胞亚群风险识别。其基于注意力的多示例学习机制有效解决了单细胞数据高维、稀疏及批次效应的难题。通过在模拟数据和真实癌症队列(黑色素瘤和肝癌)中的验证,scSurvival不仅在患者水平上实现了高精度的生存分层(C-index > 0.75),更重要的是在细胞水平上解析了肿瘤微环境中的异质性,成功鉴定了如SPP1+CXCL9?的促瘤巨噬细胞和HSPA1A+的功能失调T细胞等具有明确生物学意义和临床预后价值的细胞亚群。该研究为利用日益增多的临床单细胞队列数据进行精细化的生物标志物发现和精准医疗提供了新的计算范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号