《Cancer Discovery》:Framework of scSurvival. A, Generation of single-cell cohort data: each p...
Open Access
生存分析是癌症研究的基础。随着技术的进步,越来越多的队列水平癌症研究在整合单细胞测序数据与临床生存数据。然而,目前尚无有效策略能直接从单细胞数据对生存结局进行建模。为填补这一空白,研究人员提出了scSurvival,一个基于注意力机制的多实例Cox回归(Attention-based Multiple-Instance Cox Regression, AMICR)框架,该框架将每个肿瘤样本建模为细胞的集合,以预测患者及单细胞水平的生存结局。为处理高维性、稀疏性和批次效应,scSurvival整合了基于变分自编码器(Variational Autoencoder, VAE)的特征提取模块与生成式建模,以增强特征的鲁棒性和跨批次的泛化能力。全面的模拟研究证明了scSurvival卓越的性能和可扩展性。在黑色素瘤和肝癌的单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)队列中,scSurvival能够准确预测患者结局并识别对生存最关键的细胞亚群。总体而言,scSurvival能在揭示与生存相关的细胞亚群的同时,实现对患者生存的稳健预测,从而推动癌症研究中单细胞水平的生存分析。意义:生存分析是临床肿瘤学的核心,但目前尚无有效工具能直接从单细胞数据建模生存结局。scSurvival通过结合生存信息的scRNA-seq预测患者结局并识别关键亚群,弥合了这一空白,实现了可扩展的分析,并促进了队列水平单细胞分析在癌症研究中的更广泛应用。
**scSurvival:一种基于单细胞数据的注意力多实例Cox回归生存分析框架**
生存分析长期以来一直是癌症研究中研究时间-事件结局(如总生存期(Overall Survival, OS)和无进展生存期(Progression-Free Survival, PFS))的基石。基于批量RNA测序(Bulk RNA-seq)的研究通过将基因表达建模为协变量、构建多基因风险评分以及将患者分层为分子亚型,展示了生存分析在预后评估和治疗效果评估中的多功能性。与此同时,单细胞RNA测序(scRNA-seq)以前所未有的分辨率表征了肿瘤微环境(Tumor Microenvironment, TME)的细胞异质性。利用这一能力,scRNA-seq的最新进展和广泛应用促使越来越多的队列水平癌症研究对来自数百名患者的单细胞转录组进行分析,并结合临床生存数据,为阐明细胞异质性如何影响疾病进展和患者结局提供了新的机会。由于单个细胞对患者结局的影响可能不同,因此识别与生存相关的亚群对于改善风险评估、超越批量水平分析以开发更精确和靶向的疗法至关重要。
在早期研究中,由于癌症研究中scRNA-seq数据的样本量有限,识别风险相关细胞群的主要策略是通过整合单细胞和批量数据,将来自现有批量RNA测序数据集的生存信息转移到单细胞数据上,例如Scissor、scSurv和DEGAS。尽管这些方法能够识别与生存结局相关的细胞群,但它们都依赖于批量转录组学及其相关的生存结果作为桥梁,而并未使用单细胞数据的真实生存信息。
随着越来越多的队列水平癌症研究生成了来自数百名患者的、具有匹配生存信息的scRNA-seq数据集,可以采用两种简单的策略来使传统的Cox回归框架适应单细胞数据:(i)将细胞水平的基因表达聚合为每个患者的伪批量(pseudobulk)谱;(ii)注释主要细胞类型并将其比例作为患者水平的协变量。尽管这两种方法都允许使用标准生存模型,但它们都存在重大的信息损失。伪批量策略平等对待所有细胞,掩盖了罕见但具有重要预后意义的亚群的贡献。相比之下,细胞类型比例策略假设注释的细胞类型内部是同质的,并忽略了类型内的功能多样性。这些方法提供了一种粗略的近似,但未能充分发挥单细胞数据在捕捉精细风险结构方面的潜力。据研究人员所知,直接在单细胞分辨率上进行生存预测,同时保留患者内的异质性并仅依赖于单细胞队列数据,仍然是一个未满足的挑战,并且尚未开发出专门的计算工具来满足这一需求。
从单细胞队列数据直接构建风险预测模型(如Cox比例风险模型)也与传统的基于批量数据的Cox回归存在根本性不同。在传统的批量设置中,每个患者的协变量值形成一个单一的特征向量,可直接用于模型构建。相比之下,单细胞表达数据的结构是一个细胞-基因矩阵,而不是简单的患者向量,单个细胞对患者结局的贡献各不相同。因此,需要一个能够同时预测患者生存结局并识别最具信息量细胞亚群的框架。基于注意力机制的多实例学习(Attention-based Multiple-Instance Learning)为这项任务提供了一个引人注目的解决方案。在该框架中,每个肿瘤样本被视为多个实例(即细胞)的集合。该模型学习预测患者水平的标签,同时为单个实例分配权重,从而突出对生存结局最关键的细胞亚群。
在本研究中,研究人员将每个肿瘤样本概念化为一个细胞实例的集合,因此开发了一个新工具scSurvival,专门设计用于解决单细胞癌症队列数据生存分析中的异质性细胞亚群问题。为解决单细胞数据集中固有的高维性、稀疏性、噪声和严重的批次效应,研究人员设计了一个基于变分自编码器(Variational Autoencoder, VAE)和生成式建模的特征提取模块。结合注意力机制多实例Cox回归(AMICR),scSurvival能够对跨越多个实验批次的患者队列进行生存建模。scSurvival不仅整合了单细胞表达数据与可选的临床协变量来构建准确的风险预测模型,还识别了与结局相关的细胞亚群并表征其风险倾向,从而促进了更精细的下游生物学和临床分析。
**scSurvival概述**
研究人员开发了scSurvival,这是一个基于注意力多实例学习的单细胞生存结局预测工具,它考虑了单个细胞对生存结局的不同贡献。它旨在从单细胞癌症队列数据中构建生存预测模型,同时识别与患者风险强烈相关的细胞亚群。其核心原理是将每个患者的高维单细胞数据压缩为低维特征,通过注意力权重将这些特征聚合成患者水平的表示,然后使用Cox回归分析在患者水平构建生存模型。注意力机制保留了每个患者内的细胞异质性,使得具有更高注意力分数的亚群与生存概率的联系更为紧密。通过将细胞水平的特征与聚合的患者水平表示对齐,生存预测模型可以直接推断特定细胞亚群的风险倾向,从而实现对风险相关细胞的识别。
具体来说,scSurvival的主要输入包括为每个患者测量的单细胞表达矩阵和患者生存信息,即生存事件状态和事件时间。概念上,scSurvival包含两个关键模块:细胞特征提取模块和AMICR模块。特征提取模块是一个基于VAE的生成模型,它使用零膨胀高斯(Zero-Inflated Gaussian, ZIG)分布来捕获技术性丢失值(dropout),并对对数归一化的表达矩阵进行建模。该架构中集成了层归一化(LayerNorm, LN)和挤压激励(Squeeze-and-Excitation, SE)模块,以实现基因特征的自适应标准化和重新加权。此外,特征提取模块支持批次标签输入,以提取跨批次的单细胞特征。AMICR模块使用多头注意力机制将细胞水平特征聚合为患者水平表示,并将聚合的特征输入风险评分器进行风险评分和Cox回归分析。此外,可以将患者水平的临床协变量纳入风险评分器进行联合分析,从而适当控制混杂因素的影响,提高生存预测模型的准确性以及风险相关细胞亚群的识别能力。
模型的最终损失函数由三个部分组成:Cox回归的负对数似然、ZIG-VAE的重建似然以及一个熵正则化项,用于控制细胞水平注意力权重的稀疏性。训练分两个阶段进行:预训练和微调。在预训练阶段,仅训练VAE模块以提取稳定的细胞特征。在微调阶段,联合优化所有三个损失分量,以促进多实例Cox回归,产生与生存结局自适应对齐的优化细胞表示和注意力权重。
scSurvival的最终输出是每个细胞的注意力调整后的风险分数(hazard_adj)以及患者水平的风险分数。这代表了与传统生存分析方法的一个根本区别:scSurvival不仅在患者水平提供风险分层,还推断患者内的细胞风险异质性。基于scSurvival估计的单个细胞的风险分数,研究人员可以使用其他工具对每个细胞类型内的异质性细胞状态进行下游分析,例如通过比较高风险和低风险亚群来识别特征基因和改变的通路活性。此外,scSurvival作为一个基于单细胞表达数据的生存预测模型,能够为新患者进行风险评估。
**scSurvival在单细胞分辨率风险分数预测中的基准测试**
为系统评估scSurvival的有效性,研究人员生成了一系列模拟数据集并在受控实验中评估其性能。他们首先使用Splatter模拟了一个包含三组细胞(good.survival, bad.survival, 和 other)的单细胞数据集作为真实情况。利用这些细胞作为风险驱动群体,研究人员通过改变good.survival和bad.survival细胞的比例,为100名患者采样了单细胞表达数据,并基于这些比例模拟了相应的生存时间,对部分患者应用了随机删失(censoring)以模拟事件截尾。研究人员将此基础模拟称为Sim.0。scSurvival推断的细胞注意力分数和风险分数准确地描绘了真实的风险驱动细胞亚群。在一次实验中,基于注意力分数和风险分数进行的细胞分组识别出了99%的真实驱动细胞,总体准确率为98.7%,F1分数为0.989。在患者水平风险预测方面,五折交叉验证(CV)显示scSurvival预测的风险分数显著地对患者生存结局进行了分层(log-rank检验,P值<0.0001),在折间达到了平均一致性指数(Concordance Index, C-index)0.942(标准差,0.021)。
为评估scSurvival能否准确处理批次效应,研究人员使用Splatter模拟了来自两个不同批次的真实单细胞数据集。scSurvival成功地产生了与真实情况一致的细胞水平风险评估,证明了其内嵌特征提取模块校正批次效应的能力。基于scSurvival学习到的潜在嵌入(latent embeddings)进行的均匀流形近似与投影(Uniform Manifold Approximation and Projection, UMAP)可视化证实了有效的批次效应去除和准确的风险倾向估计。在此批次效应模拟示例中,scSurvival在真实风险驱动细胞识别中达到了97.9%的准确率、98.2%的召回率和0.980的F1分数。
生存预测模型的性能始终受到样本量(队列规模)和协变量与生存时间关联强度(风险效应大小)的影响。为此,研究人员模拟了具有不同队列规模和风险效应大小的数据集。结果表明,当队列规模达到10名患者且效应大小为中等或更强时,模型能够持续识别风险驱动细胞亚群,其F1分数显著高于效应大小较弱或样本量较小的情况。此外,当队列规模较小时,增加每个患者的细胞数量也能提高识别性能。
在Sim.0的基础上,研究人员进一步设计了六个更复杂的模拟场景(Sim.1–Sim.6),系统地在不同扰动水平引入了各种生物学和技术混杂因素,以评估scSurvival在不同数据条件下的鲁棒性和性能。这六个场景包括风险细胞百分比的变化(Sim.1)、风险细胞分布在批次间的不平衡(Sim.2)、患者结局分布的差异(不同的效应大小和删失率,Sim.3)、细胞组成异质性(Sim.4)、对风险效应反应不同的患者亚组异质性(Sim.5),以及风险细胞嵌入在较大细胞簇中的亚簇水平风险(Sim.6)。在大多数设置中,scSurvival一致地识别出了真实的风险驱动细胞亚群,平均F1分数通常高于0.8。在某些具有挑战性的场景中,例如风险细胞比例低至1%(Sim.1)时,性能有所下降,但随着信号强度的增加迅速恢复,显示出强大的趋势稳定性和泛化性。值得注意的是,在最具挑战性的设置(Sim.6)中,即真实风险细胞嵌套在一个大簇内且缺乏清晰边界时,scSurvival仍然准确地恢复了目标群体,在一个代表性示例中达到了90%的精确度、96.6%的召回率和0.931的F1分数,突显了其在不依赖预定义聚类的情况下进行精细分析的能力。在患者水平生存预测任务中,scSurvival在所有模拟条件下也保持了稳定一致的性能,五折CV的C-index值保持较高(大多>0.8)。
最后,研究人员在每个模拟设置的代表性示例上进行了基准比较,系统地评估了scSurvival的特征提取模块和整体算法性能。对于特征表示,他们将基于VAE的联合学习框架与三种替代策略进行了比较:主成分分析(Principal Component Analysis, PCA)、高变基因选择(HVG2000)和非负矩阵因子分解(Non-negative Matrix Factorization, NMF)。联合学习的VAE在所有模拟场景中始终取得了最高的F1分数,突显了其在捕获复杂表达结构和风险信号方面的优势。在算法层面,他们进一步将scSurvival与两种常用的基线方法进行了比较:基于伪批量表达谱的Cox回归(pseudobulk Coxph)和基于细胞类型比例的Cox回归(cell type Coxph)。由于两种基线方法都缺乏细胞水平的分辨率,因此比较仅限于患者水平的生存预测。在大多数场景中,scSurvival优于基线方法,在五折CV中取得了更高的C-index值。这些全面的模拟结果表明,scSurvival在风险亚群识别和生存预测方面都提供了卓越的能力,同时完全保留了单细胞分辨率。
**scSurvival快速且可扩展**
队列水平的癌症研究通常涉及对大量患者进行测序,产生包含数百万个细胞的数据集。在此规模上进行生存分析对算法设计提出了重大的计算挑战。得益于scSurvival的监督学习架构,研究人员可以充分利用高性能图形处理单元(Graphics Processing Unit, GPU)的计算能力来处理如此规模的数据集。为评估其计算性能,研究人员模拟了一系列数据集并测量了运行时间、内存使用情况和GPU显存消耗。在这些测试中,禁用了早停(early stopping),并且每次运行的微调阶段设置为完成所有500个最大周期,这表明在实际应用中,scSurvival可能在更短的时间内处理类似规模的数据集。
研究人员模拟了两个场景来评估scSurvival的可扩展性,在所有情况下基因数量固定为2,000,与真实分析中常用的选择前2,000个高变基因(MVG2000)的特征选择策略一致。首先,将队列规模固定为100名患者,并将总细胞数从5,000逐渐增加到100万,细胞在患者间平均分配。scSurvival的运行时间和内存使用量相对于细胞数量(x轴为对数刻度)呈线性增长,在约17.5分钟内完成了100万个细胞的分析,内存使用约30 GB,GPU显存使用约50 GB。他们还比较了有和无批次效应校正的情况,将每个患者视为一个独立的批次。结果表明,批次校正没有引入显著的额外计算负担。接下来,将总细胞数固定为100,000,并模拟从10到500名患者的队列规模。运行时间同样相对于患者数量(x轴为对数刻度)呈线性增长,而内存使用量几乎保持恒定。当包含批次校正时,GPU显存使用量略有增加,但在不包含时保持稳定。在最大的模拟队列(500名患者)中,scSurvival在约33分钟内完成了分析,峰值内存使用量约为3 GB,峰值GPU显存使用量约为6 GB。所有测试均在Arm64 CPU和具有96 GB VRAM的H100 GPU上执行。由于不同的硬件配置可能导致性能差异显著,研究人员也在A100平台上对scSurvival进行了基准测试。计算成本仍在可接受范围内,处理100名患者的100万个细胞大约需要2.5小时,处理500名患者的100,000个细胞大约需要1.85小时。这些结果证明了scSurvival在处理超大规模单细胞数据集时的可扩展性。
**scSurvival在黑色素瘤队列中识别风险相关细胞亚群**
为进行真实世界评估,研究人员首先将scSurvival应用于一个接受免疫治疗的黑色素瘤队列数据集,该数据集包含来自32名患者的48个样本,总共有16,291个免疫细胞,根据原始研究进行了注释。关键的细胞群及其由scSurvival推断的注意力分数和风险分数如图所示。其中,B细胞和浆细胞普遍表现出较低的风险分数,这一发现可能与三级淋巴结构(Tertiary Lymphoid Structures, TLS)的形成有关。这一关联通过空间转录组学验证得到了进一步支持,其中训练好的scSurvival模型识别出的低风险区域对应于两个空间切片上的TLS位置。相比之下,单核细胞和巨噬细胞大多被保留并显示出较高的总体风险分数,但在进一步对这些细胞进行亚群划分后,观察到了风险分数的双峰模式,其特征是明确极化为高风险和低风险细胞亚集。这一观察结果尤为引人关注,因为已知单核细胞/巨噬细胞会极化为两种主要功能状态——M1样(抗肿瘤)和M2样(促肿瘤)表型。然而,最近的单细胞研究表明,M1和M2表型定义了体外极化细胞的可能极端,但可能无法捕捉体内肿瘤相关巨噬细胞(Tumor-Associated Macrophages, TAMs)的全部谱系。因此,研究人员试图评估scSurvival是否能够通过将它们分层为高风险和低风险细胞亚集,来可靠地区分促肿瘤和抗肿瘤的单核细胞/巨噬细胞群。
单核细胞/巨噬细胞区室的重新聚类分析显示,高风险和低风险细胞倾向于分开聚类,表明每个风险组内具有转录和潜在谱系相似性。有趣的是,研究人员还观察到一些亚簇(如cluster 1)同时包含高风险和低风险细胞,表明风险状态存在簇内异质性。值得注意的是,M1和M2基因特征评分的分布与预测的风险状态高度一致,进一步支持了scSurvival识别出的亚群的生物学相关性。为进一步探索这些细胞群之间的转录差异,研究人员进行了差异表达分析,比较了高风险和低风险细胞。结果发现,在高风险细胞中,有169个基因显著上调,397个基因显著下调。值得注意的是,几个关键的M2相关标记物(如SPP1和MSR1)出现在高风险细胞的上调基因中。相反,几个经典的M1相关标记物(如IDO1和CXCL9)和MHC II类基因(如HLA-DOB)在这些细胞中显著下调。特别有趣的是,SPP1和CXCL9分别在上调和下调的差异表达基因(Differentially Expressed Genes, DEGs)中排名靠前。最近的一项研究已确定CXCL9和SPP1是巨噬细胞极化的关键标记物。具体而言,CXCL9:SPP1比率反映了抗肿瘤免疫的丰度和对免疫治疗的反应性。与此一致,研究人员观察到低风险单核细胞/巨噬细胞主要表现出SPP1?CXCL9+表型,而高风险细胞则以SPP1+CXCL9?表型为特征。此外,基因本体(Gene Ontology, GO)富集分析显示,高风险细胞中上调的DEGs在与中性粒细胞迁移和趋化以及多种脂质代谢信号(如脂质定位和运输)相关的通路中富集。相反,低风险细胞中上调的DEGs在与免疫激活相关的通路中富集,包括淋巴细胞分化和激活、II型干扰素应答和MHC II类抗原呈递。这些富集通路与已知的TAM特征一致,其中脂质代谢和中性粒细胞募集趋化因子通常与促肿瘤表型相关,而抗原呈递和干扰素应答是抗肿瘤巨噬细胞激活的标志。重要的是,这些促肿瘤和抗肿瘤髓系状态之间的生物学区别也在一个独立的接受免疫治疗的黑色素瘤数据集中得到了重现,进一步支持了scSurvival在整合生存信息以区分功能不同的单核细胞/巨噬细胞群方面的稳健性。
此外,根据免疫治疗反应的形态学评估,原始研究将来自32名患者的48个样本分为17个应答者(responders)和31个非应答者(nonresponders)。由于scSurvital能够评估每个患者内的细胞风险异质性,它揭示了风险状态的患者内变异性。总体而言,scSurvital定义的关键细胞亚群及其相关风险分数与免疫治疗反应高度一致:应答者样本中的关键细胞风险分数显著低于非应答者样本。每个样本内低风险和高风险细胞的比例进一步表明,应答者样本含有显著更多的低风险细胞,这与原始研究的发现一致。通过保留细胞水平的风险异质性,scSurvival还能够重建整合了免疫组成、生存信息和模型注意力的样本水平摘要。
在患者水平上,除了评估免疫治疗反应外,研究人员还进行了留一交叉验证(Leave-One-Out, LOO)来评估基于单细胞表达数据的scSurvial衍生风险模型的预测性能。结果表明,预测的患者风险分数显著地对患者生存结局进行了分层(P = 0.033)并准确地排序了风险(C-index = 0.812),表明scSurvial在患者水平上建立了一个可靠的生存预测模型。此外,单变量Cox回归证实,scSurvital衍生的风险分数与OS显著相关(P = 0.022),其风险比(Hazard Ratio, HR)与细胞毒性相当,并且比包括CXCL9和SPP1平均表达比率在内的其他常规免疫特征更显著。达到的0.812的C-index也优于基于细胞类型比例、伪批量表达或CXCL9/SPP1表达比率的基准模型。
**scSurvival识别黑色素瘤中预后相关的T细胞状态并实现生存预测**
T细胞在肿瘤免疫治疗中扮演着关键角色。为了更好地突出T细胞的作用,研究人员从先前的黑色素瘤数据集中分离出T细胞(10,685个细胞)并用scSurvial进行分析。为了更严格地评估scSurvial的预测能力,研究人员进一步在多个包含T细胞表达谱的独立scRNA-seq黑色素瘤数据集上评估了基于T细胞的生存模型。
在仅分析T细胞时,scSurvial识别出了大量关键细胞,其注意力和风险分数如图所示。总体而言,细胞毒性T细胞、耗竭CD8+ T细胞和调节性T细胞(Regulatory T Cells, Tregs)倾向于与较长的生存期相关,而记忆T细胞则与较短的生存期相关。值得注意的是,该队列中的一小部分细胞毒性CD8+ T细胞表达了高水平的应激和耗竭相关标记物(如TIGIT、HSPA1A和HSPA1B),这可能解释了为什么这些细胞在Cox回归模型中与不良结局相关。患者内的细胞风险分数在很大程度上与免疫治疗反应状态一致。此外,低风险T细胞在有效的免疫检查点阻断(Immune Checkpoint Blockade, ICB)反应中富集,而高风险T细胞在非应答者中占主导地位。差异表达分析显示,低风险T细胞表现出与T细胞寿命和干性记忆潜能相关的基因表达升高,如TCF7、CCR7和IL7R。相反,高风险T细胞上调了多种免疫抑制受体,包括HAVCR2(TIM-3)和LAG3。有趣的是,高风险T细胞还表达了广泛的应激反应程序,热休克基因(如HSPA1A和HSPA1B)显著诱导。最近的一项泛癌症研究描述了一个独特的肿瘤内T细胞亚群,称为TSTR细胞,其特征是广泛的热休克基因表达,并与免疫治疗中的不良临床结局相关。与此一致,基因集富集分析(Gene Set Enrichment Analysis, GSEA)显示,在高风险T细胞中,细胞应激通路、T细胞耗竭特征和细胞毒性功能障碍程序显著富集,加强了应激适应、功能障碍的T细胞状态导致不良治疗反应的观点。此外,基于DEG的特征评分在多个独立的ICB数据集中,非应答者显著高于应答者,并且在PRJEB23709批量RNA-seq黑色素瘤免疫治疗队列中有效地对OS和PFS进行了分层。
训练好的scSurvial模型也可以应用于预测独立黑色素瘤单细胞数据集中的患者生存结局。研究人员首先将该模型应用于三名接受ICB治疗的独立黑色素瘤患者,包括两个非应答者样本和一个应答者样本。结果显示,应答者样本中的T细胞风险分数显著低于两个非应答者样本中的T细胞。研究人员进一步在一个具有生存结局的独立黑色素瘤队列(PRJNA679099)上验证了该模型,该队列包括13个预处理样本,共计76,112个细胞。预测的患者风险分数达到了0.757的C-index,风险分层(使用最佳分组)达到了统计学显著性(P = 0.008)。基于连续患者风险分数的单变量和多变量Cox回归分析进一步证实,预测的风险与生存结局显著相关(P = 0.04)。此外,鉴于训练数据集包括治疗前和治疗后样本,研究人员进行了分层分析。结果显示,scSurvial识别出的特征和信号在治疗前和治疗后子集中都是一致的。
**scSurvival揭示肝癌队列中与生存相关的细胞亚群**
研究人员接下来将scSurvial应用于一个大型肝癌scRNA-seq图谱,该图谱包含来自124名患者的189个样本,包括肿瘤和TME细胞,并进行了细胞类型注释。其中,121名患者有可用的生存信息。UMAP投影显示了多种细胞群,包括肿瘤/上皮细胞、多种免疫细胞亚型和基质成分,共计1,092,172个细胞。scSurvial计算了所有细胞的细胞水平风险分数,然后通过注意力引导的风险分组策略将其分为高风险、低风险和无注意力组。不同的细胞类型表现出不同的风险分数分布。与先前在黑色素瘤免疫治疗队列分析中的结果一致,scSurvial识别出的高风险巨噬细胞特征为SPP1表达升高和CXCL9表达降低。这种表达模式也与肝癌中的最近发现一致,即SPP1+ TAMs促进肿瘤进展和干性。
在肿瘤细胞区室中,大约三分之一的上皮细胞被识别为高风险,其余为低风险,突显了对患者预后有贡献的肿瘤细胞存在显著的异质性。为剖析转录差异,研究人员比较高风险和低风险肿瘤细胞的基因表达谱。结果显示,在高风险肿瘤细胞中,有1,672个基因上调,997个基因下调。值得注意的是,高风险细胞显示出与缺氧(HIF1A)、干性(PSCA和APLP1)和上皮-间质转化(Epithelial-Mesenchymal Transition, EMT;S100A4和SPP1)相关的基因上调。GO和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)富集分析证实,在高风险肿瘤细胞中,与EMT相关的通路(包括伤口愈合、上皮迁移和缺氧诱导因子-1信号通路)被激活。此外,GSEA显示EMT、经NF-κB的TNFα信号传导、缺氧和TGFβ信号在高风险组显著富集,表明更具侵袭性的表型。相反,低风险肿瘤细胞表现出肝脏富集的代谢基因(如ARG1和ALDOB)表达升高。相应地,通路富集分析强调了低风险组代谢程序的激活,表明这些细胞表现出更高的代谢活性和类肝细胞的转录谱。这一观察结果与先前报道一致,即一部分肿瘤细胞可以表现出具有类肝细胞特征的良好分化表型,这通常与肝癌中更良好的临床结局相关。
伪时间分析揭示了一条从低风险肿瘤细胞分支出两个高风险肿瘤状态的轨迹。值得注意的是,来自分支2的肿瘤细胞表现出升高的EMT活性,并且与调整后的风险分数表现出更强的相关性,表明该亚群与更大的侵袭性和更差的预后相关。
作为下游分析,研究人员将scSurvial识别的高风险和低风险肿瘤细胞状态扩展到批量RNA-seq数据集中,以进一步评估其生物学和临床相关性。首先,他们将100个最上调和100个最下调的DEG组合成一个统一的单细胞肝癌不良生存特征(single-cell liver cancer Unfavorable Survival Signature, scLCSS)。在批量RNA-seq数据集上计算的scLCSS特征分数稳健地区分了肿瘤样本与非肿瘤或邻近组织,并且分数随着肿瘤病理分期的进展而逐渐增加。更重要的是,在四个具有临床随访的独立肝癌队列中,被分类为scLCSS高的患者OS和PFS短于scLCSS低的患者。这些发现突显了scSurvial识别出的与生存相关的细胞亚群在预后方面具有临床意义。
最后,研究人员评估了scSurvial在患者水平的预测性能。他们使用肝癌队列中的患者进行了五折CV。在测试折中预测的患者水平风险分数达到了0.719 ± 0.098的C-index。基于将患者按照预测的风险分数百分位数中位数分为高风险和低风险组的Kaplan-Meier生存分析进一步显示,高风险组的预后显著差于低风险组(P < 0.0001;C-index = 0.719 ± 0.098)。一致地,单变量Cox回归显示,scSurvital衍生的风险分数与生存显著相关(P < 0.001),优于其他常规免疫特征。达到的五折CV C-index(0.719)也超过了使用细胞类型比例、伪批量表达或CXCL9/SPP1比率的基准模型。这些结果共同表明,scSurvial使用单细胞表达数据构建的风险预测模型可以在真实世界患者队列中提供具有临床意义的生存预测。
**讨论**
在本研究中,研究人员开发了scSurvial,这是一个新的框架,能够同时构建生存预测模型并识别与疾病进展和患者结局相关的细胞亚群。与依赖批量数据作为间接关联桥梁的现有方法,或简单地将单细胞表达聚合成伪批量谱或细胞类型比例的方法不同,scSurvial采用多实例学习策略,将每个患者的肿瘤谱建模为多个细胞实例的集合,以实现细胞分辨率。通过引入注意力机制和多实例Cox回归框架,scSurvial不仅能够实现高效准确的风险分数预测,还保留了细胞水平的异质性,从而能够识别与生存结局密切相关的关键细胞亚群。scSurvial识别出的这些与生存相关的细胞亚群也可用于促进其他形式的生存分析,例如对这些选定的细胞群进行伪批量分析以构建多基因风险评分。研究人员的结果表明,scSurvial在多个模拟数据集和真实临床癌症队列中都实现了稳健的性能。值得注意的是,它在黑色素瘤免疫治疗数据集中成功识别出了高风险巨噬细胞/单核细胞亚群,在肝癌队列中识别出了特定的肿瘤细胞亚群,为肿瘤免疫微环境(Tumor Immune Microenvironment, TIME)和预后机制提供了有价值的见解。此外,使用黑色素瘤队列的T细胞构建的生存预测模型在独立数据集上进行验证时表现出稳健的预测准确性,进一步证实了scSurvial的稳定性和广泛适用性。有趣的是,他们的分析揭示了一小部分CD8+细胞毒性T细胞在该队列中意外地与较差的预后相关。尽管这与直觉相反,但这可能反映了异质的CD8+功能状态,其中耗竭或应激适应的亚群可能压倒了其经典的效应作用。在某些癌症环境中,CD8+ T细胞与不良结局的类似上下文依赖性关联已有报道,这强调了在评估预后影响时考虑其功能状态而非仅考虑丰度的重要性。此外,研究人员观察到B细胞在不同肿瘤类型中存在上下文依赖性关联。在黑色素瘤中,B细胞在低风险组中富集,并且常定位于TLS内,这与其在增强对ICB反应中所报告的作用一致。相比之下,在肝癌中,B细胞在高风险组中富集,这可能反映了耐受性肝微环境,其中B细胞常获得免疫调节表型以抑制抗肿瘤免疫。这些发现突显了B细胞在癌症预后中的异质性和上下文依赖性作用。
尽管如此,仍有一些局限性有待在未来工作中解决。首先,尽管scSurvial包含了批次效应校正机制,但其对来自不同测序平台或中心的极端批次异质性的鲁棒性仍有待提高。未来的工作可以专注于增强批次效应建模,以促进更有效的跨批次数据整合。其次,尽管SE模块目前用于平衡特征尺度,但其生物学意义尚未得到充分探索。未来的工作可以研究SE权重的可解释性,或引入替代策略来识别关键的生存相关基因,从而增强模型的生物学透明度。第三,尽管scSurvial支持在患者水平整合临床协变量,但研究人员并未系统评估协变量调整如何影响风险相关细胞群的识别。在初步评估中,在黑色素瘤数据集中将协变量纳入scSurvial产生了相似的结果。需要进一步研究来剖析协变量效应与内在细胞风险特征之间的相互作用。最后,癌症研究中新兴的空间转录组学和蛋白质组学技术提供了与空间坐标耦合的丰富分子信息,提供了额外的生物学背景层。scSurvial框架可以通过整合细胞或点之间的位置关系来扩展到这些空间模式,从而能够识别超出细胞亚群的、与生存相关的空间共定位模式。
总之,scSurvial提供了一个可扩展且系统的框架,用于从队列水平的癌症单细胞数据进行生存预测。它不仅能够准确预测患者的生存结局,还提供了一个强大的工具来识别与生存相关的细胞亚群,以促进在细胞分辨率下的下游机制研究。通过保留细胞水平的异质性并利用基于注意力的建模,scSurvial增强了研究人员将分子和细胞特征与患者结局联系起来的能力。研究人员相信,scSurvial将加速队列水平单细胞分析在生存分析中的广泛应用,并深化对TIME中特定细胞亚群如何影响癌症结局的理解,使其成为转化癌症研究中的宝贵工具。