基于文章标题和摘要内容,一个兼具专业性与吸引力的中文标题建议为:
中文标题
ScVital:一种基于物种不可知潜在空间变分自编码器的深度学习工具,实现跨物种癌细胞状态整合
《Cancer Research》:Deep-Learning Tool ScVital Enables Species-Agnostic Integration of Cancer Cell States
Open Access
编辑推荐:
这篇研究开发了一个名为scVital(单细胞变分自编码器物种不可知潜在空间整合)的新型深度学习算法,它利用条件变分自编码器与对抗性判别器,将小鼠与人类单细胞RNA测序数据嵌入到共同的潜在空间中,从而克服跨物种比较中的“生物批次效应”,精准识别出物种间保守的癌细胞状态。该工具在胰腺癌、肺癌及未分化多形性肉瘤中验证了其识别共享细胞状态、提升小鼠模型临床转化能力的效果,为利用动物模型研究人类肿瘤生物学开辟了新路径。
文章内容归纳总结
摘要
在癌症研究中,基因工程小鼠模型(GEMM)对于探索人类肿瘤的发育和生物学构成非常有用。单细胞RNA测序(scRNA-seq)提供了肿瘤的转录组快照,可用于探索在免疫活性环境中的细胞状态异质性。然而,跨物种比较常常受到生物批次效应的影响,物种间的固有差异降低了从这些模型中获得的生物学见解的信号。本研究开发了scVital,这是一个计算工具,它使用变分自编码器和判别器将scRNA-seq数据嵌入到一个物种不可知的潜在空间中,以克服批次效应并识别物种间共享的细胞状态。此外,还同步开发了潜在空间相似性评分,作为一种新的指标,通过利用预标记的聚类进行评分,而不是当前创建新聚类的方法,来评估批次校正的准确性。使用潜在空间相似性进行量化,scVital与其他深度学习算法相比表现相当出色,并能以高保真度快速整合跨物种的正常组织scRNA-seq数据。当将scVital应用于来自GEMM和原发性患者样本的胰腺导管腺癌或肺腺癌数据时,它能准确对齐生物学上相似的细胞状态。在未分化多形性肉瘤(一个关于小鼠和人类细胞状态一致性没有先验知识的测试案例)中,scVital识别出一种先前未知的细胞状态,该状态在化疗后持续存在,并且在GEMM和人类患者来源的异种移植物中共享。这些发现确立了scVital在识别跨物种保守细胞状态以增强小鼠模型的转化能力方面的效用。
引言
模型生物的使用促进了对人类生物学和癌症的关键见解。GEMM或可移植小鼠肿瘤模型是大多数肿瘤学临床成功案例的基础。然而,小鼠癌症模型与人类存在根本性差异,包括物种特异性的恶性分化状态。这些差异限制了准确预测人类癌症的病理生理学和治疗结果。据估计,仅在动物模型中进行的约三分之一的研究会进入人类的临床试验。在那些试验中,只有不到10%在第一阶段成功,而在通过第一阶段的试验中,只有不到十分之一获得FDA的临床批准,这是一个极低的比例。
在罕见癌症的研究中使用GEMM尤为重要。GEMM为以受控和可重复的方式研究这些疾病提供了一条途径,从而消除了罕见癌症研究的主要问题之一——研究样本材料的可用性。因此,存在一个未满足的需求,即提高临床前小鼠癌症模型的预测价值。实体瘤由功能和分子上不同的癌细胞亚群组成。这种肿瘤内异质性的临床相关性体现在癌细胞状态在生长、进展和治疗耐药性方面的不同能力上。因此,了解小鼠模型在多大程度上再现人类肿瘤的细胞状态异质性至关重要。此外,跨物种保守的细胞状态可能在生物学和功能上都很重要,这激发了对其进行鉴定的动力。
提高临床前模型的准确性在肉瘤领域尤为重要,这是一组影响软组织和骨骼的罕见癌症。这些癌症仅占美国每年新癌症诊断的1%。肉瘤是一种具有许多亚型的多样化癌症,例如未分化多形性肉瘤(UPS),其预后极差。UPS在美国的发病率约为每20万分之一。由于其罕见性和严重性,肉瘤生物学的探究往往很困难。GEMM特别有助于生成数据来理解罕见癌症生物学,以便制定适当的治疗策略,但目前尚不清楚这些模型在多大程度上再现了人类UPS的生物学和细胞状态异质性。
计算建模方法,如深度学习,在提高人类癌症动物模型的预测能力方面具有相当大的潜力。单细胞RNA测序提供了肿瘤中细胞组成和相关单细胞基因表达程序的无偏倚快照。这种灵敏的方法已被用于阐明患者之间的癌细胞状态和基因程序。然而,专门设计用于辨别小鼠模型与人类癌症之间异同的计算方法尚未开发出来。
先前用于scRNA-seq跨物种比较的方法类似于使用算法(如批次平衡K近邻、Harmony、scVI或scDREAMER)进行scRNA-seq批次校正。然而,这些算法没有专门解决同源样本的跨物种整合问题,其中一部分细胞在物种间可能没有明显差异,而其他细胞类型在物种间则高度同源。跨物种癌症研究的另一个常见做法是分别分析每个物种的数据集,然后比较标记基因或特定的基因特征。这些当前的方法仅限于在两种物种之间具有一对一同源性的基因。因此,它们很可能无法识别由物种特异性基因驱动的功能或生物学上相似的物种特异性细胞状态。
ScVital模型
ScVital使用一个条件变分自编码器(VAE)与一个对抗性训练的判别器结合,将来自不同物种的scRNA-seq数据嵌入到一个共同的潜在空间中。VAE将高维基因表达数据映射到一个更小、可概括的潜在维度表示中。同时,一个判别器网络被训练来预测潜在空间源自哪个物种。判别器的输出被纳入VAE的训练函数中,使得最终的潜在空间表示保留细胞身份但排除物种特征。
潜在空间相似性
为了评估整合的准确性,研究人员开发了潜在空间相似性评分(LSS)。LSS根据已知的、先前的细胞标签(无需新的细胞标签)来计算潜在空间中原始细胞类型之间的成对余弦相似性,然后通过计算AUC-F1分数来确定整合的准确性。这与传统的调整兰德指数(ARI)和Folks–Mallow(FM)评分不同,后者高度依赖于整合后对细胞进行新的启发式聚类。
正常组织数据整合
ScVital在整合常见批次校正数据集(例如从转录本5‘和3’端测序的外周血单核细胞数据)方面,与其他黄金标准的scRNA-seq整合算法(如Harmony和scVI)表现相当。

此外,ScVital在整合来自肌肉、肺、胰腺、肝脏和膀胱等多种健康组织的鼠源和人源scRNA-seq数据方面也表现良好。在正常肌肉数据的整合中,scVital不仅有效地去除了物种效应,还保留了细胞类型信息,其整合指标与其他算法相当,且运行时间显著短于另一种深度学习算法scDREAMER。比较分析显示,scVital在保护物种特异性细胞类型方面表现更优,这些细胞类型可能被其他方法错误地整合。
癌症数据整合
为了确定scVital在整合恶性细胞状态时的表现,研究人员对来自胰腺导管腺癌、肺腺癌和UPS的原发性人类肿瘤和GEMM肿瘤进行了跨物种整合。
在PDAC数据整合中,scVital成功地使鼠源和人源的经典和基底细胞状态实现了物种不可知的对齐,同时将鼠源间充质细胞状态与人源细胞状态分离开来。整合后,scVital还指出了基底细胞状态与间充质细胞状态的相似性。
在LUAD数据整合中,scVital识别出了一种与肺泡2型细胞相似的状态(AT2-like状态)和高可塑性细胞状态(HPCS)在患者间和跨物种间的重叠。ScVital的运行时间更快,且LSS评分更好。
疾病与正常组织数据整合
将健康组织与不同疾病状态的细胞状态进行整合,可以揭示正常细胞、再生过程和疾病状态之间的共性与差异。例如,整合小鼠的非肿瘤肺、肺泡损伤和LUAD样本的scRNA-seq数据后,发现健康肺的AT2细胞、损伤肺的AT2细胞以及LUAD样本的AT2-like细胞之间存在显著重叠。此外,整合还揭示了小鼠LUAD的HPCS与一种损伤相关的短暂祖细胞状态(一种与肺损伤相关、在静止的健康肺中不存在的过渡性细胞状态)之间具有高度相似性。
UPS数据整合
为了探索scVital在缺乏先验知识的情况下的效用,研究人员使用它来整合UPS GEMM与PDX模型中的恶性细胞状态。研究人员用短期或长期阿霉素(一种用于治疗晚期软组织肉瘤的常用化疗药物)处理KP GEMM UPS肿瘤和UPS PDX,然后进行scRNA-seq分析。在没有整合的情况下,来自三个UPS模型的肿瘤是独立的,似乎不共享细胞状态。值得注意的是,只有使用scVital或scDREAMER进行整合时,才显示了所有三个数据集中的细胞群重叠,而其他整合方法未能完全整合这些数据集。这两种算法虽然在运行时间上差异显著,但都找到了重叠的细胞状态。这一应用表明,scVital可以在没有先验知识的情况下,识别出跨物种(GEMM和PDX)和跨治疗条件(化疗前后)保守的、先前未知的细胞状态。
讨论与结论
本研究介绍了一种用于跨物种单细胞数据整合和保守细胞状态鉴定的新型深度学习算法scVital。通过结合条件VAE与对抗性判别器,scVital能够生成一个物种不可知的潜在空间,该空间有效地去除了物种特异性信号,同时保留了关键的生物学细胞状态信息。研究还引入了LSS作为一种新的、更稳健的整合评估指标,它不依赖于整合后主观的聚类过程。
ScVital在整合正常组织和癌症数据方面均表现出色,其性能与当前主流算法相当或更优,尤其是在处理具有挑战性的癌症细胞状态整合时。在PDAC和LUAD案例中,它成功地验证了已知的跨物种保守细胞状态。更重要的是,在UPS案例研究中,scVital在缺乏先验知识的情况下,识别出一种在化疗后持续存在并在GEMM和PDX中共享的细胞状态,展示了其在发现新生物学见解方面的强大能力。
总之,scVital为利用动物模型进行癌症研究提供了一种强大的计算工具,能够更准确地识别跨物种保守的、具有潜在临床重要性的癌细胞状态,从而有望增强临床前动物模型研究的转化价值和预测能力。