singIST:一种在通路、细胞类型及基因水平上评估疾病模型与人类疾病相似性的整合性单细胞转录组学分析方法

《PLOS Computational Biology》:singIST: An integrative method for comparative single-cell transcriptomics between disease models and humans

【字体: 时间:2026年03月17日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本文提出了整合性单细胞转录组学分析方法singIST。该方法在统一框架内解决了基因同源性、模型中的细胞类型存在、细胞与基因重要性等问题,为在通路、细胞类型及基因水平上量化评估疾病模型与人类参考条件的转录组相似性提供了可解释的度量。该方法成功应用于特应性皮炎(Atopic Dermatitis, AD)的三种小鼠模型和化脓性汗腺炎(Hidradenitis Suppurativa, HS)的人皮肤外植体模型评估,揭示了不同模型在特定生物学过程中的再现能力与不足,有助于研究人员更系统、透明地选择和解读疾病模型。

  
内容总结
1. 引言:疾病模型评估的挑战与新方法的提出
疾病模型是研究人类疾病、进行药物发现和早期研发的基石。然而,没有哪种模型能完美复制人类疾病的全部特征,选择合适的模型极具挑战性。现有基于批量转录组学(bulk transcriptomics)的评估方法,如Found In Translation (FIT) 和 In Silico Treatment (IST),在捕捉特定细胞群体的变化方面缺乏必要的分辨率。尤其是在免疫介导的炎症性疾病(Immune-mediated inflammatory diseases, IMIDs)中,其病理主要由淋巴细胞驱动,单细胞层面的分析至关重要。当前基于重叠差异表达基因(Overlapping Differentially Expressed Genes, ODEGs)或降维技术的单细胞比较分析方法,或在处理基因重要性上存在不足,或结果难以解释和量化。为应对这些挑战,本研究在IST方法的基础上,开发了名为singIST的计算方法,旨在通过一个可解释的统一框架,量化疾病模型与人类条件在单细胞转录组层面的相似性。
2. 材料与方法:singIST方法的框架与实施
2.1 材料
研究使用了两组疾病数据。第一组是特应性皮炎相关数据,包括4例健康对照和5例中重度AD患者皮肤水疱的单细胞RNA测序(scRNA-seq)数据,以及三种具有AD样湿疹表型的小鼠模型数据:Oxazolone (OXA)、Imiquimod 5%乳膏 (IMQ) 和 Ovalbumin (OVA)。第二组是化脓性汗腺炎相关数据,包括已发表的8例HS患者和8例健康对照的皮肤活检scRNA-seq数据,以及新生成的离体HS皮肤外植体数据。外植体实验设置了三个组:健康对照培养于DMSO (HC DMSO)、HS样本培养于DMSO (HS DMSO)、HS样本培养于DMSO加抗CD3/CD28抗体刺激 (HS CD3/CD28)。
2.2 方法:singIST的核心四步流程
singIST方法的核心在于对一个包含特定细胞类型和基因集合的“超级通路”(superpathway)进行评估,流程分为四步,其核心思想在示意图中得到了清晰展示p) as a set containing cell types and genes.For each Sp, there is a gene set (G) from which gene subsets are derived for cell types (Cb). Second, for each Sphuman scRNA-seq data are organized into matrix layers. Target class is the human experimental group that the disease model aims to mimic (i.e., disease), while base class is such that it should be differentiated from target class (i.e., healthy control). Third, for each Spdisease models scRNA-seq (ΔXl) are structured into vector layers. singIST METHOD) The method is organized into four steps, which run independently for each Spand disease model. Step 1) Objective:Quantify differences between target and base class human samples at various levels of granularity (superpathway, cell type, and gene) using asmbPLS-DA. Input:A Spand human scRNA-seq data. Output:Optimal asmbPLS-DA. From such, we derive cell type contributions (Cr, b) and gene contribution (ωr, b,g). With the contributions we compute similarity measures at the superpathway (Rr) and the cell type levels (Rr,b). Step 2) Objective:Biologically unify the human data with the disease model data for subsequent comparison. Input:Human scRNA-seq base class samples and disease model scRNA-seq (ΔXl) data. Output:Human scRNA-seq gene expression observed when disease model (ΔXl) are applied, we call them singIST treated samples. The former is achieved in the Biological link function, which performs steps; one-to-one orthologous mapping; cell type alignment; translate (ΔXl) to (ΔXh). Step 3) Objective:Compute metrics of output from Step 1 between singIST treated samples and human scRNA-seq base class. Input:singIST treated samples, Human scRNA-seq base class samples and optimal asmbPLS-DA. Output:Pathway predicted recapitulation (Rp), Cell type bpredicted recapitulation (Rp,b) and predicted gene contributions (ωp,b,g). Step 4) Objective:Compute similarity metrics between human and disease model. Input:From step 1; Rrand Rr,b, and ωr,b,g. From step 3; Rpand Rp,b, and ωp,b,g. Output:Predicted recapitulations as a fraction of the reference recapitulations (R, Rb). Rbis explained by contributing genes (ωg), providing interpretation on which genes drive the cell type recapitulation. OUTPUT) R and Rbare displayed. Positive values show agreement in gene expression change between disease model and humans; negative values show opposition. Each Rbequals the sum of its gene contributions (ωg). Fig 2.">。
  • 第一步:量化人类参考数据中的差异。 使用自适应稀疏多块偏最小二乘判别分析(adaptive sparse multi-block partial least squares discriminant analysis, asmbPLS-DA)模型,以人类疾病和健康对照的单细胞数据为输入,其模型结构在示意图中得到展示b) are defined by cell types, with columns representing genes and rows representing samples. Each element within these predictor blocks is the pseudobulk of gene expression values. The figure displays predictor blocks (Wb) and the predictor superblock (Wsup) weights, as well as scores for the response matrix (TY), predictor blocks (Tb), and the superblock (Tsup).">。拟合模型后,可计算出超级通路参考再现(superpathway reference recapitulation, Rr)和细胞类型b参考再现(cell type b reference recapitulation, Rr,b),量化该超级通路及特定细胞类型在区分人类疾病与健康状态中的作用强度,并可分解到单个基因的贡献。
  • 第二步:建立疾病模型与人类数据的生物学联系。 构建“singIST处理样本”。将疾病模型中观察到的基因表达变化(log2FC),通过一对一基因同源映射和细胞类型对齐,注入到人类健康对照样本的表达数据中,模拟“如果健康人像疾病模型那样变化”的情形。
  • 第三步:评估疾病模型诱导的变化。 使用第一步训练好的asmbPLS-DA模型,对第二步生成的“singIST处理样本”进行评分,计算出超级通路预测再现(Rp)和细胞类型b预测再现(Rp,b),量化疾病模型的变化能在多大程度上推动样本在人类模型空间内向疾病状态移动。
  • 第四步:计算再现度指标。 最终输出是预测再现占参考再现的百分比,即超级通路再现度 R = Rp/ Rr和细胞类型再现度 Rb= Rp,b/ Rr,b。R为100%表示在方向和幅度上均与人类变化完美一致,-100%表示方向相反但幅度完美一致。每个细胞类型的再现度可进一步分解为单个基因的贡献(ωg),从而识别驱动再现好坏的关键基因。
3. 结果:singIST在疾病模型评估中的应用
3.1 特应性皮炎:三种小鼠模型的评估
应用singIST评估OXA、IMQ和OVA三种小鼠模型对中重度AD的再现能力。分析聚焦于与AD发病机制或临床严重程度相关的关键通路,如JAK-STAT信号通路、树突状细胞调节Th1/Th2发育、细胞因子-细胞因子受体相互作用和趋化因子信号通路。
  • 人类参考模型训练显示,不同超级通路由不同的关键细胞类型驱动。例如,在“树突状细胞调节Th1/Th2发育”通路中,T细胞重要性最高;而“JAK-STAT信号通路”则呈现跨细胞类型的广泛激活。基因水平信号与经典AD生物学一致,如T细胞中IL13、IL5、CSF2的上调。
  • 模型再现度评估揭示了模型间的显著差异,其结果在图表中汇总展示。
    • JAK-STAT信号通路:OXA模型再现度最高(81.2%),而IMQ模型再现度为负(-114.9%),OVA模型接近零(0.1%)。这与OXA是AD的JAK抑制剂研究中最常用的小鼠模型的现象一致。IMQ的负再现主要由树突状细胞和朗格汉斯细胞中STAT4等基因的相反变化驱动。
    • 树突状细胞调节Th1/Th2发育通路:IMQ和OXA有中等再现度(27.7%和16.8%),OVA为零。关键不匹配点在于,人类AD中TLR7被抑制以利于Th2反应,而IMQ小鼠中TLR7在T细胞中上调(驱动Th1/Th17反应),导致其对T细胞再现度贡献为负值(-57.4%)。同时,三种小鼠模型均未通过Th2细胞诱导IL13/IL4,这与人类AD的Th2偏倚不同。
    • 细胞因子-细胞因子受体相互作用通路:所有模型再现度均为强负值,与人类信号方向相反。这可能与人类样本(可能为慢性期)和小鼠急性期病变之间的阶段不匹配有关。
    • 趋化因子受体结合趋化因子通路:再现度差异极大,OVA极高(343.4%),IMQ中等(47.1%),OXA为负(-120.3%)。OVA的极高值主要由角质形成细胞中CCL7和CXCL6两个基因驱动。
细胞类型和基因水平的详细分析进一步揭示了驱动这些再现度的具体因素,相关结果在图表中展示和 2FC) by disease model. Grey (log2FC) refer to genes without one-to-one ortholog and/or not sequenced in disease model. Framed (log2FC) refer to statistically significant (log2FC) genes, as per FindMarkers. Blank (log2FC) correspond to 0 values.">。例如,在IMQ模型中,T细胞的再现主要由IL5和CD7驱动,而TLR7起负贡献。所有模型中均未检测到黑色素细胞,这与所用小鼠品系耳部皮肤缺乏功能性色素细胞相符。
3.2 化脓性汗腺炎:人皮肤外植体模型的评估
评估离体HS皮肤外植体在有无CD3/CD28抗体刺激下,再现体内HS病变的能力。
  • 人类参考模型训练识别出两组超级通路:一组主要由T细胞驱动,另一组由T细胞和髓系细胞共同驱动。肥大细胞在所有通路中均不具预测性。
  • 外植体再现度评估显示,CD3/CD28刺激的效果具有选择性,其结果在图表中清晰呈现。
    • 未刺激条件下已能较好再现人体内HS信号的超级通路(主要是T细胞驱动或T/髓系混合通路),在CD3/CD28刺激后其再现度得到进一步提升。刺激放大了那些已经与人类参考对齐的通路。
    • 而在未刺激条件下再现度差的超级通路(尤其是那些人类信号中髓系细胞贡献大的通路),即使经过CD3/CD28刺激,其再现度依然很差,细胞类型水平的再现仍呈碎片化。独立细胞组成分析表明,体内HS病变中髓系细胞扩增,而离体外植体中髓系细胞显著减少。这表明培养条件保留了T细胞对刺激的反应性,但未能保留驱动部分HS特征的、具有组织特异性的髓系细胞。
4. 讨论与结论
对AD模型的分析显示,singIST能够捕捉已知的生物学差异并解释模型与人类不匹配的原因,例如TLR7的相反表达、疾病阶段(急性vs慢性)导致的趋化因子表达差异等。对HS外植体模型的分析表明,CD3/CD28刺激的HS外植体是那些在未刺激条件下已能再现的通路的合适模型,但对于髓系细胞驱动的HS通路则不然。这支持了一个明确的结论:刺激可以增强已对齐的通路,但无法重建缺失的信号。
singIST也存在一些局限性,例如依赖预注释的细胞类型、在将倍数变化转化为人类基因表达时假设了同质效应、以及分析前需要明确的人类疾病状态定义等。
综上所述,本研究开发的singIST计算框架,为在通路、细胞类型和基因水平上评估疾病模型与人类条件的相似性,提供了一种整合、可解释的方法。其在AD小鼠模型和HS人皮肤外植体模型中的应用表明,singIST既能复现已知生物学知识,也能精准指出模型在再现人类疾病方面的成功与失败之处,有助于研究人员更系统和透明地选择与解读疾病模型。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号