《SCIENCE ADVANCES》:Identification of a type 1 diabetes–associated T cell receptor repertoire signature from the human peripheral blood
编辑推荐:
本文推荐:为探寻1型糖尿病(T1D)的新型诊断生物标志物,研究人员基于2250名HLA分型参与者的外周血TCRβ库测序数据,结合深度学习技术,系统分析了HLA风险等位基因对T细胞受体(TCR)库的限制作用,成功鉴定出T1D相关的TCR序列基序(motif)。研究发现,HLA风险等位基因在T1D个体中表现出更强的TCR库多样性限制,且鉴定出的TCR基序在胰腺引流淋巴结的T1D个体中同样存在。这项工作为开发基于TCR的自免疫反应评估指标及诊断/治疗新策略奠定了基础。
1型糖尿病(T1D)是一种由T细胞介导的自身免疫性疾病,患者自身的免疫系统会错误地攻击并破坏产生胰岛素的胰腺β细胞,导致胰岛素缺乏和高血糖。尽管遗传因素,尤其是特定的人类白细胞抗原(HLA)等位基因,被认为是T1D发病风险的主要决定因素,但疾病的具体免疫学机制,特别是致病性T细胞的身份和行为,仍有许多未解之谜。传统的诊断和监测主要依赖胰岛自身抗体(islet autoantibody),但这并不能完全反映细胞免疫的实时状态。因此,开发能够直接反映自身反应性T细胞活动的生物标志物,对于实现疾病的早期预测、精准诊断和开发新型免疫疗法具有迫切需求。
为了应对这一挑战,一个由Katherine C. MacLean, Anna L. Beaudin, M. Gerlag, Anh P. Nguyen, Kira Bourret, Anna E. Barry, S. Kaddoura, J. Lee, K. McGrath, 高红霞(Hongxia Gao),Mark A. Atkinson, Todd M. Brusko等研究人员组成的国际团队开展了一项大规模研究。他们从人类外周血入手,试图从庞大的T细胞受体(TCR)序列海洋中,寻找能够“指认”1型糖尿病的独特“指纹”。这项题为“从人类外周血中鉴定出与1型糖尿病相关的T细胞受体库特征”的研究成果发表在了《SCIENCE ADVANCES》期刊上。
研究人员主要运用了以下几个关键技术方法:首先,他们利用Adaptive Biotechnologies的免疫测序平台,对来自三个独立横断面队列共2250名HLA分型参与者的外周血单个核细胞(PBMC)进行了TCRβ链互补决定区3(CDR3β)的大规模深度测序。这些队列包括1型糖尿病患者、健康的直系亲属(FDR)、二级亲属(SDR)及无亲缘关系的健康对照(CTRL)。其次,结合定制化的UFDIchip微阵列进行全基因组和HLA基因分型,并对HLA等位基因进行四位精度的基因型推算。最后,研究综合运用了多种生物信息学和机器学习方法,包括基于Hill曲线的多样性分析、Morisita-Horn相似性指数、多元多重线性回归(MMLR)、逻辑回归(LogReg)以及注意力机制驱动的深度学习方法(DeepRC),对海量TCR数据进行分析和建模,以识别疾病关联特征。
研究结果部分,通过一系列严谨的分析,揭示了T1D中TCR库的独特特征:
一、数据概览与可重复性评估
研究总共分析了2250份TCRβ库。主要分析基于队列1(n=1393),该队列包含了处于T1D自然史不同阶段的个体。技术重复实验显示了高重复性和足够的测序深度以捕获TCR的克隆多样性。
二、库水平的相似性和多样性在T1D临床组间无差异
通过分析V基因使用频率、基于Hill曲线的多样性谱、公共克隆共享百分比以及Morisita-Horn相似性指数,研究人员发现,T1D患者与健康亲属或无关对照之间的TCR库在整体多样性和相似性水平上没有显示出具有生物学意义的显著差异。这表明,仅靠传统的库水平指标难以区分T1D状态。
三、炎症性疾病相关的CDR3β序列在T1D库中过度呈现
当研究人员利用公开数据库(McPAS和VDJdb)中已知的疾病相关TCR序列进行比对时,发现T1D个体的库中,不仅T1D相关序列略有富集,其他一些疾病(如乳糜泻、流感、丙型肝炎病毒、人类免疫缺陷病毒和严重急性呼吸综合征冠状病毒2型)的相关序列也显著富集。这提示了潜在的交叉反应性或共病关联,但也凸显了依赖先验知识库的局限性。
四、HLA风险等位基因在T1D个体中表现出更强的TCR库多样性限制
这是本研究的关键发现之一。研究人员深入探究了HLA如何塑造TCR库。他们首先发现,与HLA风险等位基因(如DR3和DR4)明确相关的完整TCRβ序列在区分T1D状态方面信号有限。然而,当他们在更精细的氨基酸水平上进行分析时,有了重要突破。
通过应用统计框架(MMLR),他们证实了HLA位点的氨基酸多态性确实限制了CDR3β序列中特定位置氨基酸频率的多样性,这一效应在T1D个体中尤为明显。基于此,他们计算了反映HLA遗传风险的“HLA风险评分”和仅基于TCR库氨基酸特征的“CDR3风险评分”,两者显著相关,且CDR3风险评分在T1D组中最高,并呈现T1D > FDR > SDR > CTRL的预期趋势。
进一步地,研究人员从这些与风险相关的氨基酸特征中,提炼出了简化的TCR序列基序:与T1D正相关的基序(pHLA基序)和负相关的基序(nHLA基序)。pHLA基序在T1D个体的库中含量更高,且其得分与疾病持续时间和患者年龄呈负相关,可能反映了随着β细胞抗原减少,自身免疫反应逐渐减弱。
五、基于机器学习的T1D状态分类
研究人员测试了多种机器学习方法来区分T1D和非T1D个体的TCR库。结果显示,仅基于经典高风险HLA等位基因的分类性能有限。而基于公共克隆的统计分类方法因公共克隆比例低而效果不佳。相比之下,基于k-mer频率的逻辑回归模型和基于注意力机制的深度学习模型(DeepRC)取得了更好的效果,其中DeepRC模型在训练集和测试集上均表现稳定(AUROC约0.77-0.79),且其预测得分与临床分组、高风险HLA类型等具有预期关联。更重要的是,DeepRC模型可以提取出一个简化的、与疾病状态相关的TCR基序(DeepRC基序),该基序同样在T1D个体中富集。
六、T1D相关TCR基序作为独立队列中的预测标志物
为了验证这些基序的生物学意义,研究人员在多个独立数据集中进行了测试。他们发现,T1D风险遗传位点,特别是HLA区域的变异,与DeepRC基序在血液中的频率相关。在胰腺引流淋巴结(pLN)的CD8+T细胞和血液中分选的中央记忆CD4+T细胞(TCM)中,这些基序同样富集,且其水平受HLA风险基因型的影响+ T cells from peripheral blood, pancreatic lymph node CD8+T cells, as well as autoantibody-positive, nondiabetic (AAB+) peripheral blood repertoires.">。此外,在处于临床前阶段(胰岛自身抗体阳性但未患糖尿病)的个体中,这些基序的频率介于T1D患者和健康对照之间,提示这些TCR特征可能在临床症状出现之前就已出现。
在讨论与结论部分,本研究系统性地阐述了其综合发现与深远意义。研究首次在大规模人群中证实,HLA风险等位基因对TCR库的氨基酸使用频率具有限制性影响,这种影响在T1D个体中更为显著,从而为遗传风险如何转化为免疫易感性提供了直接的分子证据。通过整合基于HLA风险评分的TCR特征分析和无HLA先验信息的机器学习方法,研究成功地鉴定出多个与T1D状态相关的TCR序列基序(包括pHLA基序和DeepRC基序)。这些基序不仅在外周血中能有效区分T1D状态,还与遗传风险、自身抗体数量呈正相关,与疾病持续时间呈负相关,具备了作为动态生物标志物的潜力。
尤为重要的是,这些T1D相关的TCR信号在疾病相关组织(如胰腺引流淋巴结)的CD8+T细胞以及外周血中具有关键免疫功能的CD4+中央记忆T细胞(TCM)中同样得到验证,强调了其在疾病局部和系统免疫反应中的相关性。对胰岛自身抗体阳性个体的分析进一步表明,这些TCR特征在临床发病前即已出现变化,为早期干预提供了可能的监测窗口。
尽管研究存在一些局限性,例如测序深度、混杂因素的控制以及所鉴定基序可能存在一定假阳性率等,但其构建的整合分析框架——将遗传风险(HLA)对TCR库的塑造作用与基于TCR库本身的大数据机器学习诊断模型相结合——为在复杂自身免疫病中挖掘微弱的疾病特异性免疫信号提供了强有力的范式。这项研究不仅增进了对T1D发病机制中HLA-TCR相互作用的深层理解,更重要的是,它将TCR库分析从基础研究推向临床应用前沿,为开发基于TCR序列的无创诊断工具、疾病进展监测指标乃至未来的精准免疫治疗(如特异性靶向致病性T细胞克隆)奠定了坚实的理论和数据基础。