基于深度肽识别谱解析TCR特异性并实现疾病相关抗原发现

《Nature Biotechnology》:Deep peptide recognition profiling decodes TCR specificity and enables disease-associated antigen discovery

【字体: 时间:2026年05月14日 来源:Nature Biotechnology 41.7

编辑推荐:

  基于序列预测T细胞受体(T cell receptor, TCR)的特异性具有挑战性,因为序列相似的TCR可识别完全不同的抗原,而序列不同的TCR却可能识别相同的抗原。在此,研究人员提出了一种系统,该系统集成了高通量酵母展示技术与微调的蛋白质语言模型(prot

  
基于序列预测T细胞受体(T cell receptor, TCR)的特异性具有挑战性,因为序列相似的TCR可识别完全不同的抗原,而序列不同的TCR却可能识别相同的抗原。在此,研究人员提出了一种系统,该系统集成了高通量酵母展示技术与微调的蛋白质语言模型(protein language models, pLMs),为单个TCR生成深度肽识别谱(deep peptide recognition profiles, PRPs),详细记录了针对数百万肽段的结合情况。研究人员提供了来自强直性脊柱炎(ankylosing spondylitis, AS)和急性前葡萄膜炎(acute anterior uveitis, AAU)患者的HLA-B*27:05限制性TCR的详细PRPs,这些TCR几乎完全通过CDR3β识别肽段。在这些PRPs上训练的pLMs在预测T细胞活化方面优于AlphaFold3和tFold-TCR。研究人员发现并验证了新型候选自身抗原,证明模型对新TCR的泛化能力与功能距离(PRP差异度)相关,而非序列相似性,并引入了一种模型内在的不确定性指标来量化预测置信度。该系统的PRP数据集为绘制TCR识别图谱、加速抗原发现和指导TCR工程化提供了一种可扩展的方法。
研究人员针对T细胞受体(TCR)识别抗原肽-MHC复合物(pMHC)的复杂性,开发了一套整合实验与计算的平台,相关成果发表于《Nature Biotechnology》。该研究旨在解决TCR序列与功能之间的脱节问题,即序列相似性与抗原特异性缺乏严格对应关系,限制了现有基于序列聚类或结构建模方法的准确性。通过构建深度肽识别谱(PRP),研究人员揭示了TCR特异性的新规则,并成功应用于疾病相关抗原的发现。
为实现这一目标,研究人员采用了几项关键技术:首先,利用高通量酵母表面展示技术,筛选了约109个随机肽段文库,定量测量了16个HLA-B*27:05限制性TCR的结合相互作用;其次,设计了包含锚定位点固定(P2为精氨酸,P8为脯氨酸)的9聚体肽库,以确保文库稳定性并覆盖关键的精细特异性位点;随后,利用获得的PRP数据对蛋白质语言模型(pLM)进行微调,学习TCR-pMHC结合的序列依赖关系;最后,通过多维尺度分析(MDS)、均匀流形逼近与投影(UMAP)等方法分析功能距离,并利用流式细胞术和晶体学验证预测的激活肽及结构基础。
结果
整合平台描绘TCR-肽识别图谱
研究人员将高通量酵母展示与深度学习相结合,对16个源自AS和AAU患者的HLA-B*27:05限制性TCR进行了深度肽识别谱分析。结果显示,每个TCR能识别数百至6000多个独特的肽配体,证实了TCR识别广度的显著差异。结构分析表明,这些疾病相关的TCR呈现出以β链为中心的对接几何结构,其中CDR3β环主要负责肽骨架和侧链的接触,这为后续模型聚焦于CDR3β序列提供了结构依据。
PRPs揭示的功能聚类不同于TCR序列相似性
通过对肽富集概率分布的Jensen-Shannon(JS)散度计算,研究人员发现TCR的功能聚类(基于PRP)与其CDR3β序列相似性并不一致。例如,序列不同的TCRs 135.1、135.3和135.8形成了紧密的肽识别簇,而序列相似的TCR有时表现出截然不同的结合谱。这表明PRP提供了比序列聚类更稳健、生物学相关性更强的TCR关联性度量。
PRP-informed pLM准确预测肽结合特异性
在微调后的pLM能够准确区分结合与非结合肽(AUROC > 0.95)。重要的是,尽管模型仅基于β链序列训练,其性能与包含α链的模型相当,并通过α链交换实验证实在该克隆型受限家族中,β链是决定核心肽特异性的主导因素。梯度显著性分析显示,模型学习到的关键残基位置(如P4、P5)与已知的结构接触位点高度吻合。将该模型应用于人类蛋白质组预测,筛选出15个高交叉反应性候选肽。
PRP-informed模型预测人蛋白质组肽诱导的T细胞活化
虽然模型是基于结合数据训练的,但它能有效区分激活与非激活肽,其预测T细胞活化(CD69上调)的准确率显著优于AlphaFold3和tFold-TCR。实验验证发现,源自妊娠特异性糖蛋白5(PSG5)和pre-mRNA加工因子3(PRPF3)的肽段能激活大多数测试TCR。单细胞RNA测序数据显示PSG5在人虹膜色素上皮细胞表达,且通过HLA-B27:05-PSG5四聚体染色证实,HLA-B27+的AS/AAU患者外周血中PSG5特异性CD8+T细胞频率显著高于健康对照。晶体结构分析显示PSG5与已知的细菌抗原YEIH具有高度相似的TCR结合模式。
TCR邻域内的预测泛化通过联合建模得到增强
研究人员构建了TCR 19.2的CDR3β突变体邻域,发现尽管单个模型能预测结合,但在预测活化方面表现有限。相比之下,联合训练一个包含整个19.2邻域PRP数据的单一pLM,显著提高了对活化肽的预测能力。这归因于整合邻近TCR的数据能捕捉到共享的识别原则,提供了更稳健的结合共识。
跨TCR的泛化:性能限制与模型内在不确定性的效用
通过留一法(LOO)交叉验证,研究人员证明预测转移性的关键决定因素是新TCR与训练集之间的功能距离(PRP差异度),而非CDR3编辑距离或TCRdist等序列相似性指标。此外,研究人员引入了马氏距离(Mahalanobis distance)作为一种模型内在的“不确定性指标”,用于量化新TCR在习得嵌入空间中的分布外程度。该指标与实验测得的PRP差异度显著相关,为预测新TCR的可靠性提供了定量依据。
讨论与结论
本研究提出的整合平台通过经验确定的PRP,建立了连接TCR序列与功能的桥梁。研究发现,TCR可以根据其PRP被组织成不同的聚类,这种基于功能的分类为传统的基于序列的分组方法(如GLIPH、TCRdist)提供了生物学上有意义的补充。尽管研究聚焦于特定的HLA-B*27:05限制性TCR家族,但结果表明在该系统中CDR3α主要起微调作用,而CDR3β决定了核心特异性。
该框架的一个重要贡献是将预测从结合层面延伸至功能性T细胞活化。PRP-informed pLMs的表现超越了现有的结构建模方法,这并非否定结构的重要性,而是表明pLMs通过学习海量结合数据,隐含地捕捉到了静态结构无法完全涵盖的动态特征。通过该方法发现的新型候选自身抗原PSG5,不仅在虹膜组织中找到了表达证据,也在患者体内得到了T细胞的直接验证,为HLA-B27相关疾病提供了潜在的分子机制联系。
最后,研究阐明了预测泛化的原则:预测准确性由功能距离而非序列相似性决定。这一发现改变了评估模型性能的视角,并引入的内在不确定性指标使得对未见受体的预测可靠性得以量化。这不仅指导了未来的实验方向,也为TCR工程化免疫疗法的理性设计提供了工具。总之,该研究确立了一个以肽识别为中心的TCR特异性定义和预测框架,为免疫学和生物技术社区提供了宝贵的资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号