基于深度肽识别谱解析TCR特异性并实现疾病相关抗原发现

《Nature Biotechnology》：Deep peptide recognition profiling decodes TCR specificity and enables disease-associated antigen discovery

【字体：大中小】 时间：2026年05月14日 来源：Nature Biotechnology 41.7

编辑推荐：

　　基于序列预测T细胞受体（T cell receptor, TCR）的特异性具有挑战性，因为序列相似的TCR可识别完全不同的抗原，而序列不同的TCR却可能识别相同的抗原。在此，研究人员提出了一种系统，该系统集成了高通量酵母展示技术与微调的蛋白质语言模型（prot

基于序列预测T细胞受体（T cell receptor, TCR）的特异性具有挑战性，因为序列相似的TCR可识别完全不同的抗原，而序列不同的TCR却可能识别相同的抗原。在此，研究人员提出了一种系统，该系统集成了高通量酵母展示技术与微调的蛋白质语言模型（protein language models, pLMs），为单个TCR生成深度肽识别谱（deep peptide recognition profiles, PRPs），详细记录了针对数百万肽段的结合情况。研究人员提供了来自强直性脊柱炎（ankylosing spondylitis, AS）和急性前葡萄膜炎（acute anterior uveitis, AAU）患者的HLA-B*27:05限制性TCR的详细PRPs，这些TCR几乎完全通过CDR3β识别肽段。在这些PRPs上训练的pLMs在预测T细胞活化方面优于AlphaFold3和tFold-TCR。研究人员发现并验证了新型候选自身抗原，证明模型对新TCR的泛化能力与功能距离（PRP差异度）相关，而非序列相似性，并引入了一种模型内在的不确定性指标来量化预测置信度。该系统的PRP数据集为绘制TCR识别图谱、加速抗原发现和指导TCR工程化提供了一种可扩展的方法。

研究人员针对T细胞受体（TCR）识别抗原肽-MHC复合物（pMHC）的复杂性，开发了一套整合实验与计算的平台，相关成果发表于《Nature Biotechnology》。该研究旨在解决TCR序列与功能之间的脱节问题，即序列相似性与抗原特异性缺乏严格对应关系，限制了现有基于序列聚类或结构建模方法的准确性。通过构建深度肽识别谱（PRP），研究人员揭示了TCR特异性的新规则，并成功应用于疾病相关抗原的发现。

为实现这一目标，研究人员采用了几项关键技术：首先，利用高通量酵母表面展示技术，筛选了约10⁹个随机肽段文库，定量测量了16个HLA-B*27:05限制性TCR的结合相互作用；其次，设计了包含锚定位点固定（P2为精氨酸，P8为脯氨酸）的9聚体肽库，以确保文库稳定性并覆盖关键的精细特异性位点；随后，利用获得的PRP数据对蛋白质语言模型（pLM）进行微调，学习TCR-pMHC结合的序列依赖关系；最后，通过多维尺度分析（MDS）、均匀流形逼近与投影（UMAP）等方法分析功能距离，并利用流式细胞术和晶体学验证预测的激活肽及结构基础。

结果

整合平台描绘TCR-肽识别图谱

研究人员将高通量酵母展示与深度学习相结合，对16个源自AS和AAU患者的HLA-B*27:05限制性TCR进行了深度肽识别谱分析。结果显示，每个TCR能识别数百至6000多个独特的肽配体，证实了TCR识别广度的显著差异。结构分析表明，这些疾病相关的TCR呈现出以β链为中心的对接几何结构，其中CDR3β环主要负责肽骨架和侧链的接触，这为后续模型聚焦于CDR3β序列提供了结构依据。

PRPs揭示的功能聚类不同于TCR序列相似性

通过对肽富集概率分布的Jensen-Shannon（JS）散度计算，研究人员发现TCR的功能聚类（基于PRP）与其CDR3β序列相似性并不一致。例如，序列不同的TCRs 135.1、135.3和135.8形成了紧密的肽识别簇，而序列相似的TCR有时表现出截然不同的结合谱。这表明PRP提供了比序列聚类更稳健、生物学相关性更强的TCR关联性度量。

PRP-informed pLM准确预测肽结合特异性

在微调后的pLM能够准确区分结合与非结合肽（AUROC > 0.95）。重要的是，尽管模型仅基于β链序列训练，其性能与包含α链的模型相当，并通过α链交换实验证实在该克隆型受限家族中，β链是决定核心肽特异性的主导因素。梯度显著性分析显示，模型学习到的关键残基位置（如P4、P5）与已知的结构接触位点高度吻合。将该模型应用于人类蛋白质组预测，筛选出15个高交叉反应性候选肽。

PRP-informed模型预测人蛋白质组肽诱导的T细胞活化

虽然模型是基于结合数据训练的，但它能有效区分激活与非激活肽，其预测T细胞活化（CD69上调）的准确率显著优于AlphaFold3和tFold-TCR。实验验证发现，源自妊娠特异性糖蛋白5（PSG5）和pre-mRNA加工因子3（PRPF3）的肽段能激活大多数测试TCR。单细胞RNA测序数据显示PSG5在人虹膜色素上皮细胞表达，且通过HLA-B27:05-PSG5四聚体染色证实，HLA-B27⁺的AS/AAU患者外周血中PSG5特异性CD8⁺T细胞频率显著高于健康对照。晶体结构分析显示PSG5与已知的细菌抗原YEIH具有高度相似的TCR结合模式。

TCR邻域内的预测泛化通过联合建模得到增强

研究人员构建了TCR 19.2的CDR3β突变体邻域，发现尽管单个模型能预测结合，但在预测活化方面表现有限。相比之下，联合训练一个包含整个19.2邻域PRP数据的单一pLM，显著提高了对活化肽的预测能力。这归因于整合邻近TCR的数据能捕捉到共享的识别原则，提供了更稳健的结合共识。

跨TCR的泛化：性能限制与模型内在不确定性的效用

通过留一法（LOO）交叉验证，研究人员证明预测转移性的关键决定因素是新TCR与训练集之间的功能距离（PRP差异度），而非CDR3编辑距离或TCRdist等序列相似性指标。此外，研究人员引入了马氏距离（Mahalanobis distance）作为一种模型内在的“不确定性指标”，用于量化新TCR在习得嵌入空间中的分布外程度。该指标与实验测得的PRP差异度显著相关，为预测新TCR的可靠性提供了定量依据。

讨论与结论

本研究提出的整合平台通过经验确定的PRP，建立了连接TCR序列与功能的桥梁。研究发现，TCR可以根据其PRP被组织成不同的聚类，这种基于功能的分类为传统的基于序列的分组方法（如GLIPH、TCRdist）提供了生物学上有意义的补充。尽管研究聚焦于特定的HLA-B*27:05限制性TCR家族，但结果表明在该系统中CDR3α主要起微调作用，而CDR3β决定了核心特异性。

该框架的一个重要贡献是将预测从结合层面延伸至功能性T细胞活化。PRP-informed pLMs的表现超越了现有的结构建模方法，这并非否定结构的重要性，而是表明pLMs通过学习海量结合数据，隐含地捕捉到了静态结构无法完全涵盖的动态特征。通过该方法发现的新型候选自身抗原PSG5，不仅在虹膜组织中找到了表达证据，也在患者体内得到了T细胞的直接验证，为HLA-B27相关疾病提供了潜在的分子机制联系。

最后，研究阐明了预测泛化的原则：预测准确性由功能距离而非序列相似性决定。这一发现改变了评估模型性能的视角，并引入的内在不确定性指标使得对未见受体的预测可靠性得以量化。这不仅指导了未来的实验方向，也为TCR工程化免疫疗法的理性设计提供了工具。总之，该研究确立了一个以肽识别为中心的TCR特异性定义和预测框架，为免疫学和生物技术社区提供了宝贵的资源。

热点排行