基于大规模T细胞受体谱推断SARS-CoV-2暴露生物标志物:一种稳健的免疫状态评估新策略

《Genome Medicine》:Inference of SARS-CoV-2 exposure biomarkers using large-scale T-cell repertoire profiling

【字体: 时间:2026年02月17日 来源:Genome Medicine 11.2

编辑推荐:

  这篇综述性研究系统阐述了如何利用大规模适应性免疫受体库测序(AIRR-seq)数据,通过创新的批次效应校正方法和机器学习模型,开发出能够准确区分SARS-CoV-2既往暴露与未暴露个体的T细胞受体(TCR)生物标志物分类器。研究不仅构建了高质量的TCR生物标志物数据库,还验证了该方法在不同批次和技术平台间的稳健性与泛化能力,为基于TCR测序的群体免疫监测和传染病传播追踪开辟了新途径。

背景与方法概览
COVID-19大流行为开发基于群体免疫印记的传染病传播监测方法提供了契机。适应性免疫受体库测序(AIRR-seq)已成为识别编码病原体特异性和免疫记忆的T细胞受体(TCR)生物标志物的首选方法。本研究的主要目标是发现TCR序列生物标志物,并构建一个能准确、稳健地区分COVID-19康复者与未暴露个体的生物信息学流程。
研究流程如Fig. 1所示,主要分为几个关键步骤。首先,从已知COVID-19状态和HLA背景的捐赠者(队列I)获取外周血样本,使用多重PCR等常规方案对TCRα和β链进行测序。样本经过预处理和比对,以识别V/D/J等位基因并提取CDR3区域。随后,应用批次效应校正程序对V(D)J重排频率进行标准化,以解决不同测序批次和实验方案带来的技术偏差。接着,分别针对TCR的α和β链,使用Fisher精确检验筛选出与COVID-19状态显著相关的TCR序列生物标志物。这些生物标志物通过将序列聚类成“元克隆型”进行聚合。对这些簇的注释则利用了已知抗原特异性的TCR序列数据库、HLA元数据关联分析以及α-β链配对分析的结果。最后,基于上述元克隆型生物标志物构建包含多种特征集的分类器,并使用留一批次交叉验证技术进行训练和评估。研究还使用了另一个先前发表的队列(队列II)来评估分类器的稳健性,将批次效应校正和样本预处理技术应用于两个队列,并尝试在一个队列上完全训练分类器,在另一个队列上进行验证。
本研究为多中心横断面分层流行病学研究,招募了来自俄罗斯联邦54个地区的1275名参与者。队列I包括392名对照组(健康个体)和861名核心组(COVID-19患者)。所有样本均使用Human TCR DNA Multiplex kit进行TCRα和β链测序文库构建,并在Illumina NovaSeq 6000平台上进行测序。此外,还通过高通量测序对HLA I类和II类的主要位点进行了分型。研究应用了新的批次效应校正方法,该方法通过假设基因使用频率在批次内服从对数正态分布,计算Z分数并进行sigmoid变换,从而校正克隆型的原始频率,最终通过轮盘赌选择法根据调整后的频率对库中的克隆型进行重采样,以生成具有更新概率的新库。
批次效应及其在校正后的改善
研究数据以批次形式制备,不同批次间受试者数量和COVID-19康复者与健康捐赠者的比例均不均衡。由于AIRR-seq数据的极高维度和复杂性,批次间文库制备和测序的微小差异都可能导致偏倚。分析发现,在TRAV基因的使用上,t-SNE图显示了明显的批次相关聚类,例如批次1和8的样本主要位于t-SNE图成分1的正负两侧。批次效应在TRAJ和TRBJ基因中也被检测到。这些效应在应用了基于V和J基因使用频率的批次效应校正程序后得到了有效消除,校正后的样本在t-SNE图上呈现均匀分布(Fig. 2D-G)。重要的是,校正过程保留了生物学变异性,例如TRBV28、TRBV6-2和TRBV4-3基因的共使用模式,这种模式与已知的TCRβ位点21-kb缺失多态性有关,在批次校正后依然清晰可见(Fig. 2H)。对独立的多实验室数据集的进一步分析也证实了该校正方法的有效性。
COVID-19相关TCR生物标志物的评估与注释
在批次校正后,研究采用Fisher精确检验从校正后的库中推断与COVID-19相关的TCR克隆型。最终在q = 0.01的阈值下,获得了4,887个显著的TCRα生物标志物和574个显著的TCRβ生物标志物。COVID-19康复者捐赠者样本中这些相关克隆型构成了可检测的部分(平均占TCRα和TCRβ库中所有克隆型的24.1%和6.8%),且显著高于健康捐赠者。
通过对CDR3序列构建汉明距离为1的相似性图,研究将原始克隆型列表聚合成115个TCRα和58个TCRβ簇(元克隆型),实现了数量级的压缩。通过与VDJdb数据库进行比对,并允许CDR3区域存在单个氨基酸替换,发现了23个TCRα簇和5个TCRβ簇与SARS-CoV-2表位强烈相关。此外,研究还通过研究α和β克隆型在样本间的相关性进行了计算机模拟的链配对分析,结果显示,只有强相关的TCRα和β簇才能匹配到相同的表位,其中许多表位与SARS-CoV-2相关。
构建基于TCRα和β生物标志物的COVID-19状态分类器
研究使用上述TCRα和β生物标志物来构建准确的COVID-19状态分类器。支持向量机(SVM)模型显示出最佳性能。同时使用α和β链能构建出高精度的分类器,这表明每条链的生物标志物都提供了额外的有益信息。使用元克隆型特征的分类器在区分COVID-19康复病例和健康病例方面表现更优,获得了接近最优的分类器指标(Fig. 4D-F)和出色的样本分类效果(Fig. 4G)。特征重要性分析显示,随机森林模型几乎只将α链特征列为最重要,而XgBoost模型则将许多β链特征列为重要。
在独立数据集上验证分类器及HLA关联分析
研究使用来自Adaptive Biotechnologies的已发表数据集(队列II)来验证分类器。该队列仅包含TCRβ链数据,且健康样本与COVID-19样本来自不同时间测序的批次,存在强烈的批次效应。在应用相同的批次效应校正和重采样后,研究从队列II中识别出2,066个TCRβ生物标志物,可聚类为231个元克隆型。尽管存在强烈的批次效应,但基于队列I的TCRβ生物标志物训练的分类器,在应用于经过批次校正的队列II数据后,仍能获得良好的性能。反之,在队列II上训练的分类器由于健康与病例状态与批次高度耦合,性能不佳。比较两个队列独立推导出的TCRβ生物标志物,在合并的同源性图中,有五个元克隆型簇同时包含来自两个队列的克隆型,表明了对共享的SARS-CoV-2相关基序的趋同。
由于T细胞通过呈现特定肽段的HLA等位基因来识别病原体,研究结合了HLA分型数据进行分析。发现了一个与HLA-DRB1*16/DQB1*05单倍型以及COVID-19阳性状态紧密相关的独特TCRβ生物标志物基序。该基序由13个克隆型组成,均使用了TRBV12-3基因,其CDR3氨基酸基序高度保守,仅第8位点可变(Fig. 6A)。携带此基序的捐赠者绝大多数(63/75)为COVID-19阳性。此外,专门针对携带特定HLA等位基因(如常见的HLA-A*02)的捐赠者子集构建的分类器,其准确性高于在混合HLA等位基因的相似规模捐赠者集或整个数据集上训练的分类器,表明正确处理HLA信息可以极大提升基于AIRR的分类器性能。
讨论与结论
本研究开发了一个概念验证性的实验和计算流程,证明经过适当统计和机器学习工具处理的AIRR-seq数据,能够准确地对个体进行SARS-CoV-2既往暴露分层。解决批次效应是构建稳健分类器的核心挑战,本研究设计的基因使用归一化策略有效消除了批次和技术间的偏差。研究明确了同时分析TCRα和β链生物标志物可以显著提升分类器性能,即使在没有单细胞分辨率配对数据的情况下,也能通过计算机模拟配对部分恢复链间关联。元克隆型特征因其能抵抗库噪声并捕获可能靶向相同表位的序列相似克隆型组,从而持续优于单个克隆型特征。
与依赖已知SARS-CoV-2表位特异性TCR序列的策略相比,本研究采用的从头发现生物标志物的方法具有优势,能够识别出对常见HLA限制性(如HLA-A*02)之外的表位的免疫反应。尽管研究存在一些局限性,例如所有样本均在COVID-19后期招募,以及使用的是单链TCR测序数据,但研究成果为基于AIRR-seq的群体免疫监测铺平了道路。所开发的分类器适用于通过不同方案获得的个体TCR库,展现了在大规模捐赠者队列中进行免疫状态评估的潜力。未来工作需要进一步改进AIRR-seq数据的批次效应校正方法,并探索配对链或单细胞TCR测序,以更全面地解析T细胞免疫应答。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号