CASE-TCR:一种基于内容感知和稀疏选择注意力机制的学习框架,利用T细胞受体序列进行泛癌症预测

《Knowledge-Based Systems》:CASE-TCR: Content Aware and Sparse Selection Attention Driven Learning Framework for Pan-cancer Prediction Using T-Cell Receptor Sequences

【字体: 时间:2026年03月23日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  TCR检测中,CASE-TCR模型通过动态蛋白BERT编码、双稀疏注意力机制和自对比学习提升癌症早期筛查精度,在10种癌症类型中AUC达0.97,灵敏度超90%。

  
王电电|金彤|王国亮|刘帅|王坤|胡殿林|刘进|刘希林
安徽工程技术大学计算机与信息学院,芜湖,中国

摘要

T细胞受体(TCR)库是癌症相关免疫活动的重要指标,在免疫诊断中具有巨大潜力。尽管近期取得了一些进展,现有的计算模型往往无法充分捕捉TCR序列之间的复杂依赖关系,也难以检测到罕见的癌症相关TCR(caTCRs)。这些不足限制了早期癌症识别的精确度以及预测模型在多种癌症类型中的泛化能力。为克服现有模型的局限性,我们提出了CASE-TCR,这是一种基于三个核心组件的先进深度学习架构。首先,CASE-TCR结合了动态蛋白质-BERT编码器和Sparsemax注意力机制从CDR3序列中提取上下文特征;其次,它采用了双重稀疏化共注意力机制,通过TopK过滤和Sparsemax来强调信息性基序同时最小化背景噪声;第三,它采用了自对比学习方法,包括随机位置掩码和氨基酸替换等技术来增强对罕见癌症相关TCR的预测。该模型架构进一步集成了核大小从2到7的多尺度卷积神经网络,并采用了五模型集成策略以确保预测的稳定性和准确性。在包含1,164名患者的10种癌症类型样本上进行评估时,CASE-TCR表现出了显著的改进。其在多种癌症类型中的一致性稳健性凸显了CASE-TCR作为可扩展的泛癌症筛查框架的强大潜力,适用于临床和研究应用。

部分内容摘录

引言

T细胞是适应性免疫的核心组成部分,通过其T细胞受体(TCR)执行抗原特异性反应。TCR的结构多样性,尤其是在互补决定区3(CDR3)中,使得它们能够选择性地结合多种抗原表位,从而实现有效的免疫监视[1]。大量研究表明,肿瘤的发展会破坏TCR库,导致癌症相关TCR(caTCRs)的出现

相关工作

caTCRs的计算预测经历了几个方法论阶段,每个阶段都针对TCR序列分析的特定方面。早期的方法主要依赖于序列比对技术,例如TCRdist(2017)[11],它使用结构距离度量来量化CDR3β的成对相似性,但严重忽略了上下文依赖性和库内动态。后续方法则利用了k-mer频率分析

方法与材料

所提出的CASE-TCR框架基于TCR库分析采用了多阶段架构进行癌症预测。如图1所示,该流程首先对AIRR-seq数据进行生物学信息预处理,根据结构完整性筛选CDR3β序列,选择长度在10到24个氨基酸之间的序列,并且末端保留半胱氨酸(C)和苯丙氨酸(F)残基。此外,还选择了在多个样本中频繁出现的公共克隆型

对比损失优化

序列级别的对比损失最大化了同一TCR不同视图之间的一致性,同时最小化了不同TCR之间的相似性:
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号