基于Transformer模型的NR3C1蛋白序列分类与OSCC代谢适应机制的解析研究

《Journal of Oral Biology and Craniofacial Research》：Transformer-based classification and interpretability of NR3C1 expression patterns in OSCC: Metabolic adaptation insights

【字体：大中小】 时间：2026年02月23日 来源：Journal of Oral Biology and Craniofacial Research CS4.9

编辑推荐：

　　本研究致力于解决口腔鳞状细胞癌(OSCC)中关键蛋白NR3C1（糖皮质激素受体）功能研究的难题。研究人员采用BERT、RoBERTa、DistilBERT和ALBERT等Transformer模型对NR3C1肽序列进行蛋白序列分类研究。结果表明，RoBERTa模型在F1分数（0.8574）和准确率上表现最佳，显著优于传统深度学习和机器学习方法。该研究为利用自然语言处理(NLP)技术分析癌症相关蛋白序列、开发潜在生物标志物和治疗靶点提供了新的计算生物学范式。

口腔，不仅是品尝美食、表达情感的窗口，更是人体重要的免疫和生理屏障。然而，一种名为口腔鳞状细胞癌(OSCC)的恶性肿瘤，却成为头颈部最常见的癌症类型之一，占所有头颈癌的约90%。尽管过去几十年里外科手术和分子肿瘤学取得了长足进步，但OSCC患者的总体生存率提升有限，仍在40%至81%之间徘徊。其中一个核心瓶颈在于，我们缺乏足够强大和特异的分子标记物，来帮助早期诊断、预测疾病进展和评估治疗效果。因此，深入挖掘OSCC背后的分子决定因素，成为了一项紧迫的任务。

在癌症复杂的分子图景中，有一个名为NR3C1的基因显得尤为关键。它编码的是糖皮质激素受体(GR)，这个受体就像细胞内的一个“压力传感器”和“调控开关”，参与调控炎症、细胞凋亡和分化等多种过程。近年来越来越多的证据表明，NR3C1在癌症中过表达，与肿瘤更强的侵袭性和对治疗的抵抗性相关。特别是在OSCC中，NR3C1可能驱动了免疫逃逸、上皮-间质转化(EMT)以及肿瘤微环境重塑等恶性进程。然而，我们对其作用的具体分子机制，尤其是在蛋白序列层面如何影响功能，了解得还很不够。

传统的蛋白质组学计算方法，如同基于序列比对的方法或手工设计的特征描述符，能力有限。它们更擅长解析蛋白质结构的氨基酸序列层级和上下文依赖特性，却难以捕捉序列细微变化对功能的深远影响。这就像只通过拼写检查来理解一首诗的意境，而忽略了词语间的韵律和深层联系。

幸运的是，来自人工智能领域的一股新风——Transformer模型，为这一难题带来了曙光。这类模型最初为自然语言处理(NLP)而设计，如今在生物序列分析中大放异彩。它们能够像理解句子一样理解氨基酸序列，不仅能学习到生化和结构排列，还能洞察其对功能的影响。那么，面对OSCC中关键的NR3C1蛋白，这些先进的Transformer模型表现如何？能否比传统的深度学习和机器学习方法更精准地对蛋白序列进行分类，从而为理解其功能打开一扇新窗？

这正是发表在《Journal of Oral Biology and Craniofacial Research》上的这项研究试图回答的问题。研究人员进行了一项系统的评估，将BERT、RoBERTa、DistilBERT和ALBERT这四种Transformer模型，与两种深度学习模型（长短时记忆网络LSTM和卷积神经网络CNN）以及两种传统机器学习分类器（随机森林和SVM）进行对比，目标是对NR3C1的肽序列进行分类。

为了开展这项研究，研究人员主要采用了以下几项关键技术方法：首先，从UniProt数据库检索并预处理了5条糖皮质激素受体（GR， NR3C1）蛋白序列，根据长度分为中等（200-500个氨基酸）和长（>500个氨基酸）两类，构成小型但目标明确的数据集。其次，研究核心是构建和微调模型，包括四种Transformer架构（BERT, RoBERTa, DistilBERT, ALBERT）、两种深度学习基线（双向LSTM和1D CNN）以及两种传统机器学习模型（随机森林和SVM）。所有模型在统一的配置下（如100个训练周期，学习率2×10^-5，Adam优化器）进行训练和评估。最后，使用准确率、精确度、召回率和F1分数等指标对模型性能进行全面评估和统计分析，以比较不同方法在蛋白序列分类任务上的效能。

研究结果揭示了以下重要发现：

3.1. 总体模型性能比较

在所有的模型中，Transformer模型展现出显著优势。其中，RoBERTa模型取得了最佳性能，F1分数为0.8574，准确率为0.8742。ALBERT和BERT紧随其后，F1分数分别为0.8509和0.8378。这些Transformer模型的性能远远超过了深度学习模型（LSTM和CNN的F1分数分别约为0.7765和0.7493）和传统机器学习方法（随机森林和SVM的F1分数分别为0.7078和0.6789）。这表明，即使在小数据集上，基于大规模预训练的Transformer模型也能表现出强大的泛化能力和鲁棒性。

3.2. 训练动态与收敛行为

在训练效率方面，Transformer模型也表现更佳。其中，DistilBERT收敛最快，仅需约65个周期，而所有Transformer模型都在100个周期内稳健收敛。相比之下，LSTM和CNN模型需要更长的训练时间，且最终损失更高，表明可能存在欠拟合。这凸显了Transformer模型因其自注意力和层归一化等特性，在数据效率和优化方面的优势。

此外，研究还对不同长度类别（中等 vs. 长序列）的分类性能进行了分析。所有Transformer模型在两类序列上都表现出几乎相同的高精度、召回率和F1分数，显示了其平衡且无偏的性能。而传统模型，尤其是对于中等长度的序列，表现则有所下降。

讨论与结论部分进一步阐释了本研究的意义。该研究结果与当前蛋白质序列建模的文献趋势一致，证实了Transformer模型，特别是RoBERTa，在捕捉序列细微模式方面的强大能力。研究也指出了模型性能与复杂性之间的权衡：虽然RoBERTa性能最佳，但参数较多（1.25亿）；而ALBERT以仅约12M的参数取得了RoBERTa约99.2%的性能，在资源有限的环境中展现了出色的效率平衡。

文章深入探讨了NR3C1在OSCC代谢适应中的核心作用。它指出，NR3C1是驱动肿瘤进展、侵袭和治疗抵抗的关键代谢适应调节因子。慢性心理压力等因素可升高糖皮质激素水平，激活GR，进而触发下游糖酵解酶（如PDK4, PGK1, PFKFB4）的转录，促使OSCC细胞从氧化磷酸化转向有氧糖酵解（Warburg效应）。这种代谢重编程导致乳酸产量增加、生物质积累和细胞外基质重塑，从而促进EMT、淋巴血管侵袭和对顺铂的耐药性。这些适应性与PI3K/Akt和HIF-1α等致癌通路存在串扰，共同加剧了肿瘤的恶性表型。

当然，研究也存在局限性，主要是数据集规模小（仅5条序列），这增加了过拟合风险并限制了普遍性。未来工作需要扩展NR3C1数据集，探索结合卷积层与Transformer的混合模型，采用蛋白质领域特异性预训练（如ProtTrans, ESM），并通过OSCC细胞或类器官模型验证计算发现的生物学相关性。

最终结论明确而有力：Transformer模型，尤其是RoBERTa，在NR3C1蛋白序列分类任务上显著优于传统方法，实现了更高的准确率和效率。ALBERT则在性能和效率间取得了良好平衡。这些发现强调了基于NLP的模型在生物信息学分析中的重要性，通过利用更大的数据集、多任务学习方法、增强的可解释性以及创建特定领域架构，有望推动肿瘤学中的蛋白质分析，并为实现与健康和癌症相关的可持续发展目标(SDGs)做出贡献。这项研究为计算生物信息学与分子肿瘤学之间的转化搭建了一座有希望的桥梁。

热点排行

新闻专题