基于层次化可解释Transformer的可靠酶学分类预测新方法

《Nature Communications》：Trustworthy prediction of enzyme commission numbers using a hierarchical interpretable transformer

【字体：大中小】 时间：2026年01月31日 来源：Nature Communications 15.7

编辑推荐：

　　为解决酶学功能注释中低代表性EC编号预测性能不足、不完整标注利用有限及模型可解释性差等问题，研究人员开展了基于层次化可解释Transformer模型HIT-EC的研究。该模型通过四层Transformer架构与EC编号层次对齐，并利用不完整标注数据进行训练，在多个评估场景下预测性能显著优于现有基准模型，同时提供与已知生物学知识一致的域特异性证据，为酶学、药物发现和代谢工程等领域提供了可靠解决方案。

在生命科学领域，准确理解酶的功能是揭示细胞代谢网络、开发新型药物及优化工业生物过程的关键。酶学委员会编号（Enzyme Commission number, EC number）作为国际通用的酶功能分类系统，通过四个层次化的数字（如1.1.1.1）精确描述了酶催化的反应类型。然而，随着基因组测序技术的飞速发展，海量新发现的蛋白质序列亟待功能注释，而传统的实验鉴定方法耗时费力，远远跟不上数据产生的速度。因此，计算预测EC编号成为了生物信息学研究的核心任务之一。

尽管近年来深度学习模型在EC编号预测上取得了显著进展，但依然面临三大严峻挑战。首先，对于数据库中序列数量较少的“低代表性”EC编号，模型的预测准确率普遍偏低。初步数据显示，当前最先进的方法在这类酶上的F1分数仅为70%左右，而这部分酶类却占到了已知EC编号的41%。其次，公共数据库中存在大量不完整的EC编号注释（例如，标注为“1.1.-.-”，表示后几位未知），而现有的模型在训练时通常将其弃之不用，造成了宝贵数据的浪费。最后，也是最为关键的一点，是模型预测的“可信度”问题。一个高精度的“黑箱”模型即使预测准确，如果无法提供其决策的依据——例如，指出是蛋白质序列中的哪些关键氨基酸残基或保守区域（motifs）支持了最终的EC编号分配——那么生物学家很难放心地将其用于指导后续的湿实验验证。

为了应对这些挑战，一项发表于《Nature Communications》的研究提出了一种名为HIT-EC（Hierarchical Interpretable Transformer for EC number prediction）的新模型。这项研究旨在开发一个不仅预测性能更强，而且能够提供可靠生物学解释的 trustworthy（可信赖）预测工具。

为了开展这项研究，研究人员整合了UniProt（瑞士蛋白质知识库）、蛋白质数据库（Protein Data Bank, PDB）和KEGG（京都基因与基因组百科全书）等权威数据库中的蛋白质序列数据。他们构建了一个包含约20万条序列的大型数据集，并采用了重复分层保持（repeated stratified hold-out）的评估策略来确保结果的可靠性。在技术方法上，该研究的核心是HIT-EC模型的构建。其主要关键技术包括：1. 一个与EC编号四级层次结构对齐的四层Transformer架构，该架构通过局部流（local flow）和全局流（global flow）分别捕捉层次间依赖关系和序列全局上下文信息；2. 一种用于处理不完整EC编号标注的掩码损失（masked loss）学习策略，有效利用了部分标注的数据；3. 一种结合注意力流（attention flow）和梯度相关性传播（gradient-based relevance propagation）的模型解释方案，用于生成氨基酸级别的相关性分数（relevance scores），为预测结果提供域特异性证据（domain-specific evidence）；4. 利用Optuna框架进行超参数优化，并使用随机权重平均（Stochastic Weight Averaging, SWA）来提高模型的泛化能力。

结果

重复分层保持实验的性能比较

研究人员首先在一个大规模数据集上通过十次重复分层保持实验评估了HIT-EC的性能，并与CLEAN、ECPICK和DeepECtransformer（DeepECT）等当前最先进的基准模型进行了比较。结果表明，HIT-EC在微观平均F1分数（micro-averaged F1-score）上达到了0.93 ± 0.01，在宏观平均F1分数（macro-averaged F1-score）上达到了0.84 ± 0.02，均显著优于所有基准模型。特别值得注意的是，在序列数量少于25条的 underrepresented（低代表性）EC类别上，HIT-EC的微观平均F1分数达到了0.77 ± 0.02，相比基准模型有5%至64%的提升。这些结果通过了Wilcoxon符号秩检验（p < 0.01），证明了HIT-EC在整体和特定类别预测上的显著优势。

消融研究

为了验证HIT-EC各个组件的贡献，研究人员进行了消融实验（ablation study）。他们比较了HIT-EC与三个对照模型：不含层次化机制的基础Transformer、使用掩码损失训练的基础Transformer、以及仅使用完整EC编号训练的HIT-EC。结果显示，完整的HIT-EC模型（即结合了层次化架构和不完整标注训练策略）在宏观平均F1分数和低代表性EC类别的预测上表现最佳。这表明层次化设计和对不完整标注的有效利用共同提升了模型的泛化能力，尤其是在数据稀疏的场景下。

使用新注册酶进行外部验证

为了测试模型的泛化能力，研究人员收集了在2022年9月之后新注册到Swiss-Prot数据库中的酶序列（New-28245数据集）进行外部验证。在这个与训练数据分布有一定差异的数据集上，HIT-EC的交叉验证模型取得了0.68 ± 0.07的微观平均F1分数，在低代表性EC类别上为0.42 ± 0.02，均显著优于基准模型。此外，研究人员还使用包含TrEMBL数据扩增后训练的公开预训练模型进行评估，HIT-EC同样保持了最高的性能（微观平均F1分数为0.932），证明了其在实际应用中的鲁棒性。

基于KEGG的物种特异性性能比较

研究人员进一步在14种微生物的完整基因组数据集上评估了模型的物种特异性性能。这些微生物包括大肠杆菌（Escherichia coli）、结核分枝杆菌（Mycobacterium tuberculosis）和绿脓杆菌（Pseudomonas aeruginosa）等具有重要研究意义的模式菌株。HIT-EC在14个物种中的8个上取得了最高的F1分数，平均微观平均F1分数为0.81 ± 0.06，再次显示了其在不同物种、不同序列组成背景下稳定且卓越的预测能力。

计算效率分析

在计算效率方面，HIT-EC表现出了巨大优势。在单个NVIDIA A30 GPU上处理单个酶序列的平均时间仅为38 ± 9毫秒，比CLEAN快99.0%，比DeepECT快92.7%，比ECPICK快81.6%。这种高效率使得HIT-EC非常适合于大规模基因组注释等高通量应用场景。

模型解释用于可信预测

研究的另一个核心贡献是HIT-EC强大的可解释性。研究人员通过两个案例展示了其提供的域特异性证据的可靠性。首先，以细胞色素P450 CYP106A2家族（EC 1.14.15.8）为例，HIT-EC生成的相关性分数成功定位了该家族已知的关键功能位点，如氧结合 motif（oxygen-binding motif）、EXXR motif 和血红素结合域（heme-binding domain），其识别能力优于可解释的基准模型ECPICK。其次，研究人员分析了七个第一级EC类别代表酶的相关性分数，发现高分区域与这些酶的已知特征签名（signature）和底物结合位点高度吻合。例如，乙醇脱氢酶（EC 1.1.1.1）的锌离子结合位点、己糖激酶（EC 2.7.1.1）的己糖激酶结构域签名等均被准确识别。

微生物生物修复中未充分研究酶的可信预测

最后，研究人员将HIT-EC应用于两个在微生物生物修复中有潜力但研究较少的酶：来自Amycolatopsis magusensis KCCM40447的CYP199A35和来自Streptomyces sp. W2061的PET水解酶。这两个酶的EC编号尚未被实验完全确定，但初步生化实验表明它们可能分别对应EC 1.14.99.15和EC 3.1.1.101。HIT-EC成功预测了这两个EC编号，并且其生成的相关性分数精准地突出了与这些酶功能相关的保守特征区域，如CYP199A35的P450特征签名和PET水解酶的Gly-X-Ser-X-Gly motif。这为这些新型酶的功能假设提供了强有力的计算证据，展示了HIT-EC在发现和注释新酶方面的应用潜力。

结论与讨论

本研究开发的HIT-EC模型通过其创新的层次化可解释Transformer架构，在EC编号预测的准确性、鲁棒性和可解释性方面均实现了显著提升。它不仅能够有效利用不完整的标注信息来增强模型性能，特别是对低代表性酶类的预测，还能通过提供与生物学知识一致的解释来增强预测结果的可信度。HIT-EC在交叉验证、外部数据集验证和物种特异性评估中一致性地优于现有最佳方法，证明了其作为可靠计算工具的价值。该研究为酶功能注释、药物靶点发现、代谢工程等领域提供了一个强大的新方法。未来，进一步扩展模型对极罕见EC编号的覆盖范围，并优化计算效率以实现更大规模的应用，将是重要的研究方向。HIT-EC的成功标志着深度学习在计算生物学领域向着更精准、更透明、更可信赖的方向迈出了坚实的一步。

热点排行