TxPert：利用多知识图谱预测转录组扰动效应

《Nature Biotechnology》：TxPert: using multiple knowledge graphs for prediction of transcriptomic perturbation effects

【字体：大中小】 时间：2026年05月02日 来源：Nature Biotechnology 41.7

编辑推荐：

　　准确预测细胞对遗传扰动的响应对于理解疾病机制和设计有效疗法至关重要。然而，穷尽探索可能的扰动空间（例如多基因扰动或跨组织和细胞类型）成本高昂，这促使需要能够泛化至未见条件的方法。研究人员提出了TxPert，这是一种基于潜在迁移（latent-transfer-

准确预测细胞对遗传扰动的响应对于理解疾病机制和设计有效疗法至关重要。然而，穷尽探索可能的扰动空间（例如多基因扰动或跨组织和细胞类型）成本高昂，这促使需要能够泛化至未见条件的方法。研究人员提出了TxPert，这是一种基于潜在迁移（latent-transfer-based）的深度学习模型，利用基因（产物）-基因（产物）关系的多知识图谱来预测转录组扰动效应。不同的知识图谱编码了互补信息，研究表明，源自生物数据库和高通量扰动筛选相结合的图谱组合能产生最佳性能。对于未见过的单扰动预测，TxPert的性能接近分半实验重现性（split-half experimental reproducibility）。对于双扰动及在不同细胞系中的单扰动，其预测将未见单扰动的皮尔逊Δ（Pearson Δ）相比现有方法提高了8–25%。

研究背景与立项依据

在药物发现领域，候选治疗剂在进入临床前通常需在多种细胞环境中进行测试，但绝大多数候选物最终失败，且往往是在投入巨大成本后的开发后期才显现出来。其核心挑战在于找到能将细胞状态从病变推向健康的特定扰动。因此，领域内迫切需要能够在分布外（Out-of-Distribution, OOD）环境中模拟扰动效应的计算模型，以实现高度靶向的湿实验验证，减少对昂贵全筛选的依赖。目前，预测扰动效应的策略主要分为利用细胞响应固有组成性的深度生成模型和引入先验生物学知识作为归纳偏置两类。尽管机器学习在其他生物学领域（如蛋白质结构预测）取得了显著进展，但在转录组扰动预测方面，深度学习模型的表现常不尽人意，有时甚至落后于简单的基线模型（如训练集均值）。在此背景下，研究人员开发了TxPert模型，旨在解决现有模型的不足，并在《Nature Biotechnology》上发表了这一成果。

关键技术方法概述

本研究构建了一个可扩展的训练和评估框架。数据来源于多个Perturb-seq数据集，涵盖K562、RPE1、HepG2及Jurkat等多种细胞系。关键技术包括：首先，针对批次效应和混杂因素，采用了批次匹配对照（batch-matched controls）策略；其次，引入了检索指标（retrieval metrics）结合皮尔逊Δ（Pearson Δ）作为核心评估体系；核心模型TxPert采用潜在迁移架构，包含基底状态编码器（MLP实现）和扰动编码器（基于图神经网络GNN），后者利用了STRING、Gene Ontology (GO)、PxMap及TxMap等多源知识图谱；此外，通过随机重连边和降采样进行了严格的消融实验以验证图谱效用。

研究结果

重新审视基于生物学基础的度量设计

研究发现实验批次效应显著，且批次与扰动ID之间存在显著关联（混杂因素）。若忽视此问题，会高估模型性能。通过分析，研究人员证实了批次内对照相关性显著高于批次间，因此确立了所有后续训练和评估必须使用批次匹配对照的原则。在评估指标方面，研究发现均值基线（mean baseline）模型具有惊人的预测力，这反映了细胞对扰动压力的系统性应激反应。为此，研究采用了检索指标作为补充，并确定余弦相似度和皮尔逊Δ是直接应用于Δ谱的最佳选择。

TxPert：面向OOD任务的转录组扰动效应预测框架

TxPert通过结合基底状态编码器和基于图神经网络（GNN）的扰动编码器来预测扰动后的基因表达。基底状态由多层感知机（MLP）编码，而扰动则通过整合多种知识图谱（KG）学习嵌入。研究人员探索了多种GNN架构，最终针对未见单扰动选择了Exphormer-MG，针对双扰动选择了GAT-MLG。该框架在多种OOD任务中均优于GEARS、scLAMBDA及统计基线模型。

TxPert在预测未见扰动效应方面大幅优于其他模型

在四种广泛研究的细胞系（K562、RPE1、HepG2、Jurkat）中，TxPert在预测已知细胞类型中的未见单扰动时，统一优于scLAMBDA、GEARS及通用基线。其性能在K562、Jurkat和HepG2细胞系中与分半实验重现性相当，确立了新的性能基准。

TxPert优于现有模型及加性基线，可预测多基因扰动效应

在预测双扰动效应（组成单扰动已在训练中见过）的任务中，使用Norman数据集进行评估。TxPert实现的皮尔逊Δ略高于加性基线（additive baseline），并大幅领先于GEARS和scLAMBDA，证明了模型捕捉非线性相互作用的能力。

TxPert可有效泛化至跨细胞系未见扰动的预测

在更具挑战性的跨细胞系预测任务中（留一法，目标细胞系的所有扰动示例被留出），TxPert在所有四种留出细胞系中均超过了通用基线，并一致优于scLAMBDA。这表明TxPert学习的表征具有高度的生物学普适性。

TxPert从生物知识图谱（KGs）中学习有意义的信息

通过消融研究，研究人员发现随机重连STRING图谱的边会导致模型性能持续下降，证实了生物图谱信息的有效性。在单一图谱比较中，STRING表现最佳，其次是PxMap。这表明源自高通量筛选的图谱虽不如数据库衍生的图谱，但仍提供了有价值的信号。

结合多知识图谱可提升TxPert性能

假设不同图谱提供互补信息，研究人员探索了四种多图谱整合策略。结果表明，随着图谱数量的增加（从STRING到STRING+GO+PxMap+TxMap），预测性能逐步提升，证实了多源信息融合的优势。

模型性能的详细评估

分析表明，模型性能与目标基因的Pharos知识等级呈正相关，但这部分是由数据内在因素（如效应大小）驱动的。值得注意的是，研究发现模型的一个特定失效模式：无法准确预测扰动目标基因本身的mRNA下调。

讨论与结论

过去一年，转录组扰动领域的基础模型经历了现实检验，多项独立基准测试未能验证部分高知名度模型的声称性能。本研究通过严格的基准测试和强健的基线比较，提出了TxPert，这是一个广泛适用的扰动模型，在某些指标上已能与严苛的分半实验重现性相竞争。其成功的关键在于有效地整合了精选的生物数据库与大规模、一致且无偏的高通量筛选数据，并结合了一流的图建模技术。TxPert作为一个可复用的框架，为领域的迭代改进奠定了坚实基础。未来的发展方向包括纳入更多样化的数据以泛化至原代人组织，以及扩展至少样本或主动学习场景。最终，此类虚拟检测能力的成熟有望加速药物发现进程，为个性化医疗开辟新前沿。

热点排行