基于知识引导的多模态Transformer在多标签基因突变预测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Knowledge-Guided Multi-Modality Transformer for Multi-Label Genetic Mutation Prediction

【字体：大中小】 时间：2026年01月18日 来源：Pattern Recognition 7.6

编辑推荐：

　　多标签Transformer模型BPGT通过基因图神经网络整合生物通路和基因命名语义知识，并采用模态融合机制将WSI空间特征与知识驱动基因表征结合，解决了基因突变预测中的类别不平衡和忽略基因间依赖性问题，在TCGA和CPTAC数据集上显著优于传统方法。

中山大学智能系统工程学院，广州，510006，中国

摘要

基因突变是具有临床意义的生物标志物，可指导癌症的诊断和治疗。从全切片图像（WSIs）中预测基因突变提供了一种比传统基因检测更具成本效益的替代方案，但现有的方法依赖于多个二元分类器，在建模基因之间的内在生物学关系时效率低下，并且不可避免地存在类别不平衡问题。我们提出了基于生物知识的PathGenomic多标签Transformer（BPGT），这是第一个用于从WSIs预测基因突变的多标签框架，它明确结合了内在生物学知识来指导特征学习。BPGT通过以下方式共同建模基因间依赖性和空间病理特征：（1）基因编码器通过两个精心设计的子模块构建了生物学信息丰富的基因先验：（a）基因图谱，其节点特征结合了基因的语言描述和癌症表型，边由通路关联和突变一致性定义；（b）知识关联模块通过基于Transformer的图表示学习将语言和生物医学知识融合到基因先验中，捕捉不同基因突变之间的内在关系。（2）标签解码器通过模态融合机制将这些知识驱动的基因先验与空间相关的WSI区域结合，并使用比较多标签损失来提高突变谱之间的区分度。这些设计使BPGT能够解决标签不平衡问题，捕捉共突变模式，并在端到端学习范式中利用非视觉领域知识。我们在TCGA的九种癌症和CPTAC的两种癌症中验证了BPGT的有效性，涵盖了超过4800万个图像块。在多种癌症和基因中，BPGT在基因突变预测的准确性和泛化能力方面始终优于现有方法。

引言

基因突变预测对精准医学至关重要，因为基因突变与肿瘤进展密切相关[1]。它揭示了肿瘤的分子特征，如侵袭性、药物抵抗性和复发风险，从而指导靶向治疗并改善患者预后。基因测序被认为是预测基因突变的金标准，但其成本是基于WSI检测的10-50倍，这限制了其在常规临床实践中的大规模应用[2]。最近在WSI分析[3]、[4]方面的进展表明，组织病理学特征与突变之间存在强烈关联[5]，使得可以直接从全切片图像（WSIs）中预测突变。由于WSIs在常规病理学中容易获得，这种方法更具成本效益[2]，对临床和AI研究具有很大潜力。

然而，从WSIs中预测基因突变具有挑战性：一方面，WSIs通常达到千兆像素级别，而基因突变发生在分子尺度上，仅表现为细微的组织病理学变化，即使是专家病理学家也难以识别[6]。这种大规模图像与细粒度信号之间的不匹配使得计算模型难以将特定的WSI区域与特定突变联系起来。另一方面，不同基因的突变往往相互关联，因为许多患者同时存在多个基因的改变[7]。总体而言，从WSIs中预测基因突变本质上是一个多标签分类问题，具有复杂的输入和高度相关的类别标签，这阻碍了现有方法实现准确预测。详细分析如下：

虽然基于多实例学习（MIL）的方法在基因突变预测方面显示出潜力，但直接应用这种逐基因的二元分类范式可能会忽略基因突变的内在关系和非视觉模态信息。MIL范式（将WSIs分割成块，从代表性块中提取特征，并将它们聚合成切片级表示）已被证明对包括基因突变预测在内的病理学任务有效。例如，Fu等人[8]使用基于迁移学习的MIL方法与InceptionNet提取块级特征，然后聚合成新的分类器进行基因突变预测。Kather等人[6]使用ResNet-50提取块级特征，通过MLP和平均池化进行聚合，并为每个基因训练独立的二元分类器。Qu等人[9]使用ResNet-101进行块级特征提取，通过K-means和人类专家选择肿瘤块，并使用自注意力层进行特征聚合以预测基因突变。Chen等人[10]提出了一种基于无监督聚类的MIL模型来预测基因突变。Lu等人[11]开发了一个在大规模WSI数据集上预训练的通用基础模型，并通过MIL分类器调整其特征以进行基因突变预测。Wang等人[12]预训练大规模块级表示，并通过多尺度MIL框架进行聚合以进行基因突变预测。Xu等人[13]在13亿个图像瓦片上进行预训练以学习块级特征，并使用基于LongNet的MIL架构捕获全切片上下文以进行基因突变预测。

尽管这些工作取得了显著的进展，但它们将基因突变任务分解为训练每个基因的单独二元分类器来预测其是否发生突变，如图1(a)所示。该框架有三个主要缺点：（1）每个二元分类器中的类别不平衡严重，因为未突变案例的数量远远超过突变案例；（2）随着基因数量的增加，可扩展性成为一个问题；（3）忽略了不同基因突变之间的内在生物学关系[14]、[15]，最终限制了效率并导致准确性不够理想。

知识图谱通过使用语义连接的节点和边来建模基因突变关系，显示出在WSIs中增强基因突变预测的潜力。最近的方法将WSI块表示为节点，并根据空间或基于特征的关系定义边，以改进节点表示及其相互作用。例如，Bazargani等人[16]从WSIs中提取不同规模的块作为节点，将欧几里得距离编码为边，使用GCN构建具有多尺度嵌入的图谱以用于下游任务。Cui等人[17]引入了一个多模态图卷积框架，整合成像和临床特征以预测癌症生存期。Frei等人[18]通过基于图的上下文建模改进了WSIs中的上皮细胞分类。Zheng等人[19]结合了全切片图构建和选择性状态空间建模以改进分类。

这些方法虽然有可能转移到基因突变预测中，但主要关注视觉特征，并未充分利用有价值的标签信息（例如，与标签相关的语言和生物医学知识），从而限制了它们在该领域的有效性。

尽管基于MIL和知识图谱的框架改进了WSI分析，但将它们直接应用于基因突变预测存在关键限制：

•

可扩展性和不平衡。逐基因的二元分类器需要为每个基因训练单独的模型，随着基因数量的增加，这计算成本很高。此外，由于负样本（未突变基因）的数量远远超过正样本，这些分类器倾向于偏向于负面预测[20]。

•

忽略基因间依赖性。将每个基因视为独立实体会忽略基因组数据中的内在生物学关系。基因突变通常是相互依赖的，表现出共现模式或通路级相互作用。忽略这些关系会导致性能不佳，特别是对于可以从相关基因中推断出的罕见突变[14]、[15]。

•

知识先验的利用不足。大多数现有的基于图谱的病理学方法主要关注视觉特征（例如，块或细胞）。因此，它们很大程度上忽略了丰富的标签语义，如基因名称中的语言知识和关于通路及共突变模式的生物医学知识[21]。没有这些先验，模型难以准确地将WSI区域与突变状态对齐，从而限制了预测能力。

因此，需要一个多标签分类框架，该框架利用WSIs的多模态信息、基因标签中的语言知识以及基因之间的生物医学关系，以实现准确的基因突变预测。此外，还需要方法来提高特征的可区分性，以正确识别所有突变基因。

基于上述讨论，我们提出了一个基于生物知识的PathGenomic多标签Transformer（BPGT）来预测基因突变。如图1(b)所示，BPGT通过统一的多标签预测框架解决了可扩展性和类别不平衡问题，该框架通过知识引导的编码器明确建模基因间依赖性，并利用多模态生物知识先验来提高突变预测性能。这些设计有效地克服了现有方法的局限性。具体来说，BPGT的贡献包括：（1）我们基于图神经网络和Transformer设计了新的基因编码器，将生物通路和语言知识整合到模型中作为基因先验。（2）我们开发了一个新的标签解码器，将视觉特征与生物知识融合以增强基因突变预测。（3）我们制定了一个比较多标签损失，以多标签分类的方式预测基因突变。

在癌症基因组图谱（TCGA）和临床蛋白质组肿瘤分析联盟（CPTAC）上的广泛实验表明，BPGT在不同癌症和基因突变方面的表现优于主流的基于MIL的方法。通过有效地将生物医学知识与千兆像素WSI特征联系起来，BPGT实现了准确的多基因预测，为临床医生在癌症治疗和预后评估中提供了具有成本效益的工具。

方法论

BPGT是一个紧密集成的多标签分类框架，可以直接从输入的WSIs预测所有目标基因的突变状态。BPGT由三个模块组成（图2）：视觉提取器、基因编码器和标签解码器，其中后两个是我们新设计的模块，它们利用全面的生物基因先验来提高突变预测的准确性。

数据准备和实施细节

在这项研究中，我们使用两个具有挑战性的数据集（癌症基因组图谱TCGA [31]和临床蛋白质组肿瘤分析联盟CPTAC）来评估BPGT的基因突变预测性能。（1）TCGA包含从不同队列和医疗中心收集的多个癌症特定数据集。TCGA在突变预测方面具有挑战性，因为：（a）它提供了非常大的WSIs（通常宽度和高度为50,000–900,000像素），并且只有患者级别的基因信息

结论

在这项研究中，我们设计了一个基于生物知识的PathGenomic多标签Transformer（BPGT），这是第一个将多标签分类范式应用于基因突变预测的框架。BPGT包括一个基于Transformer的图表示学习方法的基因编码器，表明在基因标签中整合生物医学和语言知识可以有效地捕捉不同基因之间的突变关系。它还具有一个标签解码器

资金来源

这项工作得到了深圳市医学研究基金（授权号B2402030）、深圳市科技创新计划（授权号JCYJ20240813151224032）的支持，以及中国国家自然科学基金（授权号62576370）和中国博士后科学基金（授权号2022TQ0389）的支持。

CRediT作者贡献声明

Gexin Huang：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，软件，方法论，调查，形式分析，数据管理，概念化。Chenfei Wu：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，方法论，资金获取，形式分析，数据管理，概念化。Mingjie Li：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，项目管理，

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号