用于发现前列腺癌分子标记的跨组学可解释神经网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computational Biology and Chemistry》：Cross-omics interpretable neural network for discovery of molecular markers in prostate cancer

【字体：大中小】 时间：2026年01月09日 来源：Computational Biology and Chemistry 3.1

编辑推荐：

　　前列腺癌分子标记预测中，传统线性模型精度不足而深度学习模型解释性差。本文提出CINN框架，整合基因表达、体细胞突变和拷贝数变异等多组学数据，通过可训练掩码层动态优化生物先验知识（如通路和蛋白互作网络），在TCGA-PRAD队列（1013例）中验证，F1值提升13.1%至0.843，AUC达0.949，并识别TBP和TAF2为关键分子标记。

陈欣|易胜|于迈尔阿博拉|刘宇涵|何亮|马静|郭文佳|孙刚

新疆大学计算机科学与技术学院，乌鲁木齐，830017，中国

摘要

确定在前列腺癌中介导临床侵袭性表型的分子标记是一个重大挑战。虽然传统的线性模型提供了一定的可解释性，但它们通常缺乏处理复杂多组学数据所需的精度。相反，传统的深度学习方法能够提供稳健的预测，但往往不够透明，这阻碍了有影响力的分子标记和生物学机制的识别。为了解决这个问题，我们提出了跨组学可解释神经网络（CINN），这是一个仿生框架，旨在通过整合多样化的组学数据来预测前列腺癌的状态并识别关键分子标记。

CINN创新性地利用了来自通路或蛋白质-蛋白质相互作用（PPI）网络的先验生物学知识，并结合了一个新颖的可训练掩码层。该掩码动态优化了预定义的生物学连接的强度，从而增强了知识表示和模型的可解释性。该框架有效地整合了多组学数据，包括基因表达、体细胞突变和拷贝数变异，提供了对疾病的整体视图。

在前列腺癌数据集上的广泛实验表明，CINN在性能上实现了显著且统计上显著的提升，超过了强大的基线模型（P-NET）。具体来说，我们表现最好的变体CINN-pw通过可训练掩码，将F1分数提高了13.1%至0.843，准确率提高了8.3%至0.894，AUC提高了2.3%至0.949。这些提升在大多数关键指标上都具有统计学意义（

p < 0.0001

），突显了我们方法的稳健性。重要的是，CINN的固有可解释性有助于识别关键的分子候选物，包括TBP和TAF2，这些因子与前列腺癌的进展有关。这些发现得到了现有文献的支持，并为前列腺癌的潜在治疗干预和精准医疗提供了宝贵的见解。

引言

随着高通量分子分析技术的快速发展，现在可以同时测量数万个基因、蛋白质和代谢物的表达（Weber等人，2008年；Shendure等人，2017年；NurkS等人，2022年）。这种丰富的跨组学数据为研究癌症发生和进展的机制提供了前所未有的机会（Nakagawa和Fujita，2018年；Safari-Alighiarloo等人，2014年）。然而，从数十亿个可能的分子测量中识别出少数几个稳健的分子标记仍然是一个主要挑战。

在癌症基因组学中，已经开发了许多预测模型来利用大规模的组学数据集。线性模型（如逻辑回归）提供了直接的可解释性，但往往缺乏预测能力。深度学习方法提供了更高的预测准确性，但通常作为“黑箱”运行，使得解释它们的预测和识别生物学上有意义的标记变得困难（Cheng等人，2020年；Sendak等人，2020年；Quinn等人，2022年）。这种准确性和可解释性之间的权衡是将人工智能（AI）模型转化为精准肿瘤学的关键瓶颈。最近在可解释AI方面的进展，包括基于生物学的架构（Chakraborty等人，2017年；Elmarakeby等人，2021年），已经开始解决这一差距，但大多数此类模型依赖于固定的先验知识图谱（例如，通路或蛋白质-蛋白质相互作用网络），这可能阻碍了对患者特定变异和数据中存在的新型关系的适应。

前列腺癌是男性中第二常见的癌症，也是全球癌症相关死亡的第五大原因（Rawla，2019年）。该疾病的转移形式是导致死亡的主要原因（Elmehrath等人，2021年）。因此，准确区分转移性前列腺癌和原发性前列腺癌病例，以及识别驱动疾病侵袭性的分子驱动因素，具有重要的临床和生物学意义。在这项研究中，我们将预测目标定义为原发性和转移性疾病之间的二分类。我们数据集中的所有去势抵抗性前列腺癌（CRPC）病例在临床上都被归类为转移性，并被纳入转移组进行模型训练和评估。

基于这些观察，我们还注意到前列腺癌中的多层分子扰动类似于在其他生物学背景下观察到的系统级响应。与非癌症系统中的复杂扰动类似，研究表明环境或生理压力因素可以诱导协调的多组学变化，从而驱动疾病表型。例如，Gao等人（2022年）研究了睾丸组织中的热应激如何触发氧化应激反应，破坏基因表达程序，并改变参与细胞存活、DNA修复和分化的关键调节因子。这类工作强调了压力诱导的通路失调——无论是在生殖生物学还是肿瘤学中——可以揭示对病理进展有贡献的关键分子因子。这一观点激发了我们将通路和相互作用先验与基因组改变相结合，以检测前列腺癌中可解释的、与疾病相关的标记。

我们分析了TCGA–前列腺腺癌（TCGA-PRAD）队列中的体细胞突变和拷贝数改变谱型，使用了P-NET研究发布的公开预处理数据集（Marakeby等人，《自然遗传学》，2021年；DOI：10.5281/zenodo.5163213）。该数据集包含1013名患者，其中包括333例转移性病例和680例原发性病例，通过cBioPortal在2024年12月20日访问。使用患者级别的分层分割（80%用于训练，10%用于验证，10%用于测试）以避免数据泄露。

为了解决固定生物学先验的局限性，我们提出了一个跨组学可解释神经网络（CINN），它将策划的通路和蛋白质-蛋白质相互作用（PPI）网络与基因组改变相结合，同时使用一个可训练的先验掩码矩阵。该掩码从先验网络结构初始化，以保持生物学上合理的稀疏性，但在训练过程中是可学习的，允许根据数据集的支持来细化边。通过基于DeepLIFT的归因分数以及考虑度数的归一化来实现可解释性，从而减少中心节点偏差，使基因和通路能够根据它们对模型预测的贡献进行排名。

在这里，我们明确陈述了指导我们研究的假设：

H1： 从通路/PPI先验重新训练的掩码可以提高分类区分度（准确性、F1分数、AUC），优于固定先验掩码的基线。

H2： 可训练掩码的性能提升可以在不牺牲可解释性的情况下实现，这通过特征归因的稳定性来衡量（通过独立运行中Deeplift分数的平均Spearman相关性和前20个特征的重叠来量化）。

总之，本研究做出了以下贡献：

1.
我们引入了CINN，这是一个跨组学可解释的深度学习框架，它结合了通路和PPI先验以及一个可训练的掩码，实现了优于固定掩码基线的分类性能。
2.
使用CINN，我们识别出TBP和TAF2作为侵袭性前列腺癌的候选分子标记，得到了计算证据和文献验证的支持。

本文的其余部分组织如下：第2节描述了所提出的方法，第3节介绍了实验设置和结果，第4节分析了发现，第5节总结了工作。

方法

本节描述了所选材料、模型的构建方法以及归因分析。整个工作的流程如图1所示。

实验

在本节中，我们评估了CINN的有效性，并在前列腺癌数据集上对其进行了解释。

全连接性与稀疏连接性与动态连接性

本节主要旨在验证性能提升是否归因于可训练掩码（也称为动态掩码）。根据我们的实验结果，我们在图7中展示了其具体连接方式。这与我们的原始想法一致。优化模型内的知识表示可以提高性能，并可能影响下游的可解释任务。

从第一层到第二层

结论

我们的研究解决了识别前列腺癌可靠分子标记的关键挑战，通过开发了一种方法来整合多样化的组学数据，同时提高了预测性能和生物学可解释性。为此，我们引入了跨组学可解释神经网络（CINN）框架，这是一个仿生稀疏神经网络模型，它结合了来自通路或蛋白质-蛋白质相互作用（PPI）网络的先验生物学知识。

CRediT作者贡献声明

陈欣：写作——审稿与编辑。易胜：写作——审稿与编辑，撰写原始草稿，可视化，验证，软件，数据管理，概念化。于迈尔阿博拉：撰写原始草稿，数据管理，概念化。刘宇涵：写作——审稿与编辑。何亮：撰写原始草稿，监督，资源管理，项目管理，调查，数据管理。马静：写作——审稿与编辑，验证。郭文佳：监督，资源管理，

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了新疆维吾尔自治区关键研发计划（授权号：2022B03019-6）的支持。我们感谢小组成员的宝贵讨论和意见。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号