基于神经潜在过滤的乳腺癌亚型基因发现新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biotechnology Reports》：Neural latent filtering for gene discovery in breast cancer subtypes

【字体：大中小】 时间：2026年01月02日 来源：Biotechnology Reports CS15.8

编辑推荐：

　　本研究针对RNA测序数据高维度特性导致基因筛选困难的问题，提出了一种融合IGTD算法和U-Net架构的神经潜在过滤新方法。通过将基因表达数据转换为图像并提取潜在表征，成功识别出乳腺癌Luminal-A和Basal-like亚型的关键基因，为精准医疗提供了新型生物标志物发现工具。

在精准医疗时代，乳腺癌的分子异质性给治疗带来巨大挑战。同一病理类型的肿瘤可能对相同治疗方案产生截然不同的反应，这主要源于其内在的基因表达差异。特别是Luminal-A和Basal-like这两种亚型，前者激素受体阳性且预后较好，后者三阴性特征使其成为最具侵袭性的亚型。传统基因筛选方法如差异表达分析、PCA降维等技术存在假阳性率高、结果解释性差等局限，迫切需要开发新的计算生物学方法来突破这一瓶颈。

发表于《Biotechnology Reports》的这项研究创新性地将计算机视觉技术引入基因发现领域。研究团队开发了一套整合IGTD（Image Generator for Tabular Data）算法和U-Net神经网络的完整流程，通过对TCGA数据库中1,182例乳腺癌样本的RNA测序数据进行分析，实现了从高维基因表达数据中精准识别亚型特异性关键基因的目标。

关键技术方法包括：首先利用IGTD算法将基因表达矩阵转换为图像格式，使空间相邻像素对应表达相似的基因；然后构建对称编码器-解码器结构的U-Net网络，通过图像重建任务提取潜在表征；最后基于潜在空间表征进行基因重要性筛选。研究队列来自TCGA数据库的乳腺癌RNA测序数据，包含Luminal-A（229例）和Basal-like（98例）两种亚型。

图像化基因表达数据转换

通过IGTD算法将20,531个基因的表达数据转换为46×46像素的图像，利用皮尔逊相关系数构建基因相似性矩阵，通过迭代优化使图像像素空间排列真实反映基因表达相似性。这种转换使得卷积神经网络能够有效捕捉基因间的生物学关联。

潜在神经表征提取

设计具有对称结构的U-Net网络，编码器通过卷积层和池化操作提取特征，解码器通过反卷积重建图像。在瓶颈层获得1024维的潜在表征，该表征通过所有样本潜变量的平均值计算得到，能够代表整个亚型的共同特征。

基因识别与功能验证

基于解码图像像素强度分布设定0.45的阈值筛选重要基因。功能富集分析显示筛选出的基因在DisGeNET、KEGG和GO数据库中显著富集于乳腺癌相关通路，包括XBP1（内质网应激调控）、BIRC5（凋亡抑制）、GATA3（细胞分化）等关键基因。

研究发现XBP1基因通过调控未折叠蛋白反应参与肿瘤进展，在luminal肿瘤中与雌激素受体表达相关，在Basal-like亚型中与HIF1α相互作用调控缺氧反应。细胞周期相关基因如CHEK1、E2F家族（E2F1、E2F2、E2F3）、AURKA/AURKB激酶等在三阴性乳腺癌中高表达，与基因组不稳定性和化疗耐药密切相关。此外，MELK激酶被证实与癌症干细胞维持和上皮间质转化过程相关，其抑制可降低转移风险。

该研究建立的神经潜在过滤框架突破了传统基因筛选方法的局限性，通过数据驱动的无监督学习策略，避免了先验统计假设的约束。筛选出的基因群不仅与已知乳腺癌机制高度吻合，还揭示了新的治疗靶点，为开发亚型特异性疗法提供了重要线索。这种方法可扩展应用于其他癌症类型的基因发现研究，具有重要的转化医学价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号