《Biotechnology Reports》:Neural latent filtering for gene discovery in breast cancer subtypes
编辑推荐:
本研究针对RNA测序数据高维度特性导致基因筛选困难的问题,提出了一种融合IGTD算法和U-Net架构的神经潜在过滤新方法。通过将基因表达数据转换为图像并提取潜在表征,成功识别出乳腺癌Luminal-A和Basal-like亚型的关键基因,为精准医疗提供了新型生物标志物发现工具。
在精准医疗时代,乳腺癌的分子异质性给治疗带来巨大挑战。同一病理类型的肿瘤可能对相同治疗方案产生截然不同的反应,这主要源于其内在的基因表达差异。特别是Luminal-A和Basal-like这两种亚型,前者激素受体阳性且预后较好,后者三阴性特征使其成为最具侵袭性的亚型。传统基因筛选方法如差异表达分析、PCA降维等技术存在假阳性率高、结果解释性差等局限,迫切需要开发新的计算生物学方法来突破这一瓶颈。
发表于《Biotechnology Reports》的这项研究创新性地将计算机视觉技术引入基因发现领域。研究团队开发了一套整合IGTD(Image Generator for Tabular Data)算法和U-Net神经网络的完整流程,通过对TCGA数据库中1,182例乳腺癌样本的RNA测序数据进行分析,实现了从高维基因表达数据中精准识别亚型特异性关键基因的目标。
关键技术方法包括:首先利用IGTD算法将基因表达矩阵转换为图像格式,使空间相邻像素对应表达相似的基因;然后构建对称编码器-解码器结构的U-Net网络,通过图像重建任务提取潜在表征;最后基于潜在空间表征进行基因重要性筛选。研究队列来自TCGA数据库的乳腺癌RNA测序数据,包含Luminal-A(229例)和Basal-like(98例)两种亚型。
图像化基因表达数据转换
通过IGTD算法将20,531个基因的表达数据转换为46×46像素的图像,利用皮尔逊相关系数构建基因相似性矩阵,通过迭代优化使图像像素空间排列真实反映基因表达相似性。这种转换使得卷积神经网络能够有效捕捉基因间的生物学关联。
潜在神经表征提取
设计具有对称结构的U-Net网络,编码器通过卷积层和池化操作提取特征,解码器通过反卷积重建图像。在瓶颈层获得1024维的潜在表征,该表征通过所有样本潜变量的平均值计算得到,能够代表整个亚型的共同特征。
基因识别与功能验证
基于解码图像像素强度分布设定0.45的阈值筛选重要基因。功能富集分析显示筛选出的基因在DisGeNET、KEGG和GO数据库中显著富集于乳腺癌相关通路,包括XBP1(内质网应激调控)、BIRC5(凋亡抑制)、GATA3(细胞分化)等关键基因。
研究发现XBP1基因通过调控未折叠蛋白反应参与肿瘤进展,在luminal肿瘤中与雌激素受体表达相关,在Basal-like亚型中与HIF1α相互作用调控缺氧反应。细胞周期相关基因如CHEK1、E2F家族(E2F1、E2F2、E2F3)、AURKA/AURKB激酶等在三阴性乳腺癌中高表达,与基因组不稳定性和化疗耐药密切相关。此外,MELK激酶被证实与癌症干细胞维持和上皮间质转化过程相关,其抑制可降低转移风险。
该研究建立的神经潜在过滤框架突破了传统基因筛选方法的局限性,通过数据驱动的无监督学习策略,避免了先验统计假设的约束。筛选出的基因群不仅与已知乳腺癌机制高度吻合,还揭示了新的治疗靶点,为开发亚型特异性疗法提供了重要线索。这种方法可扩展应用于其他癌症类型的基因发现研究,具有重要的转化医学价值。