《Computational Biology and Chemistry》:Hierarchical Attention-Assisted Feature Pyramid Network with Variational Sparse Autoencoder for Cancer Classification using Gene Data
编辑推荐:
基因表达数据分类存在高维和噪声问题,本文提出基于Hierarchical Attention Assisted Feature Pyramid Network(HA-FPN)的方法,结合变分稀疏自编码器(VSAE)降维、改进DeepInsight图像转换和分层注意力机制,并采用优化梯度下降算法(IGDO)提升分类性能。实验证明该方法在准确率、精确度、召回率和F1-score上均优于现有方法,且具有数据鲁棒性。
K.M Remyamol|Philip Samuel
印度喀拉拉邦科钦科技大学工程学院信息技术系,682022
摘要
分析基因表达数据对于预测和检测疾病(包括癌症)至关重要。然而,这些数据具有高度重复性和噪声,使得提取有关疾病的重要信息变得困难。在过去的十年中,已经开发出了多种传统的机器学习和特征选择模型,用于从基因表达数据中分类癌症类型。本文并未引入新的深度学习方法,而是提出了一种基于原理的集成框架,该框架结合了稀疏感知表示学习、结构诱导的空间嵌入和分层多尺度注意力机制。本文介绍了一种基于分层注意力辅助特征金字塔网络(HA-FPN)的癌症基因分类方法。研究使用了两个公开可用的数据集。该方法首先通过变分稀疏自编码器(VSAE)进行降维处理,然后使用改进的DeepInsight算法对输入数据进行转换。接下来,利用所提出的HA-FPN模型构建分类器,并采用改进的梯度下降优化(IGDO)算法来调整分类模型的超参数。实验结果表明,结合IGDO的模型在准确性、精确度、召回率和F1分数方面均优于现有方法。该方法通过t-SNE计算有效地揭示了数据的不同方面,且该方法具有很强的鲁棒性,能够在两个不同的数据集上实现高性能。
引言
癌症是全球第二大死亡原因,其致病原因是基因突变导致恶性细胞不受控制地分裂并扩散到全身(Chanu & Singh, 2024)。早期发现对于减少癌细胞的损害至关重要,但由于这些细胞的特性复杂,这一过程仍然具有挑战性(Rukhsar et al. 2022)。微阵列技术的发展通过识别基因表达模式并分类不同类型的癌症,有助于癌症的诊断和治疗(Rostami et al. 2022)。基因表达分析在肿瘤诊断中非常重要,因为它可以通过基因表达的变化揭示癌症的发生、发展和早期检测信息(Guo and Xu, 2023; Alharbi and Vakanski, 2023)。然而,不平衡的数据集带来了挑战,因为需要去除许多无关基因以确保预测的准确性(Osama et al., 2023; Alhenawi et al., 2022)。铜在细胞过程中的作用与癌症密切相关,其浓度的变化可能导致细胞损伤(Zheng et al. 2022)。铜相关基因表达的变化对于癌症分类和预后模型的设计至关重要,因为铜是参与细胞增殖、血管生成和转移等多种肿瘤生长过程的关键辅因子。深度学习(DL)方法,特别是神经网络,在评估基因表达数据以检测癌症方面展现出潜力(Gokhale et al. 2022)。公共微阵列数据库改善了临床应用,如诊断、治疗和预后(Almarzouki, 2022)。微阵列数据对于疾病检测至关重要,但其高维性和冗余基因的存在使得这一过程变得复杂。有研究表明,少数基因可能对正确分类癌症至关重要(Rezaee et al. 2022; Shen et al. 2022)。注意力机制通过选择关键基因来辅助癌症亚型分类,从而提高了分类的准确性(Khan & Lee, 2023)。乳腺病变的小尺寸和变异性使得在乳腺X光片中检测疾病非常具有挑战性;尽管如此,算法仍有助于病变的识别,但图像的变异性仍然使得方法在未见数据上的表现较为困难(Zhang et al. 2022)。自编码器用于提高数据质量和验证,从而为实验结果的改进提供了新的视角(Macías-García et al. 2017)。
癌症是全球最大的单一死亡原因,其早期发现是患者生存的关键因素。基因组研究的进步为利用基因表达数据进行癌症分类开辟了道路,这可以为个性化治疗提供重要依据。然而,基因数据的大量和高度维度给可靠且可解释的分类模型带来了挑战。传统的机器学习方法通常无法检测到此类数据中的复杂模式。所提出的HA-FPN通过关注基因数据的多层次特征,解决了这一问题,从而能够在不同粒度级别上识别模式。此外,VSAE通过高效处理稀疏性和高维数据提升了特征提取过程。这些方法提高了癌症分类的精确度,加深了对肿瘤生物学的理解,并使诊断工具的使用更加有效。
- •
使用变分稀疏自编码器(VSAE)降低输入基因数据的维度。
- •
使用改进的DeepInsight算法将数据转换为图像,以便更好地解释和分析。
- •
提出分层注意力辅助特征金字塔网络(HA-FPN)框架用于癌症分类。
- •
提出改进的梯度下降优化算法,通过有效调整超参数来提高分类模型的性能。
本文的结构如下:第2节概述了基于基因数据的癌症分类的最新研究;第3节详细描述了所提出的方法;第4节讨论了所提方法和现有方法的结果分析;第5节总结了本文的未来研究方向。
相关研究
相关工作
以下部分讨论了使用各种模型进行癌症分类的一些最新研究。
Venkatesan等人(2022)提出了一种利用基因表达数据进行癌症组织分类的有效机器学习技术。他们使用微阵列数据识别与癌症相关的基因,并通过F统计量、T统计量和信噪比对这些基因进行了排序。然后使用遗传算法(GA)、粒子群优化(PSO)、压缩感知(CS)和尺度融合学习(SFLLF)等方法对基因进行了优化。此外,还使用了支持向量机(SVM)、K近邻(KNN)和朴素贝叶斯(Naive Bayes)等算法。
提出的方法
近年来,深度神经网络架构在许多领域展现了强大的性能,这得益于它们深入的特征学习能力,能够更深入地理解数据特征。然而,这些网络模型存在梯度消失问题。本研究提出了一种基于基因表达数据的有效深度学习模型,用于识别癌症类型(见图1)。该方法的主要原理是……
结果与讨论
本节简要介绍了实验设置、性能指标和数据集描述。接下来,逐步验证了所提方案各组成部分对技术性能的影响。最后,通过与其他技术和先进文献的比较,评估了所提模型的性能。
结论与未来工作
本文提出了一种结合稀疏感知表示学习、空间嵌入和分层注意力的基因表达分类系统。尽管这些组成部分基于现有知识,但它们的组合方式特别针对基因表达数据的统计和生物学特性进行了设计。实验结果表明,这种集成策略在性能提升方面比传统方法更为一致。
伦理批准
本文不包含任何涉及人类参与者或动物的研究。
CRediT作者贡献声明
Philip Samuel:撰写——审稿与编辑,撰写——初稿,项目管理。K.M Remyamol:撰写——审稿与编辑,撰写——初稿,项目管理。