一种用于基因组序列分类的混合量子-经典神经网络框架

《Neurocomputing》:A hybrid quantum-classical neural network framework for genomic sequence classification

【字体: 时间:2026年05月11日 来源:Neurocomputing 6.5

编辑推荐:

  里娅·班萨尔(Riya Bansal)| 尼基尔·库马尔·拉杰普特(Nikhil Kumar Rajput)| 梅加·卡纳(Megha Khanna) 印度德里大学计算机科学系,德里 110007 **摘要** 基因组学中序列数据的不断增加给生物信息学中的基因组序列

  里娅·班萨尔(Riya Bansal)| 尼基尔·库马尔·拉杰普特(Nikhil Kumar Rajput)| 梅加·卡纳(Megha Khanna)
印度德里大学计算机科学系,德里 110007

**摘要**
基因组学中序列数据的不断增加给生物信息学中的基因组序列分类带来了重大挑战。随着基因组数据的快速增长,需要更高效且可扩展的策略,量子机器学习为处理高维生物数据提供了机会。遗憾的是,将量子机器学习整合到实际基因组分类中尚未得到充分研究。为了填补这一空白,我们提出了一种用于基因组序列分类的混合量子-经典神经网络(QNN-GSC)。QNN-GSC利用经典预处理方法,并结合专门设计的量子特征图来表示基因组序列中的复杂关联和依赖性。编码后的数据随后通过量子神经网络(QNN)架构进行处理。通过使用四个开源的基因组数据集,我们可以实证评估QNN-GSC在基因组分类方面的性能。实证评估显示,QNN-GSC的表现优异,其宏观平均接收者操作特征曲线下面积(AUC)值为0.757,平均F1分数为0.711,平均几何均值(G-mean)值为0.665。此外,还对QNN-GSC的性能进行了统计分析,进一步证实了其有效性。我们还分析了所提出的特征图的量子特性,包括表达能力、纠缠能力和在四种噪声通道下的鲁棒性,结果表明该特征图在保持可训练性要求的同时,具有比标准Qiskit特征图更好的纠缠性能。

**引言**
基因组序列的分类是基因组学领域中的关键步骤。四种核苷酸碱基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)以复杂的方式组合,形成了基因中的生物信息[1]。除了提供生物信息外,基因组序列还有助于表征DNA相关的功能和调控元件(如启动子、增强子、编码区域以及基因间区域)。经典机器学习(ML)和深度学习(DL)模型在处理基因组数据方面发挥了重要作用,从而实现了疾病分类、宏基因组分析和进化研究等应用[2]、[3]。k-mer频率分析、CpG岛特征和傅里叶/余弦变换为经典ML和DL方法提供了重要输入[4]、[5]、[6]。现有的编码方法(one-hot编码、整数编码、词袋模型)也持续展现出优异的结果,这一点从先前的研究中可以看出[7]、[8]。

尽管经典方法在使用序列模型分析生物数据方面取得了显著进展,但在处理全长基因组序列时仍面临许多挑战。首先,基因组数据本质上是高维的,尤其是在处理长DNA序列时。其次,基因组数据的指数级增长显著提高了计算能力要求[9],这使得训练和推理变得成本高昂且缓慢。许多常用的基因组编码方案(如k-mer)创建了DNA序列的数值表示,但这些表示方式并未考虑到数据的生物学语义。这种转换往往会丢失序列中的重要上下文和位置信息,从而限制了模型学习细微但具有生物学意义模式的能力。此外,这些经典模型在处理DNA序列中的长距离依赖性时常常遇到困难[10]。因此,当DL模型在启动子、增强子、编码区和非编码基因间区域等调控或功能基因组元件上进行训练时,经常会出现内存限制、梯度消失和过拟合等问题[11]。

量子机器学习(QML)[12]作为一种潜在解决方案应运而生,因为它利用了量子物理学的基本原理来克服传统限制。QML利用的量子物理学三个特性包括:叠加、纠缠和干涉。叠加特性使量子系统能够同时遍历所有可能的核苷酸组合,从而提高了定位和提取特定模式及特征的处理速度[13]。基因组序列中核苷酸之间的纠缠状态为建模长距离依赖性提供了额外优势,因为它允许在相隔较远的核苷酸之间建立量子相关性。Havl?cek等人[14]在监督学习场景中展示了这种能力。

然而,针对基因组数据集的QML研究仍是一个相对较新的领域,目前成功开发的端到端基因组数据分类算法很少,例如[15]、[16]、[17]的研究。尽管最近的一些进展显示出潜力,但这些研究主要针对合成或简化的数据集,并依赖于标准特征图。此外,这些研究尚未充分利用基因组序列的独特结构特性。据作者所知,目前尚未有任何研究将量子神经网络(QNN)与自定义特征图方法结合用于基因组分类。这表明有必要探索和开发专门针对生物序列的新QML算法。为此,本研究提出了一种新颖的量子编码策略,旨在捕捉核苷酸序列中的复杂依赖性,并在多个基因组基准数据集上进行验证。

**本研究的主要贡献包括**:
- 我们提出了一个结合经典预处理和QNN的混合框架,以实现有效的基因组序列分类。
- 我们进一步提出了一种使用特定门的自定义特征图,并实现了数据重新上传功能,以捕捉基因组序列中的模式和含义。
- 我们还提供了所提出的特征图的量子特性分析,包括表达能力和纠缠能力。
- 对所提出的自定义特征图在四种NISQ噪声通道(比特翻转、相位翻转、振幅衰减、退极化噪声)下的鲁棒性进行了分析。

我们在四个不同的基因组基准数据集上评估了该模型,涵盖了多种分类任务(如启动子、增强子、物种鉴定以及编码/非编码序列),使其成为首个端到端的框架。我们模型的目标是分类复杂的核苷酸序列,并识别这些基因组基准数据集中存在的功能基因组元件。通过使用混合量子-经典模型,我们旨在减少计算时间和成本,同时提高分类精度和识别出经典方法无法检测到的生物细微模式的能力。因此,我们提出的QNN-GSC框架是开发高效、准确和可扩展的生物数据分析模型的第一步,有望加速基因组学、个性化医学和计算生物学的发现。QNN-GSC框架也为研究人员、学者和学生提供了探索生命科学领域量子应用的资源和参考点。最后,QNN-GSC模型将帮助研究人员理解基因调控的复杂性,并为基因组注释提供更准确的基础,最终提高分子生物学研究结果的可重复性。

**论文结构**:
第2节提供了文献背景。第3节介绍了所提出框架的方法论,包括数据预处理和QNN模型。第4节详细说明了数据集、评估指标、基线和实验设置。第5节展示了框架的结果,并讨论了与基准方法的比较分析。第6节讨论了所提出特征图对噪声的鲁棒性。第7节评估了特征图在表达能力和纠缠方面的能力。第8节指出了研究的局限性。第9节总结了论文并提出了未来研究的方向。

**相关工作**
基因组序列的分类是生物信息学的重要组成部分。测序数据的快速增长促进了计算方法的发展,以便高效地分析这些序列。本节探讨了三个领域的先前工作:用于基因组分类的经典ML技术(第2.1节)、QML的基础和发展(第2.2节)以及生物信息学中的新兴量子方法(第2.3节)。

**提出的方法**
本节介绍了将经典数据预处理与QNN模型相结合的框架(QNN-GSC),整个过程在图1中进行了图解说明。

**实验**
本节概述了所提出框架的实验设计和评估。使用四个公开的基因组基准数据集评估了框架的性能。本节提供了数据集详情、使用的评估指标以及用于比较的最先进方法。还讨论了量子电路的超参数调整。

**结果和实证分析**
本节讨论了在四个基因组数据集上获得的QNN-GSC框架的结果(第4.1节)。框架的性能评估在表6、表7和表8中系统呈现,并在图3中以分组条形图的形式进行了可视化,分别展示了AUC、F1分数和G-mean值。

**结论和未来发展**
在本研究中,我们提出了一种用于基因组序列分类的新型混合量子-经典神经网络框架(QNN-GSC)。该架构通过结合经典预处理技术和QNN,能够适应基因组序列的高维性和复杂性。该框架使用自定义特征图,其中包含了特定的门操作以实现纠缠。

**作者贡献声明**
里娅·班萨尔(Riya Bansal):撰写——原始稿件、验证、软件开发、方法论研究、概念化。
尼基尔·库马尔·拉杰普特(Nikhil Kumar Rajput):撰写——审稿与编辑、监督、资源管理、方法论研究、概念化。
梅加·卡纳(Megha Khanna):撰写——审稿与编辑、监督、方法论研究、概念化。

**利益冲突声明**
作者声明不存在可能影响本文报告工作的已知财务利益或个人关系。
里娅·班萨尔于2020年在库鲁克谢特拉大学获得计算机科学硕士学位,2017年在德里大学获得计算机科学(荣誉)学士学位。她目前是德里大学计算机科学系的研究学者,研究兴趣包括量子机器学习、量子计算、机器学习和深度学习。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号