编辑推荐:
量子增强循环神经网络参数优化与性能验证研究。提出极简量子LSTM和GRU模型,通过保留两个核心量子门并转移其他计算至经典层,将电路深度和参数量减少40%-50%,同时保持相同精度。在五个常微分方程基准测试中,极简模型训练时间减少60%-75%,包括Bessel函数预测、Lotka-Volterra生态系统建模等复杂动态系统问题,验证了轻量化量子增强架构的工程可行性。
陈元|阿卜杜勒·卡利克
计算与数据科学项目,中田纳西州立大学,美国田纳西州默弗里斯伯勒市东主街1301号,邮编37132
摘要
我们提出了两种简约的量子增强型循环架构:最小量子长短期记忆(Minimal Quantum Long Short-Term Memory)和最小量子门控循环单元(Minimal Quantum Gated Recurrent Unit)。这些架构在保持表达能力的同时,显著降低了现有量子长短期记忆和量子门控循环单元模型的电路深度和参数数量。通过仅保留每个单元中的两个关键变分量子门,并将所有其余操作卸载到轻量级的经典层上,我们的简化设计使运行时间减少了60%到75%。我们在五个难度逐渐增加的常微分方程(ODE)基准测试中评估了这四种架构:零阶贝塞尔函数预测、经典洛特卡-沃尔泰拉捕食者-猎物动态模型、分数阶洛特卡-沃尔泰拉模型、阻尼振荡器的参数逆向估计以及具有多头注意力层的刚性罗伯逊化学动力学系统。在每个实验中,最小化模型都达到了全电路模型的准确率,同时训练速度显著加快。这些结果表明,对变分电路进行明智的剪枝可以产生既适用于近期硬件又能在复杂时间序列和动态系统问题上高效运行的轻量级量子-经典混合模型。
引言
循环神经网络(RNN)在模拟时间序列和捕捉长期依赖关系方面展现出了巨大潜力。它们能够在较长时间内保持信息,因此在各种应用中都非常有效,包括时间序列预测[1]、分类任务[2]、[3]和自然语言处理[4]、[5]、[6]。此外,RNN在科学领域也发挥了重要作用,推动了生物信息学[7]、[8]和化学实体识别[9]等领域的进展。在RNN框架内,引入了长短期记忆(LSTM)[10]和门控循环单元(Gated Recurrent Unit)[11]来解决梯度消失问题,从而实现了对长序列的深度网络的有效训练。这些模型的出现显著提高了学习和保留长期依赖关系的能力,进一步增强了RNN在多样化和复杂动态学习任务中的适用性。
与这些发展并行的是,量子计算作为一种变革性技术应运而生,它利用量子力学原理进行计算[12]。这一范式为某些类别的问题提供了指数级的加速潜力,使其成为一个引人注目的研究方向[13]。该领域的一个里程碑式进展是由Mitarai等人[14]开创的变分量子算法和电路。这些算法利用量子纠缠来应对机器学习中的基本挑战,并促进了适用于现有噪声中等规模量子(NISQ)设备的混合量子-经典算法的开发。这类混合方法在分类[15]、[16]、生成对抗学习[17]和深度强化学习[18]等多个领域展现了有效性。此外,量子机器学习的探索为数据处理和分析开辟了新的途径[19]。通过利用量子系统的独特计算能力,研究人员为各种应用做出了重要贡献[20]、[21]。这一不断发展的领域继续为复杂问题提供创新解决方案[22]。对这些技术的持续研究和扩展突显了它们的潜力[23]。特别是,将量子计算与经典机器学习相结合的趋势催生了量子循环神经网络(QRNN),更具体地说是量子长短期记忆(QLSTMs)和量子门控循环单元(QGRUs)。这些混合模型通过在其架构中整合变分量子电路(VQCs)来提高传统RNN的计算效率和表达能力[24]、[25]。
然而,由于架构本身的计算复杂性,QLSTMs和QGRUs存在较大的运行时间开销。受到Feng等人[26]工作的启发,他们展示了最小化经典循环网络在经典领域可以达到全规模LSTMs和GRUs的性能,我们将这一原理扩展到了量子领域。为此,我们引入了两种轻量级的量子循环架构:最小量子LSTM(MinQLSTM)和最小量子GRU(MinQGRU)。以往的量子效率改进工作主要集中在均匀降低电路深度上,例如通过限制纠缠层、采用硬件高效的假设[27]或跨时间共享参数。相比之下,我们的方法是基于架构的,我们在RNN单元级别进行有针对性的门控简化,仅保留控制状态更新的两个量子门(LSTM中的遗忘/输入门或GRU中的更新/候选门),并将剩余操作委托给经典层。这种设计不仅减少了每个时间步长的变分电路调用次数,从而降低了实际成本,而且也适用于实际的量子资源。基于我们对常微分方程的兴趣,我们致力于将循环神经架构扩展到量子环境中。虽然经典神经网络和RNN已广泛应用于ODE问题,但量子增强型RNN(QRNN)的应用仍然相对较少。在这项研究中,我们在一系列ODE基准测试中评估了我们的轻量化最小化架构,证明了它们在大幅减少运行时间的同时能够达到竞争力的准确率。
本文的结构如下:第2节提供量子RNN的背景信息,第3节详细介绍了最小化模型的结构,第4节展示了五个数值实验,第5节进行了讨论,第6节是结论。
部分摘录
背景
在本节中,我们回顾了基于Chen等人[25]研究的量子循环神经网络(RNN)的版本。
方法论
在本节中,我们介绍了QLSTMs和QGRUs的最简化版本(MinQLSTMs和MinQGRUs)。
数值实验
在我们的数值实验中,我们将求解常微分方程的任务视为序列预测问题,将ODE系统的离散解轨迹视为多变量时间序列。循环神经网络,尤其是LSTMs和GRUs,通过直接从数据中学习自回归更新映射,在捕捉此类动态方面表现出色,在经典领域[28]、[29]、[30]以及最近的量子扩展中都有成功应用。
讨论
在五个数值实验中,我们的结果显示,最小化量子增强型循环架构(MinQLSTM和MinQGRU)在准确率方面与全电路模型(QLSTM和QGRU)相当,有时甚至更好,同时所需的训练时间大幅减少。在贝塞尔函数预测和经典洛特卡-沃尔泰拉动态模型中,最小化模型在保持准确性的同时降低了误差或训练成本;在分数阶系统中,MinQGRU取得了出色的准确率。
结论
我们提出了两种最小化的量子循环神经网络变体,它们在保持关键动态特性的同时简化了量子门控机制。通过减少变分量子电路的数量,这些模型在不损失准确性的情况下显著降低了运行时间,使其成为近期量子应用的实用候选者。
CRediT作者贡献声明
陈元:撰写——原始草稿、可视化、软件开发、资源管理、方法论设计、资金获取、正式分析、数据整理、概念构思。阿卜杜勒·卡利克:撰写——审阅与编辑、验证、监督、项目管理、正式分析、数据整理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。