预处理和忆阻器动态在基于水库的计算方法中进行图像分类中的作用
《Advanced Electronic Materials》:On the Role of Preprocessing and Memristor Dynamics in Reservoir Computing for Image Classification
【字体:
大
中
小
】
时间:2026年05月10日
来源:Advanced Electronic Materials 5.3
编辑推荐:
摘要
水库计算(Reservoir Computing, RC)是一种新兴的循环神经网络架构,因其低训练成本和适度的硬件要求而受到越来越多的关注。基于忆阻器的电路在RC中尤其具有前景,因为它们的内在动态特性可以减少网络规模和参数开销,尤其是在时间序列预测和图像识别等任务中。尽管
摘要
水库计算(Reservoir Computing, RC)是一种新兴的循环神经网络架构,因其低训练成本和适度的硬件要求而受到越来越多的关注。基于忆阻器的电路在RC中尤其具有前景,因为它们的内在动态特性可以减少网络规模和参数开销,尤其是在时间序列预测和图像识别等任务中。尽管已经使用多种忆阻器设备展示了RC的性能,但对设备级要求的全面评估仍然有限。在本文中,我们分析并解释了使用易失性忆阻器的并行延迟反馈网络(Parallel Delayed Feedback Network, PDFN)RC架构的工作原理,重点关注设备特性(如衰减率、量化和变异性)如何影响水库性能。我们进一步讨论了使用预处理方法改进水库数据表示的策略,并提出了潜在的改进措施。所提出的方法在MNIST数据集上实现了与最佳报告的基于忆阻器的RC实现相当的分类准确性。此外,该方法在设备变异性下仍保持了高鲁棒性,达到了较高的准确率。这些结果表明,易失性忆阻器能够支持可靠的时空信息处理,并强化了它们作为紧凑、高速和节能的神经形态计算系统关键构建块的潜力。
1 引言
深度学习在自然语言处理、计算机视觉和控制系统等领域取得了显著的进展。然而,这些模型需要大量的计算资源和训练时间,在能耗和硬件要求方面带来了重大挑战。水库计算(RC)作为一种节能的数据处理方法应运而生。在RC中,一个被称为“水库”的固定动态系统将输入数据投影到一个高维空间中,只训练单一的输出层,通常使用简单的线性回归。这种分离使得训练更加高效,并降低了硬件复杂性,相比传统的循环神经网络。RC已被应用于各种任务,包括语音和音频识别[3, 4]、从EEG和iEEG数据中检测癫痫发作[5]、机器人技术[6]、风速预测[7]、股票市场预测[8]以及图像和视频识别[9, 10]。RC还用于时间序列预测任务,包括涉及混沌动态的应用[11]。RC的一个关键优势是其与物理基底的兼容性。由于只有输出层需要训练,因此可以利用各种物理系统的固有动态特性来实现水库[12]。例如,光子系统提供超快的光学干涉和延迟动态[13];电子系统利用设备和电路的非线性和混合信号或模拟实现中的电荷传输效应[14];机械系统通过变形和振动产生用于控制的丰富时间响应[15];以及自旋电子系统利用电信号控制的快速磁化变化,实现紧凑和低功耗的计算[16]。这些介质自然提供了RC所需的非线性、高维和衰减记忆动态特性。利用这些动态特性可以在介质的自然时间尺度上进行超快计算(例如,光子的光速,电子学的GHz信号),同时比数字实现消耗更少的能量。物理水库还可以提供内在的大量并行性,使RC成为一种吸引人的平台,适用于非常规、节能和高速的计算。在这些不同的物理介质中,基于忆阻器的水库计算已成为一种特别有前途的硬件高效神经计算方法[17]。忆阻器,特别是易失性忆阻器,本质上具有水库计算所需的两个关键特性:非线性动态和短期记忆。当施加写入脉冲时,易失性忆阻器的内部状态以非线性方式改变,随后由于设备的固有易失性而放松到其平衡值。这些特性使得可以直接在硬件中实现水库,将输入信号投影到高维空间[18]。这里,高维状态空间指的是当非线性状态更新与衰减记忆相互作用时产生的大量可区分的内部响应,即使输入序列有微小差异也会产生不同的瞬态状态[19, 20]。忆阻器的纳米级尺寸、与CMOS技术的集成以及与交叉开关架构的兼容性,使得能够实现密集、可扩展的水库,而它们的低功耗和纳秒级操作支持复杂时间信号的实时处理[21]。这些优势使得忆阻器RC非常适合用于时间序列预测、信号处理和图像识别等节能、高速的应用。尽管已有几项先前的工作使用不同的方法展示了忆阻器RC,但实际考虑因素(如设备量化和变异性)的影响仍不够充分表征。在本文中,我们对使用易失性忆阻器实现的水库计算(RC)进行了全面分析,重点关注设备级动态如何影响系统级计算性能。基于易失性设备的固有非线性和衰减记忆行为,我们采用了文献中一种流行的(但未命名的)方法——并行延迟反馈网络(PDFN)架构[18],该方法允许多个忆阻器并行操作,无需交叉开关互连即可模拟时间依赖性。这种配置结合了延迟反馈网络的时间丰富性和并行水库的可扩展性,为物理RC提供了一个高效且硬件可行的平台。本文的主要贡献包括:
1. 对PDFN架构在图像识别任务中的更深入见解和评估。
2. 全面评估预处理方法(包括分割和奇偶性转换)对基于图像的RC性能的影响。
3. 系统分析衰减率、量化和设备变异性如何影响时空(MNIST)任务中的RC性能。
4. 展示了在MNIST上实现的高性能,准确率与之前报告的最佳忆阻器RC实现相当,并且在设备变异性下仍保持了鲁棒性。本文的其余部分组织如下:第2节提供关于忆阻器RC的背景知识,第3节使用PDFN解释图像识别任务,包括系统设计和预处理。第4节详细介绍了实验评估方法,以了解忆阻器参数的影响,第5节讨论评估结果。最后,第6节总结本文。
2 背景
以下部分解释了水库计算的理论框架及其类型,重点介绍了各种方法之间的差异。接下来,介绍了忆阻器,并特别关注了它们对物理水库计算有益的属性。然后,我们解释了如何利用忆阻器的属性来构建物理RC系统。
2.1 水库计算
水库计算是一种利用系统的瞬态动态来处理信息的计算框架。它是一种循环神经网络,包括三个部分:输入层、水库层和输出层(见图1)[1]。输入层将输入数据编码为时变信号并应用于水库。水库是一个随时间演变的动态系统,它将输入序列投影到一个高维状态空间。水库必须具有两个相关属性:回声状态属性和衰减记忆属性。回声状态属性确保水库的当前状态主要取决于最近的输入,而不是其初始条件,而衰减记忆属性意味着过去输入的影响会随时间逐渐减弱。可训练的输出层则解释这种表示。总体而言,RC可以分为三种类型:回声状态网络(ESN)[1]、液态状态机(LSM)[2]和延迟反馈网络(DFN)[22]。在所有三种RC类型中,训练都局限于输出层,这使得学习简单且对硬件友好。图1展示了RC的块图,包括输入层、水库层和输出层。只有输出层的权重()被训练;输入层()和水库参数()不被训练。回声状态网络(ESN)将水库实现为一个大型、稀疏且随机连接的简单非线性单元的循环神经网络[1](见图2a)。每个单元作为一个简单的动态元素,通常可以被建模为漏电积分器。漏电积分器定义上具有RC所需的回声状态和衰减记忆属性。ESN在离散时间下操作,只训练输出层,使其适用于时间序列预测等任务。图2展示了(a)回声状态网络(ESN)、(b)液态状态机(LSM)、(c)延迟反馈网络(DFN)和(d)并行延迟反馈网络(PDFN)的网络结构。液态状态机(LSM)使用脉冲神经元实现水库,通过生物学启发的动态捕获时间信息[2](见图2b)。这里的“液态”隐喻强调了输入扰动如何在网络中传播,在连续时间内产生丰富的时空脉冲模式。与ESN类似,只有输出层被训练,但LSM明确利用事件驱动的动态,这对于受神经科学启发的计算和处理基于事件的传感器数据非常有利。延迟反馈网络(DFN)用单个非线性节点和延迟线反馈取代了大型循环水库[22]。沿延迟线的时间复用创建了节点的时间状态序列,从而在不需要大型物理网络的情况下实现高维状态(见图2c)。这与ESN不同,在ESN中,输入数据在多个水库节点之间空间分布。DFN架构在硬件实现中很有吸引力,例如光子或电子水库,因为它提供了丰富的动态特性和最小的电路复杂性。在本文中,我们关注DFN的一个扩展版本,它包括几个DFN同时工作,共享一个共同的输出层(见图2d)。我们称这种架构为并行延迟反馈网络(PDFN),在2.3节中有详细描述。一个好的水库由一组参数定义,这些参数决定了它将输入有效地转换为输出层可解释的状态空间的能力[12]。水库的大小(节点数量)控制状态空间的维度,从而决定了表示的丰富性。记忆特性由漏电积分器的漏电率或衰减率控制,决定了过去输入对当前状态的影响持续时间。节点的非线性允许系统以增强类别分离或特征提取的方式转换输入。输入缩放调节进入水库的输入信号的强度,影响其动态范围和稳定性。不同应用对这些属性的需求各不相同。例如,涉及从过去数据预测未来值的任务通常需要系统保留更长时间的信息。而分类单个静态输入的任务则更多依赖于系统以非线性方式分离模式的能力。同时,需要识别随时间展开的序列或事件的任务需要记忆和非线性处理的结合。由于容量是有限的,因此存在权衡——过度扩展记忆会降低有效的非线性(反之亦然)。如上所述,水库计算需要复杂的水库动态。回声状态和衰减记忆属性资源密集,并且在传统数字计算机中需要大量的内存更新和数据传输,更适合利用硬件物理特性的实现。在神经形态硬件上实现的水库计算可以直接在物理域中进行内存信息处理,方法和 elegant。在各种神经形态硬件中,忆阻器特别有趣,因为它们本质上具有水库计算所需的关键属性。这使得物理RC可以使用更少的组件,并实现节能计算。下一节将描述忆阻器的属性。
2.2 记忆阻器
在本文中,我们使用忆阻器进行神经形态RC。忆阻器是一种两端设备,其电导随电刺激而变化,并能以电阻水平编码信息。通过施加小的、非破坏性的电压或电流可以检索存储的状态,从而在不改变记忆内容的情况下实现可靠的读出。自从Leon Chua在1971年首次提出忆阻器的概念[23],并在2008年首次进行纳米级实验演示[24]以来,已经出现了具有不同属性的各种忆阻器设备家族。忆阻器设备[25-27]的定义如下:
(1)
(2)
其中是内部状态(无量纲),是时间,是输入(电压或电流),是输出(电流或电压)。如果对于任何和,忆阻器是非易失性的,并且在无偏置的情况下保持电阻/状态。如果对于某些和,即使没有输入,状态也会随时间漂移,即设备是易失性的。文献中已经制造并在实验上表征了多种易失性忆阻器。这些设备的易失性范围从几秒[28]和毫秒[29]到几百皮秒[30]不等。易失性忆阻器可以建模为漏电积分器,因此自然实现了RC系统中所需?衰减记忆属性。非易失性忆阻器非常适合存储训练后的读取权重。文献中提出了几种忆阻器模型,它们大致可以分为通用模型和物理模型。通用模型在各种输入条件下近似设备行为,并具有可调参数以适应各种物理设备。基于物理的模型根据设备的物理工作机制捕捉特定行为,例如可以捕捉纤维动力学、离子扩散或阈值切换机制。通用模型更易于模拟且更具灵活性,但准确性较低;物理模型准确性更高,但模拟计算成本更高且灵活性有限。VTeam [31]结合短期记忆[32]和VVTEAM [33]是通用易失性忆阻器模型的例子,而动态忆阻器[34]和扩散忆阻器[35]是物理易失性忆阻器模型的例子。在本文中,我们使用动态忆阻器模型对RC进行建模。动态忆阻器由以下表达式描述:
(3)
(4)
其中 是内部状态变量,和 是施加的电压和产生的电流, , , , , 和 是取决于材料和设备特性的可调节参数, 是扩散时间常数,决定了 的衰减速率。常数的值列在表1中。表1. 动态忆阻器模型的参数。
为了分析和离散时间模拟,(3)通常在正写入脉冲期间(宽度为 和幅度为 )被近似为
(5)
(6)
其中 是限制 值的窗函数, 是阈值电压,低于该电压内部状态不会改变。在脉冲之间或低偏置( )期间,易失性会导致向 的泄漏;一阶离散化产生
即, 在没有足够刺激的情况下呈指数衰减。如果施加的电压 大于 ,内部状态将根据方程(5)更新;如果施加的电压低于 ,内部状态将根据方程(7)衰减。图3显示了根据方程(5)和(7)动态忆阻器内部状态的动态演变,以响应不同的数字和模拟刺激。不同的输入信号序列和幅度会导致忆阻器状态独特演变,从而在忆阻器中产生独特的最终表示[18]。我们使用的 值范围为 到 。图3:在不同输入脉冲序列下动态忆阻器内部状态变量(基于方程(5)–(7))的演变:(a)二进制输入,其中施加的电压在 (逻辑‘1’)和 (逻辑‘0’)之间交替;以及(b)模拟输入,其中施加的电压在 和 之间连续变化(输入序列的值介于0到0.5之间,并根据忆阻器的写入电压范围进行缩放)。每条曲线代表对不同输入序列的设备响应,说明了脉冲幅度调制对忆阻器状态动态的影响。该模型使用MATLAB进行仿真。图3a显示了在不同二进制输入条件下的内部状态变量演变。当施加的脉冲幅度超过切换阈值( )时,其内部状态变量逐渐增加直至饱和( )。在没有写入脉冲的情况下,由于设备固有的易失性松弛,它会逐渐衰减至最小值( )。图3b显示了对模拟输入脉冲序列的设备响应,其中归一化的输入值( )线性缩放到忆阻器的写入电压范围( )。更高幅度的脉冲会产生更强的更新,而较低幅度的脉冲会引起较小的变化。
2.3 带有忆阻器的RC
由于忆阻器的可变电阻特性,可以将几种RC家族映射到忆阻式硬件上。在ESN风格的实现中,可以使用非易失性忆阻器交叉开关来实现随机递归权重矩阵(如第2.1节所述),从而实现高效的内存矢量-矩阵乘法[36, 37]。通常还需要额外的电路进行信号转换和接口(例如DAC/ADC和传感),以及在整个系统中实现递归和非线性激活。类似地,液态机器(LSMs)可以使用尖峰神经元和忆阻式突触来实现,其中固定的/随机的突触权重自然映射到电阻式存储阵列[38, 39]。例如,一种基于电阻式存储的LSM硬件-软件协同设计将输入和递归突触物理集成在一个电阻式存储交叉开关阵列中,并与其数字电路接口进行累积和下游学习[40]。这样的实现突出了LSMs在事件驱动的多模态时间处理方面的优势,同时也说明了一个常见的系统级权衡:实现高维递归存储通常涉及大量的突触存储和外围/接口开销,其成本取决于目标存储大小、精度和并行度。与ESN和LSM不同,FDN是通过时间多路复用单个非线性节点来生成存储状态的。忆阻器由于具有可变电阻,非常适合实现非线性节点,而易失性忆阻器特别适合FDN,因为它们的短期记忆提供了所需的瞬态动态。每个时间步的输入数据非线性地修改易失性忆阻器的状态。由于忆阻器的当前状态取决于之前的状态,它表现出回声状态特性,而无需递归连接。易失性忆阻器的短期记忆具有衰减记忆特性,因此远期输入的影响会减弱。这种方法需要一个具有多个记忆状态的单一易失性忆阻器,从而减少了硬件需求[41]。然而,这种实现不支持并行性,并且由于整个输入必须分阶段施加,因此耗时较长。为了提高吞吐量,可以使用多个节点来实现存储,如图2d所示。这些节点在不同时间步的状态被用作存储状态。与单节点FDN相比,这会导致更大的存储,但所需的物理节点数量少于ESN和LSM。这种方法的忆阻式实现使用易失性忆阻器作为物理节点[18, 42]。每个易失性忆阻器根据任务并行接收部分或全部输入。每个忆阻器的中间或最终状态(取决于任务)被应用于读取。这种方法最初是使用动态(易失性)忆阻器在参考文献[18]中展示的。如上所述,为了将这种方法与单节点FDN区分开来,我们将其称为并行延迟反馈网络(PDFN)。具有长期记忆的非易失性忆阻器非常适合实现训练期间更新并在推理期间保持固定的读取层权重[43]。为了实现忆阻式PDFN,使用一组离散的(非交叉开关)易失性忆阻器作为存储。图4展示了用于图像分类任务的此类设计。输入数据被转换成时间脉冲序列,每个脉冲序列应用于存储中的忆阻器。输入脉冲序列的幅度大于易失性忆阻器的写入电压。因此,在每个时间步,输入脉冲修改了其应用的易失性忆阻器的内部状态。较大幅度的脉冲和快速连续的脉冲比低幅度脉冲以及它们之间的延迟脉冲更能增加内部状态变量,类似于图3中所示的结果。因此,内部状态变量当前值取决于过去输入的历史(回声状态特性),而易失性减弱了远期输入的影响(衰减记忆特性)。因此,对于相同的初始状态变量值,不同的脉冲序列会产生独特的内部状态变量值。这种情况发生在存储中的每个忆阻器上。通过向忆阻器施加读取脉冲来读取内部状态变量的值,然后使用得到的电流进行读取。然后将电流值缩放并应用于单个神经网络层。图4:并行延迟反馈网络(PDFN)存储计算的示意图。每行二值化输入图像被转换成脉冲序列,然后这些脉冲序列被时间写入形成存储的易失性忆阻器中。在整个图像写入后,对所有易失性忆阻器施加读取脉冲,然后获取的电流被重新缩放以形成读取层的激活。改编自[44],经IEEE许可。根据任务的不同,读取实现为线性或岭回归。在训练期间,不训练易失性忆阻器的状态(也无法训练);仅训练读取权重。训练后的权重与忆阻器电流相乘以生成输出。用于将输入数据转换为脉冲序列的方法对存储的性能至关重要[44]。输入数据的特征必须在忆阻器中忠实地表示,以便正确分类或预测输出。这在输入数据本身不是时间序列的情况下尤为重要,例如在图像分类中。空间数据必须转换成时间形式,同时保留其空间特征。这就是为什么在前处理方法中,将空间输入转换成时间形式同时保留关键特征是重要因素的原因,正如我们在第3.1节中所展示的。另一个重要因素是忆阻式设备的属性。在硬件实现中,需要使用模数转换器(ADCs)将忆阻器读取电流转换为数字值以进行读取。ADCs的分辨率限制了忆阻器可用的量化级别。高分辨率ADCs在面积和功耗方面非常昂贵,甚至可能成为整个系统的瓶颈[45]。因此,希望忆阻器的量化级别较少。实际的忆阻器还存在器件间和周期间的变化,网络性能必须对这些非理想因素具有鲁棒性。在以下部分,我们描述了图像识别任务及其使用的预处理方法。然后,我们评估了不同预处理方法和不同忆阻器参数下忆阻式PDFN的性能。我们还分析了忆阻器量化和变化对任务性能的影响。在建立的延迟反馈存储框架的基础上,我们系统地分析了实际硬件约束(量化和变化)下的预处理策略和易失性忆阻器动态,并为图像分类存储制定了设计指南。
3 图像识别
图像识别任务需要将图像分类到几个类别中的一个。在全连接深度神经网络(DNN)中,图像首先被平铺成一个大小为 的向量,其中 和 分别是图像的行和列。这个向量由多个隐藏层处理,输出层执行最终的分类。尽管这种方法有效,但它需要大量的可训练权重。此外,网络的所有权重都必须使用反向传播等算法进行训练。当使用非易失性忆阻器实现时,这样的网络需要许多交叉开关阵列和大量的外围电路,导致较高的面积和功耗。存储计算,特别是DFN架构,避免了这种开销,因为只训练读取层,而存储本身是固定的。这种简单的训练过程和小的读取层使得该方法特别适合时间处理任务,与传统网络相比大幅降低了硬件成本。然而,图像分类不是时间任务。为了使用PDFN进行此目的,必须将二维图像转换成时间信号,同时保留识别所需的空间结构。用于将输入数据转换成存储可以处理的形式并使其关键特征在存储中得到表示的方法称为预处理方法。在我们的方法中,图像的每一行被转换成一串电压脉冲,这些脉冲序列编码了像素值(见图4)。然后这些脉冲序列如第2.3节所述应用于存储中的易失性忆阻器。然而,直接将每一行映射成一个长脉冲序列通常效果不佳,因为序列变得太长而无法有效保留空间特征。这使得预处理变得至关重要,以确保时间表示仍然能够捕捉图像的有意义的结构。
3.1 预处理方法
在图像识别领域,文献中描述了几种预处理方法,包括尺寸调整、分割、奇偶性检查[44]、卷积[46]和 Oriented Gradient 的直方图(HOG)[41]。其中,卷积和 HOG 相当复杂,预处理本身需要大量的参数,实际上会失去基于相变电阻(PDFN)的面积优势。分割、尺寸调整和奇偶性检查相对简单,将在下面进行解释。通常,图像被划分为几个部分(可能会重叠),然后每个部分的像素依次应用于忆阻器。最简单的分割方式是按行进行,如图 4 所示;然而,还有其他几种方法,我们将在本节中展示。用于分割图像的方法会影响其在存储器中的表示方式,进而影响识别精度,因此必须正确选择。预处理方法还决定了存储器中忆阻器的数量,如表 2 所列,并在下面进行解释。表 2. 预处理方法和存储器大小(假设输入图像有 行、 列,以及 在行和列中都有 部分)。
| 预处理方法 | 存储器大小 |
|-----------------|-----------|
| 1D | |
| No | |
| Yes | |
| 2D | |
| No | |
| Yes | |
3.1.1 尺寸调整
尺寸调整的概念定义了如何将输入图像的二维空间信息转换为适合忆阻器存储器处理的时间序列。在 PDFN 中,维度决定了存储器是接收输入图像的一维(1D)还是二维(2D)时间表示。在 1D 配置中,仅使用图像的水平像素行来构建输入序列。每一行被序列化为一个电压脉冲的时间流,其中每个脉冲对应一个像素值。每一行序列被应用于一个独立的忆阻器,因此一个大小的图像需要 个忆阻器来表示所有的水平扫描线。如图 5a 所示,这种方法产生了一个紧凑的存储器结构,能够捕捉水平轴上的空间变化。忆阻器内部状态的时间衰减使得每个设备能够编码同一行内连续像素之间的短期依赖性,有效地将空间结构转化为时间动态。然而,由于没有直接表示行与行之间的垂直相关性,1D 配置提供的图像完整空间组成视图是有限的。
3.1.2 分割
分割配置提供了一种系统的方法,通过将每个输入序列划分为更短、更局部的子序列来细化空间信息的时间编码。分割过程不是将图像的整行或整列作为一个连续的脉冲序列来应用,而是将序列分割成更小的部分,每个部分的长度为 。然后这些子序列分别应用于存储器中的不同忆阻器,如图 5b 所示。这种分割有效地增加了输入序列的数量,同时减少了每个单独脉冲序列的持续时间,从而使存储器能够捕捉图像中更细微的时间动态和局部空间结构。从硬件角度来看,分割将输入忆阻器的数量增加了 倍。在 1D 配置中,这导致总共需要 个忆阻器,其中 是图像的行数。类似地,当与 2D 配置结合使用时,分割会产生 个输入序列,对应于所有的行和列部分。这种比例关系反映了一种有意的权衡:更高的 值提供了更高的时间粒度,但代价是增加了忆阻器的数量。实际上,适度的分割因子(例如,对于 MNIST 来说 k = 4 到 6)通过增强存储器状态的多样性显著提高了分类精度,而过大的值可能会破坏空间上下文并降低整体性能。分割的主要动机是减轻忆阻器的时间饱和。当整个行或列作为一个长脉冲序列应用时,忆阻器的内部状态可能会饱和,额外的脉冲不会影响内部状态,从而导致信息丢失,如图 3a 中的顶部黑线所示。通过缩短有效序列长度,分割确保每个忆阻器在其动态范围内工作,使其固有的衰减行为能够更有效地编码瞬态相关性。这产生了更丰富、更少冗余的内部状态,从而提高了存储器输出的线性可分离性。此外,基于列的输入显著增加了(加倍了)忆阻器的数量,因此也增加了存储器的面积,但增强了存储器状态的可分离性,并提高了识别精度。经验表明,2D 配置在 MNIST 等数据集中表现优于其 1D 对应物,因为在这些数据集中结合垂直和水平特征可以更好地定义图像类别。
3.1.3 奇偶性检查
奇偶性检查配置引入了一个额外的预处理步骤,旨在增强存储器捕捉输入图像中空间转换和局部对比度的能力。与标准的尺寸编码不同,后者直接将原始像素值转换为时间脉冲序列,奇偶性检查操作基于相邻像素行或列之间的异或(XOR)关系派生出新的输入序列。这些基于奇偶性的序列强调了类似边缘的区域和行间的变化,有效地突出了对模式区分至关重要的结构边界。在 1D 配置中结合奇偶性检查时,预处理阶段首先对图像的每一对连续行进行异或操作。对于由 行组成的图像,这会在原始 行的基础上产生额外的 “奇偶行”,从而总共产生 个输入序列。然后每个原始行和奇偶行都被序列化为一个时间脉冲序列,并应用于独立的忆阻器,如图 5d 所示。奇偶性序列代表空间差异而不是绝对强度,从而编码了亮区和暗区之间的转换。因此,它们引入了一个补充的特征空间,加强了存储器内部状态空间中类别之间的区分。从硬件和性能的角度来看,奇偶性检查方案在输入维度和特征表达力之间达到了一个有意的平衡。它虽然增加了存储器的大小,但在系统区分形状或边缘结构微妙不同的模式方面提供了不成比例的改进。此外,异或操作计算量轻量级,可以在存储器阶段之前在硬件中高效实现,使得这种方法适用于低功耗的边缘计算系统。总体而言,基于奇偶性的预处理丰富了空间数据的时间表示,并增强了存储器状态的可分离性,从而提高了整体分类性能。
3.1.4 预处理方法总结
总之,预处理方法的选择直接决定了图像如何被时间编码以及存储器中需要多少忆阻器。分割将每个序列划分为更短的片段,以防止忆阻器饱和并提高局部特征的捕捉;尺寸设置(1D 对比 2D)指定了是仅使用行还是同时使用行和列;奇偶性选项引入了额外的序列,突出了相邻行或列之间的转换。如表 2 所总结的,结合这些选项可以控制存储器中易失性忆阻器的总数,从而控制可用的空间和时间丰富度,使预处理策略能够根据所需的精度-面积权衡进行定制。该表还显示了不同预处理方法对延迟和 RC 记忆阻器写入次数的影响。延迟是处理最长脉冲序列所需的周期数。使用更多的分割片段可以缩短脉冲序列的长度,从而减少处理延迟,但需要更多的脉冲序列(即更多的 RC 记忆阻器)。RC 记忆器写入次数是 RC 能量消耗的指标。分割不影响写入次数,因为处理的像素数量与分割片段的数量无关。在 2D 中,每个像素属于两个脉冲序列,因此将 RC 记忆器写入次数加倍。在奇偶性检查中,增加了 行,使得 1D 情况下的总写入次数变为 ,2D 情况下变为 。如上所述,尽管存在更精确的预处理方法,但它们额外的复杂性带来的成本超过了潜在的好处。
4 评估方法
为了验证 RC(Reconfigurable Circuit)的能力,我们使用它来识别 MNIST 数据集 [47] 中的图像。MNIST 包含 训练和 测试集,包含大小为 的手写数字的灰度图像。像素的空间组织构成了构成图像的特征。然而,RC 需要将输入数据转换为时间形式。为了在将数据转换为时间形式的同时保留空间特征,图像的部分被转换为并行脉冲序列,如第 3.1 节所描述。存储器中的忆阻器数量取决于所选择的预处理方法。首先将灰度像素二值化,以减少计算复杂度并强调数字的结构特征。二值化之后,应用所需的预处理方法。然后,每个像素(“1”或“0”)依次作为脉冲序列应用于存储器的忆阻器。动态忆阻器的模型是使用公式(5)、(6)和(7)以及表 1 中的参数用 MATLAB 构建的。在这项研究中,选择了参数来模拟在纳秒范围内工作的忆阻器,以展示出一个吞吐量可与数字硬件相媲美的 RC 系统。这些参数并不特定于任何特定设备,而是通过将 [34] 中的参数缩放到纳秒范围来选择的。模型的参数可以调整以适应具有类似动态的任何时间尺度的实验设备,如图 S1 所示。在每个时间步骤中,向忆阻器施加一个电压脉冲,持续时间为 。如果像素是“1”,则施加一个 的电压;如果像素是“0”,则施加 同样的持续时间。如第 2.2 节所述,忆阻器在施加写入脉冲时更新,并在施加低于 的脉冲时泄漏。在所有的脉冲序列都施加到忆阻器之后,向所有忆阻器施加一个电压为 的读取脉冲,产生的电流表示忆阻器的内部状态。这些电流被硬件模拟-数字转换器(ADC)量化并重新缩放,然后应用于读出层。量化使得在存在忆阻器变化的情况下能够评估精度。读出层实现为逻辑回归分类器,对 reservoir 状态(量化和重新缩放的电流)的线性组合以及权重矩阵逐元素应用 Sigmoid 激活函数,其中权重矩阵的维度为(),其中 是 reservoir 状态的数量,10 对应于 MNIST 数字类别。在训练之前,读出权重矩阵会随机初始化。在每个训练周期中,模型执行前向传播以计算预测输出,将其与 one-hot 编码的目标标签进行比较,并使用随机梯度下降(SGD)根据二元交叉熵损失的梯度更新权重。训练进行了 500 个周期,学习率为 0.02,同时仅调整读出权重。训练完成后,在测试数据集上进行推理。图像再次转换为脉冲序列并应用于 memristor 数组,之后读取脉冲记录设备的最终状态。这些电流被重新缩放并乘以训练后的读出权重,然后应用 softmax 激活函数以获得类别概率。预测的类别对应于最高概率,整体测试准确率计算为 10,000 张 MNIST 测试图像中正确分类样本的百分比。通过将电流量化从 1 位变化到 7 位(2 到 128 个区间)来评估 memristor 的分辨率。为了模拟周期间和设备间的差异,我们在每个 memristor 的内部状态初始化、每个 memristor 的衰减率()以及 memristor 的更新和衰减方程(方程(5)和(7)中加入了随机变化。进行了多项测试以评估预处理方法和 memristor 参数(衰减率、量化和可变性)对准确率的影响。
5 结果
进行了一系列全面的实验,以评估不同系统和设备参数如何影响 PDFN memristive reservoir 计算在 MNIST 数据集上的性能。变化的参数包括预处理方法、memristor 衰减率、量化级别、部分数量和设备可变性。在这里,我们展示了部分结果,以突出不同参数对准确率的影响。每个图表都展示了在保持其他参数不变的情况下,单独隔离其中一个参数所获得的结果,从而可以清楚地评估其对分类准确率和 reservoir 行为的单独影响。此外,还进行了因子方差分析(ANOVA),以量化这些参数的相对重要性,并确定哪些因素和交互作用对准确率和鲁棒性影响最大。
5.1 讨论
在图 6 中,实现了不同的预处理方法,并测量的相应准确率,对于和 5 位 memristor 量化。预处理方法包括 1D 和 2D,有无奇偶校验,以及不同数量的部分。可以观察到,增加每行的部分数量可以提高准确率。这是因为将图像分成更多的部分减少了每个 memristor 依次处理的像素数量,使每个设备能够更准确地捕捉和表示局部图像特征。与 1D 相比,使用 2D 可以提高准确率。与没有奇偶校验的方法相比,使用奇偶校验也可以提高准确率。然而,随着部分数量的增加,这两种方法的改进幅度都会减小。此外,对于更多的部分数量(部分),奇偶校验带来的准确率提高幅度大于维度的增加。图 6 在图查看器中打开
跨不同预处理方法的测试准确率。数据显示了 5 位量化的 memristor。图 7 显示了不同 memristor 量化级别和不同部分数量下的准确率,对于预处理方法 2D 奇偶校验和时间衰减。量化级别从 1 位到 7 位,每行有 1、2、4、6、7 和 8 个部分。可以观察到,即使使用 2 位 memristor 量化(4 个量化级别),也可以实现可接受的准确率。随着量化级别的增加,准确率也会提高,但对于某些级别,更多的量化效果会减弱。对于所有量化级别,6 或 7 个部分提供了最佳准确率。图 7 在图查看器中打开
不同部分长度的测试准确率与量化级别。数据显示了 2D + 奇偶校验,其中 = 15 ns。在图 8 中,测试了不同部分数量和 2D 奇偶校验下不同衰减时间值的效果,对于 5 位量化。衰减值分别为、、和,部分数量与之前的测试相同。增加衰减率可以提高准确率,并对较少部分的数量有显著影响。对于更多的部分数量,增加衰减率的影响会减弱。图 8 在图查看器中打开
不同部分长度的测试准确率与时间衰减率的关系,对于 2D + 奇偶校验和 5 位量化。在图 9 中,测试了不同 memristor 量化级别下的不同衰减率,对于 2D 奇偶校验和 7 个部分。衰减值与图 8 中的相同,量化级别也与图 7 中的相同。例如,可以看到 在整体上提供了最高的准确率。这是因为输入被分成了 7 个部分,这意味着每个 memristor 有 4 个像素。因此,允许很好地分离输入像素。这在图中以易失性 memristor 的最终状态与给定长度的所有可能输入序列的衰减率()的关系图形式可视化。图 10 显示了单个易失性 memristor 在四种不同衰减率()下的最终状态,对于具有四个脉冲的输入序列。在较低的 值下,memristor 无法清晰地区分不同的输入序列,因为内部状态迅速衰减并受到最新输入脉冲的主导;因此,序列中的早期像素对最终状态的影响最小,导致序列表示之间的显著重叠。如果 值太大,具有相同数量“1”的序列会收敛到相同的状态,memristor 实际上像计数器一样工作,有效地丢失了序列的时间顺序。在中等衰减率(– 在这种情况下),不同输入序列对应的最终状态分离良好并分布在多个量化级别上。在这些中,提供了最佳的整体可分离性,如下所述。图 9 在图查看器中打开
不同 memristor 量化级别的测试准确率与时间衰减率,对于 2D + 奇偶校验和 7 个部分。图 10 在图查看器中打开
单个易失性 memristor 的最终状态与衰减率的关系,对于所有可能的序列,具有四个写入脉冲。因为自然图像中的相邻像素在空间上是相关的,并非所有输入序列都以相同的概率出现。因此,不需要严格分离所有可能的序列;相反,只要对应于感知上或统计上不同的图像模式的序列映射到不同的量化区间就足够了。例如,像素值的小变化——如轻微的空间位移——导致不同的输入序列但映射到相同的量化级别是有益的,因为它们提高了对轻微图像扰动的鲁棒性。必须选择适当的 值,以便应用于 memristor 的图像的像素能够在不丢失重要信息的情况下得到表示。关于给定序列长度和量化的最佳 的进一步讨论在支持信息注释中提供。在图 11 中,测试了不同设备间和周期间可变性条件下的不同量化级别,对于 2D 奇偶校验和 7 个部分。准确率是在没有可变性、可变性和可变性的情况下测量的,量化级别与图 7 中的相同。可以观察到,增加可变性会导致准确率下降。这种下降对于 可变性来说相对较小,而对于 可变性来说则更为显著。对于 可变性,准确率平均下降了大约 5 个百分点;对于 ,平均下降了大约 2.5 个百分点。为了隔离设备间可变性的影响并验证我们的分析,我们还通过联合变化 、 和内部状态变量的初始化 进行了蒙特卡洛扫描。30 次运行的平均值、最大值和最小值以误差条的形式绘制在图 S5 中。我们可以观察到,对于某些量化级别,可变性可以在训练中起到正则化作用,与没有可变性相比略微提高准确率。还可以看到,虽然在某些运行中低量化(1 位或 2 位)可以导致准确率,但这样的配置不可靠,至少需要 3 位(8 个级别)的量化才能实现稳健操作。图 11 在图查看器中打开
不同可变性条件下的测试准确率与量化级别,对于 2D + 奇偶校验和 7 个部分。对于 MNIST,实现的最高准确率是。该准确率是在每行有 2D + 奇偶校验和 7 个部分的情况下实现的,即每个 memristor 有 4 个像素,使用 和 4 位量化的 memristor(16 个量化级别),如图 9 所示。这种配置需要 581 个 memristor 在 reservoir 中。我们还测量了 memristor 电流的量化对准确率的影响,并观察到低分辨率(1 或 2 位)的 memristor 提供了可接受的准确率(分别为 92.52% 和)。这些都是对于 2D + 奇偶校验和 7 个部分的配置,衰减率为 10ns。在这两种情况下,reservoir memristor 的数量都是 581 个。然而,这些配置是不可靠的,至少需要 3 位的量化才能实现稳健性能。对于 可变性,最大准确率是在配置 2D + 奇偶校验和 8 个部分以及衰减率为 和 3 位 memristor 量化(8 个级别)的情况下获得的。为了将硬件规模进行比较,考虑一个标准的完全连接的 MNIST 识别神经网络。输入层包含 输入像素。假设有两个隐藏层,每个隐藏层包含 20 个神经元,以及最终层包含 10 个神经元,对应于 10 个类别。这个网络中的可训练权重总数是。在硬件中,每个权重可以用一个非易失性 memristor 实现。因此,这个网络需要 16,280 个非易失性 memristor。在我们这里描述的 2D + 奇偶校验和 8 个部分的 PDFN 中,需要 个易失性 memristor。读出中的权重总数是。每个读出权重可以用非易失性 memristor 实现。总共,RC 和 memristor 需要 664 个易失性 memristor 和 6640 个非易失性 memristor,这大大少于完全连接网络(非易失性 memristor)。为了可视化 reservoir 中 memristors 的图像表示,我们绘制了代表整个图像应用后 memristors 最终状态的 reservoir 电流的 t 分布随机邻域嵌入(t-SNE),并将它们与原始 MNIST 数据集图像的图进行比较。该图显示在图 S6 中。可以看出,对于高准确率的配置(例如),t-SNE 显示了每个数字的 reservoir 表示之间的良好分离,而低准确率的配置(例如)在它们的 reservoir 表示中类别的分离较差。
5.2 方差分析
为了理解不同的设计选择如何影响识别准确率,我们进行了因子方差分析(ANOVA),这是一种统计方法,可以同时评估几个因素的影响,并确定哪些因素对性能的贡献最大(可在 MATLAB 统计和机器学习工具箱中找到)。这使我们能够平等地比较所有预处理和设备参数。ANOVA 分析的关键发现总结如下;详细的原始结果可以在论文的图 S7 中找到。结果显示,部分划分对准确率的影响最大。将每个图像分成更多的部分可以一致地提高准确率,从单个部分增加到多个部分时改进尤为明显。量化是下一个最有影响力的因素:使用更多的量化级别(例如,级别)通过提供更丰富的图像表示显著提高了准确率。另外两种预处理选择也产生明显的收益。使用 2D 编码而不是 1D 可以提高准确率,表明保持二维空间结构为 reservoir 提供了更富有信息的时间输入流。启用奇偶校验编码也比没有奇偶校验的情况提高了准确率,因为它引入了额外的混合信号,增加了计算期间内部设备状态的多样性。忆阻器的泄漏时间常数虽然影响较小,但仍具有实际意义:较大的泄漏时间常数值可以在处理少量数据时提高精度,因为较慢的衰减速度使得设备能够在较长的脉冲序列中保留信息。此外,还有几个因素相互增强效果。特别是,数据分割和量化操作能够协同工作,这意味着当图像被划分为多个部分时,精细的量化效果最为显著。总体而言,因子方差分析(ANOVA)表明,输入编码方式是影响精度的最主要因素,数据分割、数据维度和数据奇偶性对精度的提升贡献最大,而设备级别的时间常数和忆阻器量化级别则进一步影响精度并增强计算系统的能力。接下来,我们研究了这些架构和设备级别的选择如何影响系统对设备变异性的鲁棒性。使用相同的因子方差分析框架,我们评估了在不同泄漏时间常数下的精度变化,以确定哪些因素使得系统对忆阻器动态中的噪声更敏感或不敏感。详细的原始结果可以在论文的图S8–S11中找到。平均而言,泄漏时间常数的变化对精度的影响较小(仅降低了0.3个百分点),表明系统在低变异性的情况下通常表现稳定。然而,较大的泄漏时间常数变化会导致结果分布更广(平均精度降低了3.5个百分点),有些配置仅有轻微下降,而有些则出现了显著的精度损失。方差分析显示,数据分割仍然是影响系统鲁棒性的最重要参数。数据分割的数量主导了泄漏时间常数变化的有效性,同时它也是泄漏时间常数变化的主要贡献因素。量化是下一个最重要的因素,在较大的泄漏时间常数下,其影响显著增加,这反映了将忆阻器状态电流离散化为有限级别在变异性的传播过程中起着关键作用。与较低的泄漏时间常数相比,较高的泄漏时间常数会导致更高的精度损失。重要的是,数据分割和量化之间存在强烈的相互作用:一种数据分割方案下稳定的量化级别可能在另一种方案下就不稳定,这意味着系统的鲁棒性来自于两者的结合,而不仅仅是一个参数。输入维度和数据奇偶性的主要影响较小,但它们通过与数据分割和量化的相互作用显著影响系统的鲁棒性,而时间常数主要通过类似的第二级效应影响对变异性的耐受性。总体而言,这些结果表明,那些在理想情况下提高精度的架构决策也同样决定了系统的鲁棒性,尤其是数据分割和量化的选择,而且通过共同设计输入编码和设备级别的参数可以获得最佳的系统性抗变性能力。
**6 结论**
本文全面分析了使用易失性忆阻器实现的储能计算技术,探讨了设备级别的特性(如衰减率、量化和变异性)如何影响系统性能。通过对并行延迟反馈网络(PDFN)架构的分析,我们证明了多个易失性忆阻器并行工作时可以有效捕捉时间依赖性,在现实设备约束条件下,只要设计选择正确,系统的分类精度可以达到MNIST数据集的较高水平。这些结果与现有的最佳忆阻器基RC实现相比具有竞争力。我们的研究结果表明,最大为3%的变异性能导致精度略有下降,但对于3比特或更高精度的忆阻器解决方案来说仍然是可以接受的。总体而言,这项研究强调了易失性忆阻器作为紧凑、可靠的多重神经计算系统的有前景的构建模块。
**致谢**
本研究部分由欧盟的Horizon 2020研究与创新计划FET-Open NEU-Chip(授权协议编号964877)资助,并得到了欧盟(ERC,Real-Database-PIM,101157452)的支持。然而,本文所表达的观点和意见仅代表作者个人,并不一定反映欧盟或欧洲研究理事会执行机构的立场。欧盟或授权机构对此不承担任何责任。
**利益冲突**
作者声明没有利益冲突。
**数据可用性声明**
本研究中用于仿真的代码可在此处通过GitHub获取:(https://github.com/rishonadaniels/On_the_role_of_preprocessing_and_memristor_dynamics_in_reservoir_computing)
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号