《Advanced Electronic Materials》:Emerging Memory and Device Technologies for Hardware-Accelerated Model Training and Inference
编辑推荐:
本文系统综述了基于新兴存储技术的存内计算(CIM)架构在克服冯·诺依曼瓶颈方面的最新进展。文章重点探讨了适用于训练(需高耐久性、模拟多级开关、线性权重更新)和推理(需稳定保持、低功耗)的各类器件,包括阻变存储器(ReRAM)、相变存储器(PCM)、铁电隧道结(FTJ)、电化学随机存储器(ECRAM)等,并强调了从材料、器件到系统级集成的跨层协同优化策略,为下一代高能效边缘AI硬件的发展指明了路径。
1 引言
人工智能(AI)的快速发展及其在各领域的广泛应用,标志着数据处理新纪元的到来。深度学习的发展,特别是基于生物神经网络工作机制的人工神经网络(ANNs),进一步加速了这一进程。ANNs通过执行输入与权重之间的矩阵向量乘法(MVM)来生成输出。然而,随着模型参数和训练数据规模的急剧增长,基于传统冯·诺依曼架构的硬件在能效方面面临严峻挑战,其主要瓶颈在于计算单元与存储单元之间频繁且高能耗的数据传输。
为应对这一挑战,存内计算(CIM)架构应运而生。CIM将计算功能嵌入存储器中,从而避免了昂贵的数据搬运,实现了并行、低功耗的计算。其中,基于新兴存储器技术(如阻变、相变、铁电、电化学和电荷基器件)的CIM架构,因其模拟可调性和可扩展性而成为研究热点。这些器件能够直接在交叉阵列中执行MVM操作,为构建高效的AI硬件平台提供了巨大潜力。
本综述旨在讨论用于模型训练和推理的新兴存储器技术及硬件要求。训练-centric的CIM架构需要器件具备高耐久性、模拟多级开关能力和线性权重更新特性;而推理-centric的应用则更关注稳定的数据保持能力和低功耗。文章将系统回顾各类新兴存储器件的最新进展,并探讨其系统级集成方案,为未来面向边缘和设备端AI系统的高能效CIM硬件发展提供全面视角。
2 用于模型训练的新兴器件
在训练-centric的CIM架构中,新兴存储器件的有效性取决于其在训练过程中提供精确、可靠权重更新的能力。
2.1 氧离子基阻变随机存取存储器
氧离子基ReRAM是一种两端忆阻器,通过氧阴离子在氧化物层内的漂移和重新分布来实现电导的渐进式和可逆调制。Park等人报道了一种界面型ReRAM,其表现出优异的耐久性(>5 × 106次开关循环)和较低的时间和空间变化。该器件具有渐变的氧浓度分布,有利于氧离子迁移,并表现出自整流行为,便于构建简单的1R交叉阵列。通过制造氧浓度梯度层、去噪工艺以及外延生长氧离子开关层等策略,可以显著提高器件的耐久性和高分辨率多态表示能力,这对于实现计算密集型应用的CIM硬件至关重要。
2.2 金属阳离子基阻变随机存取存储器
金属阳离子基ReRAM,也称为电化学金属化存储器(ECM),通过活性金属阳离子(如Ag或Cu)的迁移以及介质层内局部导电细丝的形成和断裂来工作。Choi等人报道了一种高性能单晶SiGe外延RAM(epiRAM),其中Ag细丝被限制在外延SiGe薄膜的一维位错中。这种限制效应显著降低了导电细丝形成和断裂的随机性,使器件具有高开关比(>104)和优异的耐久性(超过109次脉冲)。Chen等人报道的欧姆忆阻器通过使用低功函数金属作为顶电极和底电极,最小化了界面肖特基势垒高度,从而实现了更可靠的形成过程和优异的电学特性,包括高耐久性(>106次循环)和稳定的5比特(32态)多级表示能力。通过插入Cu纳米颗粒或Ti纳米团簇等方式,可以进一步改善电导更新的线性特性。
2.3 铁电隧道结
铁电隧道结(FTJ)是一种新兴的非易失性存储器,其中超薄铁电层通过极化切换来调制量子隧穿电流。铁电极化可以部分切换,从而实现超越简单二进制状态的连续模拟电导调谐。这种多级且近乎线性的电导调制特性对于训练-centric的CIM应用极具吸引力。Zr掺杂的HfO2(HZO)基FTJ因其与CMOS工艺兼容且能在超薄厚度下保持强铁电性而被广泛研究。Song等人开发的TiN/HZO/TiN金属-铁电-金属堆栈实现了可靠的极化切换和多级电导控制。Jia等人开发的掺钐铋氧化物(BSO)基FTJ则表现出异常大的隧穿电致电阻,确保了多级数据编码的宽且稳健的电阻窗口。这些FTJ结合了强铁电极化、精细可调且可重复的多级电阻、超低编程能量和优异的循环稳定性,非常适合训练-centric的CIM操作。
2.4 电化学随机存取存储器
电化学随机存取存储器(ECRAM)是一种三端新兴存储器件,通过离子的电化学运动存储数据,因其可调的模拟状态、线性电导更新能力和非破坏性读取操作而被广泛研究用于计算密集型CIM硬件。Li离子基ECRAM(如LixCoO2或LixTiO2通道)展示了近乎线性的电导更新和稳定的模拟开关特性。氧离子基ECRAM(如Y2O3稳定的ZrO2(YSZ)电解质)由于氧离子化学稳定性高,也显示出高度线性和稳健的特性。全固态质子基ECRAM则具有功耗低、结构稳定和操作速度快的特点。通过通道和库材料优化,以及ECRAM的垂直集成(V-ECRAM),可以显著提高线性度和存储密度,使其成为需要大量迭代操作的CIM硬件的合适候选者。
2.5 电荷基新兴存储器
电荷基新兴存储器采用与常规存储器相同的电荷存储原理,但扩展到模拟和多态操作。电荷陷阱存储器其操作机制类似于电荷陷阱闪存,通过电荷陷阱层中的可逆电荷捕获和去捕获来调制器件电导。与电荷陷阱闪存不同,电荷陷阱忆阻器的两端配置通过其固有的自整流特性实现高密度MVM操作,且通常在较低电流水平(<1 μA)下工作,能效高。Park等人演示了一种垂直集成的Pt/Ta2O5/Al2O3/TiN自整流电荷陷阱忆阻器,在阵列中显示出可靠的电阻开关特性。记忆电容器(Memcapacitors)是另一类电荷基新兴存储器,其通过介质层内的可逆调制电容来存储信息。在基于电阻开关器件的交叉阵列中,突触权重以电导编码并通过电阻电流读取,这不可避免地导致焦耳热损耗。而记忆电容器将信息编码在电容中,通过位移电流工作,这种电荷基操作大大减少了与传导相关的能量耗散,使其成为训练-centric CIM架构的有前途的候选者。
3 用于模型推理的新兴器件
在人工智能模型的推理过程中,未知数据被输入模型,并使用训练过程中存储的层权重执行MVM来生成中间输出和最终输出。因此,推理任务的计算强度通常低于训练过程。对于推理-centric的CIM硬件系统,稳定的保持特性至关重要,因为保持优化的训练参数会显著影响最终输出的准确性。
3.1 价变存储器
价变存储器(VCM)是一种细丝型忆阻器,氧空位(VO+)是导电细丝的来源。非晶氧化物开关层的快速操作速度、长保持时间和CMOS兼容性使VCM成为存内计算应用的有前途的候选者。Yuan等人报道的WO3:Ce2O3纳米复合忆阻器具有渐变开关特性,其导电细丝在WO3和Ce2O3相界面处优先形成,这种引导的细丝形成抑制了随机行为,提供了长保持(>105秒),这对于模型评估中的准确决策至关重要。Kim等人报道的CMOS兼容的4k忆阻器阵列通过优化氧空位分布,显示出低操作电压和高均匀性,推断的保持时间超过8年。Guo等人演示的机械剥离二维层状Au/Cr/Bi2SeO5/Au VCM具有快速操作速度(160 ns/110 ns)和长保持特性(>104秒),高开关比(>106),并成功在1T-1R配置中演示了多比特表示。
3.2 相变存储器
相变存储器(PCM)通过利用硫族化物材料非晶相和晶相之间的电阻差来存储数据,是用于基于推理的存内计算的代表性非易失性存储器。Wu等人开发了一种基于纳米复合超晶格结构的新型PCM器件,实现了创纪录的低功耗和卓越的稳定性。该结构集成了Sb2Te3和Ge4Sb6Te7(GST467)纳米复合材料的交替层,具有优异的热限制和电学特性,使复位功耗比传统PCM器件降低十倍以上。Park等人开发的纳米细丝PCM(NFPCM)在a-Si层内形成SiTex纳米细丝,将相变区域限制在纳米尺度的细丝中,实现了低至10–60 μA的超低复位电流,并保持了快速开关速度(置位时间150 ns,复位时间20 ns)。其低电阻漂移和稳定的多级能力使其成为CIM计算系统的优秀候选者。
3.3 铁电场效应晶体管
铁电场效应晶体管(FeFETs)是推理导向CIM应用的有前途的候选者,其铁电栅堆栈通过非易失性极化调制沟道电荷,无需额外的选通器件即可实现快速、低能耗开关。Zheng等人开发了一种Ge n沟道FeFET存储器,通过集成TiN/HfZrOx/Al2O3–AlN栅堆栈并采用低热预算微波退火(MWA)工艺,实现了约2.5 V的大存储窗口和清晰分离的多级阈值电压,实现了三重单元操作,并表现出优异的保持特性(>10年)。Kim等人开发了一种基于铪的铁电薄膜晶体管,采用金属-铁电-金属-铁电-半导体(MFMFS)栅堆栈和InZnO沟道,表现出异常大的存储窗口(高达10 V),并通过位移电流控制单次编程支持16个 distinct电导状态(每单元4比特),为CIM推理提供了高分辨率、低能量的模拟权重编程。
3.4 浮栅/电荷陷阱型晶体管
浮栅(FG)和电荷陷阱型晶体管(CTTs)通过将电荷存储在陷阱层中来精确调制晶体管的沟道电导,实现突触权重的非易失性存储,是用于基于推理的计算系统的有前途的技术。Park等人开发了一种采用氧化铟锡(ITO)浮栅的高性能突触晶体管,其与Al2O3隧穿层的界面更光滑、缺陷更少,从而最大限度地减少了不必要的电荷泄漏并提高了隧穿效率,实现了显著改善的编程特性、更大的阈值电压偏移和更长的保持时间。Baek等人介绍了一种用于量化神经网络(QNNs)的氧化物基三元CTT,该器件使用独特的三层氧化物半导体堆栈(IGZO/IZO/IGZO)作为沟道,自然产生三个离散且稳定的电流状态(关断、中间和开启),为QNNs的直接硬件实现提供了一个强大的平台。
3.5 二维材料基场效应晶体管
二维材料因其原子级薄的沟道、高载流子迁移率、可扩展到亚纳米尺度的能力以及与后端制程(BEOL)的优良兼容性,被认为是下一代电子器件中有希望的硅替代品。Wang等人展示了一种完全由二维材料构建的快速非易失浮栅存储器,包含MoS2/h-BN/石墨烯/h-BN/石墨烯范德瓦尔斯异质结构。该器件可在约100 ns内完成编程或擦除,比传统的基于硅的闪存器件快近1000倍,并且编程状态可稳定保持超过1.5年。Li等人引入了通过阈值开关层直接电荷注入的二维存储器FET,将所需编程电压降低至2 V,并表现出长期保持和稳健的循环耐久性。
3.6 有机晶体管
有机晶体管因其独特的机械柔性和生物相容性而受到关注。沟道中的电荷传输可通过电化学掺杂、电荷捕获或偶极极化进行可逆调制,从而实现低功耗模拟权重控制。Wang等人开发了一种具有垂直横向结构的有机电化学晶体管,采用部分结晶有机沟道来捕获离子凝胶中的离子,有效抑制离子回流,改善了保持性能。Zhao等人设计的有机晶体管通过共轭聚合物沟道的分子给体工程,实现了可控的模拟电导调制和增强的操作稳定性。Jang等人报道的自支撑铁电有机晶体管展示了有机材料在机械坚固和可共形电子产品方面的潜力。
4 系统级硬件实现
前述章节讨论的新兴存储器件的全部潜力,只有在它们被实现为完全集成的、多核的CIM芯片,能够加速端到端AI应用时,才能最终发挥出来。
4.1 训练-centric硬件实现
训练先进的ANN需要巨大的计算资源进行并行操作。将CIM架构与特定算法相结合的设计可以减少工作量和训练成本。Jeong等人开发了一种基于无选通器忆阻器阵列的模拟计算平台,并演示了用于实时视频处理的在线训练,无需预训练过程。Doremaele等人演示了反向传播算法的硬件实现,该算法使用局部偏导数逐步更新每一层。该系统由ECRAM单元、电流源、晶体管和用于ReLU激活函数的二极管组成的印刷电路板(PCB)构成,实现了原位硬件分类。
4.2 推理-centric硬件实现
推理-centric的CIM系统旨在以最大速度和能效执行预训练的神经网络模型,优先考虑高吞吐量、稳定的长期数据保持和超低功耗的读取密集型操作。Xie等人提出了一种完整的忆阻存内物体检测系统,基于128 Mb C掺杂的Ge2Sb2Te5PCM芯片,用于加速整个YOLOv2算法。Wan等人开发的NeuRRAM芯片体现了一种多核CIM架构,基于300万个单片集成的ReRAM器件,采用“跨层协同优化”理念,将从器件级到算法级的创新结合起来,以克服硬件非理想性,支持CNN和LSTM等多种模型,实现了卓越的能量延迟积和与软件相当的推理精度。
4.3 训练与推理一体化的系统级实现
能够同时进行训练和推理的CIM系统对于实现完全自适应和自主的AI硬件至关重要。Zhang等人演示了一个完全集成的忆阻器-CMOS CIM系统,能够进行片上训练和推理。该芯片集成了156,800个忆阻器,与CMOS外围电路单片集成,通过实施自适应调优增强局部学习算法(STELLA)来动态调整每个忆阻器的更新系数,补偿器件级的非理想性,确保了迭代训练周期中稳定精确的模拟权重演化。Ning等人演示了一种硬件基础的CIM平台,在单一架构内集成了片上训练和推理。该系统采用具有两个分离栅(训练栅和推理栅)的双工FeFET器件,通过调整每个栅的铁电面积,使T型和I型FeFET分别优化用于训练(线性模拟权重调制、高耐久性)和推理(增强的电荷保持、读取稳定性)。
5 结论
本综述介绍了基于新兴存储技术的CIM架构的最新进展。讨论涵盖了材料、器件物理和架构设计等方面的关键进步,这些进步共同旨在实现并行、高能效的数据处理。文章重点介绍了多种存储模式(包括阻变、相变、铁电、电化学和电荷基器件)如何向模拟可编程和多级操作发展,从而同时支持训练-centric和推理-centric计算。
尽管已经取得了实质性进展,但要将CIM架构转化为可扩展、可部署的计算平台,仍必须解决若干挑战。首先,器件变异性和可靠性仍然是限制训练精度和推理稳定性的关键障碍。其次,与CMOS工艺和3D集成技术的兼容性对于高密度和成本效益的制造至关重要。第三,CIM架构的系统级实现仍处于早期阶段。
为了克服这些挑战,需要在多个研究维度上持续取得进展。在材料层面,根据每种存储器类别优化开关特性将是提高模拟精度和减少变异性的关键。在集成层面,应优化材料和器件架构以实现CMOS兼容性和可扩展制造。在系统层面,开发器件感知算法和软硬件协同设计框架对于实际部署至关重要。
总之,基于新兴存储器的CIM架构为超越冯·诺依曼范式的、高能效的自适应计算系统提供了一个有前途的基础。材料创新、可扩展制造和架构优化的融合,将使得能够在统一平台内执行模型训练和推理的智能硬件成为可能。材料科学、器件工程和计算机架构之间持续的合作,对于将CIM从概念框架转变为未来边缘智能和AI计算系统的实用技术至关重要。