综述:氧化物陶瓷大规模集成器件:在人工智能时代利用计算机来减轻全球极端天气的影响
《International Journal of Ceramic Engineering & Science》:Oxide Ceramics Large-Scale Integration Devices to Mitigate Global Extreme Weather Due to Computers in the AI Era
【字体:
大
中
小
】
时间:2026年05月11日
来源:International Journal of Ceramic Engineering & Science 1.2
编辑推荐:
**摘要**
全球性“沸腾”现象的一个原因是数据中心巨大的能耗,尤其是在算术逻辑单元(ALU)操作和内存数据传输过程中。我们的目标是通过用模拟内存计算(AiMC)和基于晶体氧化铟的随机存取存储器(RAM)替代基于硅的缓存存储器,以实现超低功耗。这种替代方案使得场效应晶体管(FE
**摘要**
全球性“沸腾”现象的一个原因是数据中心巨大的能耗,尤其是在算术逻辑单元(ALU)操作和内存数据传输过程中。我们的目标是通过用模拟内存计算(AiMC)和基于晶体氧化铟的随机存取存储器(RAM)替代基于硅的缓存存储器,以实现超低功耗。这种替代方案使得场效应晶体管(FET)具有出色的导通状态特性,包括高达142.7 cm2/V·s的迁移率,以及比硅基FET低11个数量级的关断电流。我们还在研究使用处于亚阈值区域的AiMC FET的低功耗人工智能(AI)ALU。本报告将介绍这些技术的趋势。基于这些技术的进一步发展将实现高集成度和节能效果,这被认为是应对全球性“沸腾”现象的重要对策。
**1 引言**
全球性“沸腾”现象已经在世界各地引发了许多气候异常,这是一个需要立即采取行动的紧迫问题。2015年,《巴黎协定》作为全球性“沸腾”对策的国际框架得以通过。然而,全球平均气温持续上升;到2024年,气温比工业革命前水平升高了1.55°C,超出了《巴黎协定》设定的1.5°C的目标[1]。因此,作为人类,我们需要共同努力来应对这一现象。全球性“沸腾”的一个原因是由化石燃料供电的数据中心的巨大能耗。美国的数据中心能耗高达185太瓦时(TWh),中国为103太瓦时,欧洲为64太瓦时,日本为19太瓦时[2]。计算能耗每2-4年翻一番,预计到2040年代将超过全球能源产量[3]。美国正在尝试利用地下水来消除大量能耗产生的热量,而中国则建设了水下海洋数据中心,这些举措引发了人们对环境退化的担忧。因此,降低数据中心的电能消耗对于应对全球性“沸腾”至关重要。内存数据传输的能耗占数据中心总能耗的很大比例。特别是,读取基于硅(Si)的动态随机存取存储器(DRAM)的能量消耗为20 pJ/比特,这意味着其能耗比其他操作(如8位乘法操作)高出100多倍[4]。因此,减少DRAM的能耗对于降低数据中心的总能耗非常有效。我们一直专注于氧化物半导体(OS),特别是氧化铟镓锌(IGZO)陶瓷,作为硅的替代品。由于我们发现IGZO场效应晶体管(FET)的关断电流(Ioff)极低,约为硅的10个数量级[5-8],我们主要将其应用于存储器的研究和开发中。然而,IGZO FET的导通电流(Ion)较低,因此我们现在专注于晶体氧化铟(Crystal IO),这种材料在保持低Ioff的同时具有更高的Ion。我们正在研究用于模拟内存计算(AiMC)中的内存的节能型Crystal IO FET,这些FET可以利用亚阈值电流,该电流产生于栅极电压(Vg)低于FET的阈值电压(Vth)的区域。本文回顾了与基于OS的存储器和模拟ALU相关的我们的研究方法。
**2 OS FET的特性和结构**
基于多晶IO的FET由Chu等人在2007年报道[9],其Ion高于已在显示器中商业化的IGZO[10, 11]。2024年,在材料科学与技术会议上介绍了Crystal IO作为OS材料,并提出了利用Crystal IO作为通道材料的2Tr1C和2Tr0C存储器(Tr:FET,C:电容器)以及AiMC[12]。这些技术预计未来将实现节能且大规模集成(LSI)。图1a展示了用于显示背板的FET结构,这是控制智能手机、平板电脑和笔记本电脑显示像素的关键组件。目前这些FET使用低温多晶硅(LTPS)或IGZO制造,其中IGZO通过实现低刷新率在降低能耗方面发挥了重要作用。图1b展示了用于非常大规模集成(VLSI)应用的FET结构。目前主导这一领域的Si VLSI能耗巨大。我们的最终目标是在所有半导体器件中用Crystal IO替代硅,包括显示器和VLSI。图1展示了OS FET的结构:(a) 用于显示应用的平面FET;(b) 用于存储/逻辑应用的Gate Last FET。下表比较了Si和Crystal IO的晶体结构、带隙和空穴有效质量。单晶Si具有金刚石结构,其空穴有效质量相对于电子静止质量仅为0.17(图2a)。因此,p沟道Si FET可以具有高迁移率,并且可以与n沟道Si FET结合形成互补金属氧化物半导体(CMOS)电路[13]。然而,n沟道Si FET在关断状态下会有较高的漏电流。图2展示了Si和Crystal IO的晶体结构以及电子和空穴的相对有效质量的比较:(a) 单晶Si(金刚石结构)[13]和(b) Crystal IO(双晶石结构)[14]。Crystal IO具有较大的带隙Eg,空穴有效质量为3.56,是单晶Si的20倍[14]。这一特性,加上较大的带隙减少了热载流子的数量,是Crystal IO FET极低特定Ioff的主要原因;Ioff的数量级为zA/μm到yA/μm(10^-21到10^-24 A/μm)。图3展示了Crystal IO、Si和IGZO的霍尔迁移率与载流子密度之间的关系。Si和Crystal IO的霍尔迁移率随着载流子密度的降低而增加,而IGZO则表现出相反的趋势。图4展示了这些FET的电场效应迁移率超过70 cm2/V·s(图4a),可靠性也令人满意(图4b),其源-漏极击穿电压在L = 1.5 μm时约为50 V(图4c)。图5展示了一个使用Crystal IO的8.3英寸、1058 ppi 8K4K有机发光二极管(OLED)显示器[17]。该显示器的对角线尺寸为8.3英寸,但像素密度高达每英寸1058个像素。图6展示了场效应迁移率与模拟估计的最大时钟频率之间的关系。IGZO的迁移率较低,约为10 cm2/V·s,因此只能在低时钟频率下使用,而Crystal IO的高迁移率使其能够在更高的时钟频率下工作。具体来说,在迁移率为80 cm2/V·s时,时钟频率可达到500 MHz(Vd = 1.2 V,图6)。图7显示了在Vth = ?0.1 V时,具有60/60 nm通道宽度/长度的Crystal IO FET的最大场效应迁移率为95.7 cm2/V·s,相应最大时钟频率为525.9 MHz(Vd = 1.2 V,中值为501.5 MHz)。最新结果显示,具有360/360 nm W/L的Crystal IO FET的场效应迁移率为142 cm2/V·s,并表现出正常关断(normally-off)特性,可靠性也非常优异,即使在125°C下运行500小时后,Vth波动也在±50 mV范围内(图8b)。此外,Crystal IO FET的关断电流Ioff比硅基FET低11个数量级,这对于降低能耗至关重要。
**3 Crystal IO在存储器中的应用**
首先,让我们回顾一下闪存的历史,这是一种由第一作者在1970年发明的非易失性存储器[23-25]。当时的原型中,一个由绝缘体包围的Si浮栅(FG)通过控制电极进行控制。即使在50多年后,该设备仍能正常工作(图9)。闪存通过隧道电流向FG注入或释放电荷来保持存储的数据(图10a)。写入/擦除(W/E)操作所需的高电场(向浮栅FG注入和释放电荷)会导致绝缘膜的退化,从而产生不利影响,如降低内存的操作窗口,即导纳gm和擦除状态与写入状态之间的阈值电压Vth差异,以及写入速度的降低(图10b,c)[26, 27]。1980年,第一作者遇到了英特尔公司的创始人R. N. Noyce博士,并讨论了非易失性内存的未来可能性。R. N. Noyce博士给第一作者布置了一个“任务”:“发明一种不会退化的闪存”(图11)。即使在今天,退化仍然是闪存设备面临的一个重要挑战。包含OS FET的内存可能是解决这一问题的方案。图12展示了从基于Si的闪存到基于OS FET的内存的演变过程。在闪存中,通过向控制栅极施加高压,电荷从Si通道部分注入FG并从FG释放到Si通道部分,从而产生隧穿电流。此时,FG和Si通道部分之间的绝缘膜会发生退化(图12a)。图12b显示了从控制栅极到Si通道部分的等效电路。退化的关键点是由于隧穿电流导致的GO的导纳(电阻的倒数)。这里考虑使用开关而不是绝缘体来注入和释放FG中的电荷。在图12c中,使用Si FET作为开关。尽管没有发生退化,但由于Si FET的高漏电流,节点Q中的电荷无法长时间保持。因此,如图12d所示,使用OS FET(如IGZO FET或晶体IO FET)作为开关FET。由于OS FET的Ioff在zA/μm到yA/μm的范围内,比Si FET低11个数量级,所以节点Q中的电荷可以长时间保持。包含晶体IO FET的内存电路结构有多种变体(图12e,f)。在需要长期保持电荷的情况下,可以采用2Tr1C结构,其中使用电容器来存储节点Q中的电荷(图12e)。同时,即使只有寄生电容,节点Q的电压也能比DRAM保持更长时间。因此,也可以使用不包含任何电容器的2Tr0C或3Tr0C电路结构(图12f)。各种类型的内存,不仅包括闪存,还包括Si SRAM、Si DRAM和图13中展示的OS内存,都遵循相同的原理:“写入/擦除(W/E)”、“保持/刷新”和“读取”。因此,只要满足所需的操作速度和保持特性,所有内存都可以被OS内存替代。图13a中的电路图展示了包括触发器电路的SRAM,这是内存的基础。图13a中蓝色的部分包含SRAM的六个晶体管中的访问晶体管,对应于Si DRAM(1Tr1C)。在AI服务器中使用大量Si DRAM会导致巨大的功耗,这可能加剧全球能源问题。另一方面,图13b中黄色的部分包含SRAM的六个晶体管中的写入晶体管和读取晶体管,对应于2Tr1C或3Tr0C[28-33]。我们提出了基于OS的AiMC和图13b中展示的内存。这些内存可以以3D方式集成在Si VLSI上;因此,由于电路块之间距离的减少,可以期待更高的速度和更低的功耗。这有可能显著降低Si DRAM和Si SRAM的功耗,同时保持Si CMOS逻辑的处理速度。使用晶体IO FET,在1.2 V的操作电压下,预计可以实现500 MHz的高时钟频率,如图7所示,这可能使OS内存替代Si SRAM和Si DRAM成为可能。由于OS内存可以长时间保留数据,它们不需要数据刷新(Si DRAM的刷新率为64 ms),从而有可能大大节省数据刷新所需的功耗。图7在图查看器中打开
晶体IO FET的传输特性和估计的时钟频率[16]。Vg = ?4至4 V(0.1 V步进),Vd = 0.1 V(黑线),Vd = 1.2 V(红线),Vs = 0 V,W/L = 60 nm/60 nm,FET密度:8.4/μm2,Vth定义为Id = 1 nA × W/L时的Vg,n = 9。图8在图查看器中打开
晶体IO FET的最新特性[16]:(a) Id–Vg传输特性;(b) PBTS测试结果;(c) 源漏极击穿电压测量结果(W = 60 nm);(d) 击穿电压;以及(e) 关断状态泄漏特性的比较。(a) FET传输特性测量条件。Vg = ?1.8至1.8 V(0.1 V步进),Vd = 0.1 V(黑线),Vd = 1.2 V(红线),Vbg = ?5 V,衬底温度 = 27°C,Vth定义为Id = 1 nA × W/L时的Vg。(c和d) 源漏极击穿电压测量条件。Vg = Vs = 0 V,Vbg = ?2 V,衬底温度 = 室温。漏极击穿电压定义为击穿电流为1 nA时的Vd。FET,场效应晶体管;PBTS,正偏压温度应力。图9在图查看器中打开
1970年10月发明的闪存[23-25]:(a) 用于评估闪存的系统;(b) 部分(a)和(c)中蓝色框区域的放大视图;部分(b)和(d)中红色框区域的放大视图;所发明闪存的电极结构,其中电极①是栅极,电极②和电极③分别是源极和漏极。图10在图查看器中打开
1971年报道的闪存退化情况:(a) 闪存的等效电路;(b) 由于重复(重写)测量导致的gm和Vth变化;(c) Vg–Id曲线的变化[27]。FET,场效应晶体管;FG,浮栅;W/E,写入/擦除。
4 晶体IO内存
在我们的发现[7, 8]之后,即IGZO FET的超低Ioff特性,我们于2011年首次在世界上报道了一种非易失性OS RAM(NOSRAM),即基于OS的2Tr1C内存。当时,我们使用CAAC-IGZO来验证其非易失性。图14展示了这种NOSRAM,在85°C下,OS FET的关断电流Ioff为100至600 yA/μm(1 yA = 10?24 A)(图14a)。测量如此微小Ioff的唯一方法是将许多FET并联以获得等效的通道宽度W为1 m。实际的集成内存电路如图14b所示。根据报告[6],这种极低的Ioff使得在125°C下的保持时间可达100小时或更长,相当于在室温下超过10年(图14a,c)。所报道的NOSRAM具有2Tr1C结构(图12e),并且不仅包含OS FET,还包含Si FET(图15a)。内存的操作窗口大于3 V。根据报告[6]中的耐久特性,即使在经过1012次W/E循环后,该窗口仍然保持宽(图15b,c)。这意味着我们已经“完成了R. N. Noyce博士在1980年给出的任务”(图11)。图11在图查看器中打开
1980年的任务:(a) 硅闪存的基本设备;(b) 1980年在R. N. Noyce博士家中拍摄的照片(左:R. Borovoy先生,中:Yamazaki先生,右:R. N. Noyce博士)。图12在图查看器中打开
OS内存的操作原理[16]:(a) 闪存的示意图;(b) 其等效电路;(c) 使用Si FET的2Tr1C内存;(d) 使用OS FET的2Tr1C内存;(e) 使用晶体IO FET的2Tr1C内存的等效电路;(f) 使用晶体IO FET的3Tr0C内存的等效电路。FET,场效应晶体管。图13在图查看器中打开
各种内存的电路图[16]:(a) 来自Si SRAM的1Tr1C Si DRAM;(b) 来自Si SRAM的2Tr1C AiMC或3Tr0C OS DRAM。DRAM,动态随机存取存储器;FET,场效应晶体管;SRAM,静态随机存取存储器。DRAM,动态随机存取存储器;FET,场效应晶体管;FG,浮栅;SRAM,静态随机存取存储器。图14在图查看器中打开
NOSRAM的特性[6]:(a) 泄漏电流的Arrhenius图;(b) 制造的NOSRAM芯片的外观;以及(c) 在125°C下的数据保持特性。图15在图查看器中打开
NOSRAM的耐久特性[6]:(a) NOSRAM单元电路;(b) 重写前后的传输特性;以及(c) 耐久特性。最近,我们报道了使用晶体IO代替IGZO的2Tr0C内存的运行验证[35](图16)。这种2Tr0C内存不包含Si FET(图16a)。这种晶体IO内存的运行验证是在整个芯片上进行的,包括Si驱动器(图16b)。由于晶体IO的迁移率高于CAAC-IGZO,因此运行速度可以大大提高。相应地,读取时间减少了72%(图16c)。此外,如图16d所示,芯片上的FET表现出以下优异的指标:Ion = 104 μA/μm,Ioff = 0.95 aA/μm(10?18 A/μm)(在85°C下),以及Vth = 0.70 V。图16在图查看器中打开
在芯片上验证晶体IO 2Tr0C内存的运行,包括Si驱动器[35]:(a) 2Tr0C单元的电路图;(b) 2Tr0C内存芯片的芯片照片;(c) 晶体IO内存和CAAC-IGZO内存之间的读取时间比较;以及(d) 晶体IO 2Tr0C内存芯片的规格。
5 模拟内存计算
我们不仅在研究当前中央处理单元/图形处理单元(CPU/GPU)中使用的数字ALU,还在研究利用OS的模拟算术运算[36, 37]。为了进一步降低功耗,利用门电压Vg低于阈值电压(Vth)的区域产生的亚阈值电流来驱动FET进行模拟算术运算。例如,我们报道了使用亚阈值电流和模拟电路实现的AI乘法-累加(MAC)运算和激活函数[38](图17)。通过AIMC芯片中的512 × 256 MAC运算识别手写数字,功耗降低到了相应数字Si电路的大约1/30(图18)。图17在图查看器中打开
使用IGZO FET的AIMC[38]:(a) AIMC单元的电路图;(b) AIMC芯片及其横截面;(c) 部分模拟的传统操作;以及(d) 几乎完全模拟的AIMC操作。图18在图查看器中打开
手写数字识别所需的能量(512 × 256 AiMC运算)[4, 38]:(a) 完全连接的网络(512 × 256);(b) 功耗和分类准确性依赖于AIMC芯片的分类时间;以及(c) 数字方法和模拟方法之间的能量比较。
6 横向结构
在所有当前的LSI中,如图19a,b所示,都使用Si衬底作为半导体FET材料。我们报道了包含一个OS、一个Si FET和一个电容器的2Tr1C内存[6, 38]。然而,如图19b所示,OS/Si LSI需要垂直布线,导致制造3D结构的工艺复杂。为了实现更高密度的内存,因此更倾向于使用不包含Si FET或金属-绝缘体-金属(MIM)电容器的多层结构。为了更容易地形成堆叠的3D结构,我们研究了一种横向结构,其中Si FET2被晶体IO替换,MIM电容器被金属氧化物半导体(MOS)结构替换(图19c)。在这种结构中,可以在一个层中形成2Tr1C,从而显著减小厚度。堆叠和连接多个这样的层可以减少由于布线较短而导致的信号延迟。假设期望的最大芯片厚度为1 mm以满足对薄封装的需求,大约可以堆叠图19c中的300层结构。这样的横向结构提高了OS FET在多层3D芯片中的适用性。此外,与IGZO相比,晶体IO包含的元件更少,因此也更适合大规模生产。图19:在图查看器中打开(PowerPoint)
横向存储器结构的示意图 [16]:(a) 使用Si基底的2Tr1C的电路图;(b) 使用Si基底的2Tr1C结构的剖面图;(c) 全IO FET横向结构的2Tr1C结构的剖面图。FET(场效应晶体管)。我们首次成功地在Si LSI电路上实现了三层晶体IO 2Tr0C存储单元阵列的3D堆叠(见图20)。大规模生产线将能够堆叠超过300层,这将满足人工智能时代对高带宽内存(HBM)的需求。
图20:在图查看器中打开(PowerPoint)
多层晶体IO 2T0C存储芯片 [16]:(a) 显微照片;(b) 剖面扫描透射电子显微镜(STEM)图像。FET(场效应晶体管)。图21展示了另一个世界首创的应用示例:在Si驱动LSI上堆叠了三层晶体IO 2Tr1C AiMC单元阵列的模拟AI芯片。未来,许多半导体公司将能够精确制造多层结构,我们希望许多晶圆厂能够采用晶体IO来降低AI服务器的功耗。
图21:在图查看器中打开(PowerPoint)
多层晶体IO AiMC芯片 [16]:(a) 显微照片;(b) STEM图像。FET(场效应晶体管)。作为下一步,我们正在研究在Si LSI电路上结合(1)晶体IO横向存储器、(2)AiMC以及(3)各种逻辑电路的结构(见图22)。通过将多层堆叠技术应用于存储器和AiMC,将获得高密度、高功能性且低功耗的LSI芯片。
图22:在图查看器中打开(PowerPoint)
利用横向晶体IO结构的器件集成示意图 [16]。LSI(大规模集成电路)。这种LSI芯片旨在实现如图23所示的模拟神经网络 [39, 40]。该模拟神经网络使用模拟电路来模拟神经元(神经细胞)。当在模拟神经网络中使用OS存储器和AiMC单元时,可以在存储器和AiMC单元之间或AiMC单元阵列之间使用模拟电平转换器电路来节省能量。
图23:在图查看器中打开(PowerPoint)
模拟神经网络电路的实现:(a) 神经元 [39, 40];(b) 神经网络示意图;(c) 模拟神经网络电路;(d) 基于晶体OS的存储器和AiMC模块之间的连接。模拟电平转换器电路通过电荷分布来进行模拟电平转换,利用电容器中存储的电荷量Q与电压V之间的关系。它可以包含晶体IO FET,由于其低Ioff值,与基于电荷的模拟电平转换器电路兼容(见图24)。这种电路可以堆叠在Si LSI上,在不同层级、电路模块和不同电源电压之间实现低占用率的连接。因此,这样的LSI可以比现在集成更大的规模。
图24:在图查看器中打开(PowerPoint)
使用晶体IO的模拟电平转换器电路:(a) 电路图;(b) 时序图和仿真结果;(c) Vin与Vout之间的关系。我们正在研究将这些低功耗模拟AI设备应用于能够模拟生物大脑功能的小型AI系统中。对于不需要与外界通信的自主AI而言,模拟AI非常有效。为了证明这一概念,我们将晶体IO存储芯片和AiMC芯片集成到人形机器人中,并展示了世界上第一个使用晶体IO的模拟AI(见图25a)。这些人形机器人随着鼓声的节奏同步运动(见图25b)。
图25:在图查看器中打开
基于晶体IO FET的人形机器人(均配备存储器和模拟AI芯片 [16]:(a) 芯片安装部分的照片;(b) 随着鼓声同步运动的人形机器人。AI(人工智能)。尽管此次演示中的模拟AI规模较小,但我们目标是将该技术应用于数据中心等大规模AI系统(见图26),其中的第一步是使用数字电路。目前,存储器主要基于Si SRAM或Si DRAM,但这些存储器的功耗非常高。因此,我们的首要目标是用晶体IO基存储器替换现有的Si SRAM和/或Si DRAM,并以3D方式堆叠在现有的Si VLSI逻辑之上。
图26:在图查看器中打开
我们目标的低功耗设备:(a) 当前的数字存储层次结构;(b) 数字存储器的目标;(c) 模拟操作的中长期目标。CPU(中央处理单元);DRAM(动态随机存取存储器);GPU(图形处理单元);SRAM(静态随机存取存储器)。第二步是开发模拟ALU。目前CPU和GPU中的数字ALU主要用于算术运算,但我们计划用功耗更低的AiMC来替代部分算术运算。我们的目标是将数据中心的总功耗降低到目前的1/100到1/1000。
7 结论
为了降低数据中心中的数字算术处理功耗,我们寻求用晶体IO FET制成的存储器替换基于Si的DRAM和SRAM,这些存储器具有低Ioff值和高Ion值。我们还希望通过AiMC将数字算术处理替换为模拟算术处理。我们原型化的晶体IO FET在功耗和性能方面都达到了理想状态。晶体IO FET 2Tr1C存储器的运行速度非常高,它们不仅有可能取代DRAM,还有可能取代SRAM。此外,以模拟方式执行AI算术运算所需的MAC操作可以大幅节省功耗。当这些存储器和AiMC单元使用晶体IO FET以横向结构制造并在Si LSI电路上多层堆叠时,将实现高度集成且低功耗的AI系统,这应该是全球性的应对措施之一。
利益冲突声明
作者声明没有利益冲突。
数据可用性声明
支持本研究发现的数据可在合理请求下从相应作者处获得。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号