用于末级缓存的单片堆叠式增益单元存储器的优化与基准测试

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：IEEE Transactions on Computers 3.8

编辑推荐：

　　本文探讨基于无定形氧化物半导体（AOS）的3D集成双晶体管增益单元（2T-GC）在最后级缓存（LLC）中的应用，通过开发NS-Cache工具和Gem5仿真器，系统比较了高密度SRAM、MRAM、eDRAM等方案的性能与能效，提出3D堆叠与先进封装是提升缓存密度和带宽的关键路径。

摘要：

最后一级缓存（LLC）是处理器内部芯片内存与外部芯片内存之间的关键桥梁，它被优化以实现高密度、高带宽和低功耗。迄今为止，高密度（HD）SRAM一直是主流选择；然而，随着晶体管缩放技术的放缓（从5纳米到3纳米，HD SRAM单元尺寸几乎没有变化），人们开始探索替代方案，例如采用先进封装技术的3D堆叠技术（如AMD的V-cache）。不断增长的数据需求促使人们开发超大容量的片上缓存，以减少昂贵的外部芯片内存访问次数，从而推动单芯片3D（M3D）集成技术的发展。在M3D集成中，晶体管可以在后端线（BEOL）的互连层进行堆叠。这种集成需要采用能够承受低温（<400°C）的制造工艺。非晶氧化物半导体（AOS）晶体管是很有前景的候选材料，尤其是在增益单元配置下，其极低的漏电流非常吸引人。本文研究了在优化适用于LLC的基于AOS的2晶体管增益单元（2T-GC）时，在器件、电路和系统层面所需要做出的权衡。为此，开发了一种名为NS-Cache的早期缓存探索工具，该工具可用于模拟先进7纳米和3纳米节点上的缓存性能，并与Gem5仿真器集成，系统地评估这种新型缓存与HD-SRAM、MRAM以及1T1C eDRAM相比在密度和性能方面的优势。

引言

由于人工智能（AI）、机器学习（ML）和科学计算领域的创新，对计算能力的需求持续增长，预计高性能系统将达到泽塔级别（10^21次操作/秒）[1]。计算性能的提升伴随着对最后一级缓存（LLC）内存带宽和容量的更高要求。这主要是由于外部芯片内存（HBM）具有更强的带宽能力、系统架构和通信范式的变化（例如CXL [2]）加剧了LLC的数据流量，以及数据密集型工作负载（如AI/ML和科学计算应用）的普及和需求增加。为了降低LLC的误取率，从而减少昂贵的外部芯片内存访问成本（包括能耗和延迟），构建超高容量的LLC变得至关重要。然而，当前主流的FinFET代高密度（HD）SRAM在7纳米、5纳米和3纳米节点上的缩放速度较之前几代显著减缓（见图1(a)）。例如，台积电报告的最小HD SRAM单元面积从5纳米（N5）的0.021 μm^2缩小到3纳米（N3B）的0.0199 μm^2 [3]。因此，现代处理器中可能有高达50-70%的硅面积被SRAM占据[4]。同时，由于间距减小和高电阻扩散势垒的影响，互连寄生参数不断增加，导致晶界和表面散射增加，从而延长了RC延迟。为应对这些挑战，有人建议采用双字线技术（降低WL电阻）[5]。另一种方法是采用先进的3D堆叠SRAM缓存封装技术，AMD在V-Cache中已经实现了这一技术[6]。不过，混合键合工艺目前成本较高，且键合垫的间距（约几微米）限制了芯片间的带宽。

联系信箱：

粤ICP备09063491号

摘要：

引言

热点排行