
-
生物通官微
陪你抓住生命科技
跳动的脉搏
用于末级缓存的单片堆叠式增益单元存储器的优化与基准测试
【字体: 大 中 小 】 时间:2026年02月13日 来源:IEEE Transactions on Computers 3.8
编辑推荐:
本文探讨基于无定形氧化物半导体(AOS)的3D集成双晶体管增益单元(2T-GC)在最后级缓存(LLC)中的应用,通过开发NS-Cache工具和Gem5仿真器,系统比较了高密度SRAM、MRAM、eDRAM等方案的性能与能效,提出3D堆叠与先进封装是提升缓存密度和带宽的关键路径。
由于人工智能(AI)、机器学习(ML)和科学计算领域的创新,对计算能力的需求持续增长,预计高性能系统将达到泽塔级别(10^21次操作/秒)[1]。计算性能的提升伴随着对最后一级缓存(LLC)内存带宽和容量的更高要求。这主要是由于外部芯片内存(HBM)具有更强的带宽能力、系统架构和通信范式的变化(例如CXL [2])加剧了LLC的数据流量,以及数据密集型工作负载(如AI/ML和科学计算应用)的普及和需求增加。为了降低LLC的误取率,从而减少昂贵的外部芯片内存访问成本(包括能耗和延迟),构建超高容量的LLC变得至关重要。然而,当前主流的FinFET代高密度(HD)SRAM在7纳米、5纳米和3纳米节点上的缩放速度较之前几代显著减缓(见图1(a))。例如,台积电报告的最小HD SRAM单元面积从5纳米(N5)的0.021 μm^2缩小到3纳米(N3B)的0.0199 μm^2 [3]。因此,现代处理器中可能有高达50-70%的硅面积被SRAM占据[4]。同时,由于间距减小和高电阻扩散势垒的影响,互连寄生参数不断增加,导致晶界和表面散射增加,从而延长了RC延迟。为应对这些挑战,有人建议采用双字线技术(降低WL电阻)[5]。另一种方法是采用先进的3D堆叠SRAM缓存封装技术,AMD在V-Cache中已经实现了这一技术[6]。不过,混合键合工艺目前成本较高,且键合垫的间距(约几微米)限制了芯片间的带宽。