用于末级缓存的单片堆叠式增益单元存储器的优化与基准测试

【字体: 时间:2026年02月13日 来源:IEEE Transactions on Computers 3.8

编辑推荐:

  本文探讨基于无定形氧化物半导体(AOS)的3D集成双晶体管增益单元(2T-GC)在最后级缓存(LLC)中的应用,通过开发NS-Cache工具和Gem5仿真器,系统比较了高密度SRAM、MRAM、eDRAM等方案的性能与能效,提出3D堆叠与先进封装是提升缓存密度和带宽的关键路径。

  

摘要:

最后一级缓存(LLC)是处理器内部芯片内存与外部芯片内存之间的关键桥梁,它被优化以实现高密度、高带宽和低功耗。迄今为止,高密度(HD)SRAM一直是主流选择;然而,随着晶体管缩放技术的放缓(从5纳米到3纳米,HD SRAM单元尺寸几乎没有变化),人们开始探索替代方案,例如采用先进封装技术的3D堆叠技术(如AMD的V-cache)。不断增长的数据需求促使人们开发超大容量的片上缓存,以减少昂贵的外部芯片内存访问次数,从而推动单芯片3D(M3D)集成技术的发展。在M3D集成中,晶体管可以在后端线(BEOL)的互连层进行堆叠。这种集成需要采用能够承受低温(<400°C)的制造工艺。非晶氧化物半导体(AOS)晶体管是很有前景的候选材料,尤其是在增益单元配置下,其极低的漏电流非常吸引人。本文研究了在优化适用于LLC的基于AOS的2晶体管增益单元(2T-GC)时,在器件、电路和系统层面所需要做出的权衡。为此,开发了一种名为NS-Cache的早期缓存探索工具,该工具可用于模拟先进7纳米和3纳米节点上的缓存性能,并与Gem5仿真器集成,系统地评估这种新型缓存与HD-SRAM、MRAM以及1T1C eDRAM相比在密度和性能方面的优势。

引言

由于人工智能(AI)、机器学习(ML)和科学计算领域的创新,对计算能力的需求持续增长,预计高性能系统将达到泽塔级别(10^21次操作/秒)[1]。计算性能的提升伴随着对最后一级缓存(LLC)内存带宽和容量的更高要求。这主要是由于外部芯片内存(HBM)具有更强的带宽能力、系统架构和通信范式的变化(例如CXL [2])加剧了LLC的数据流量,以及数据密集型工作负载(如AI/ML和科学计算应用)的普及和需求增加。为了降低LLC的误取率,从而减少昂贵的外部芯片内存访问成本(包括能耗和延迟),构建超高容量的LLC变得至关重要。然而,当前主流的FinFET代高密度(HD)SRAM在7纳米、5纳米和3纳米节点上的缩放速度较之前几代显著减缓(见图1(a))。例如,台积电报告的最小HD SRAM单元面积从5纳米(N5)的0.021 μm^2缩小到3纳米(N3B)的0.0199 μm^2 [3]。因此,现代处理器中可能有高达50-70%的硅面积被SRAM占据[4]。同时,由于间距减小和高电阻扩散势垒的影响,互连寄生参数不断增加,导致晶界和表面散射增加,从而延长了RC延迟。为应对这些挑战,有人建议采用双字线技术(降低WL电阻)[5]。另一种方法是采用先进的3D堆叠SRAM缓存封装技术,AMD在V-Cache中已经实现了这一技术[6]。不过,混合键合工艺目前成本较高,且键合垫的间距(约几微米)限制了芯片间的带宽。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号