CGI-SRAM:一种内存单元,具有数据感知写入功能(无需位线),以及内部读取特性,适用于节能型位级逻辑运算(在内存中执行)

《Sustainable Computing: Informatics and Systems》:CGI-SRAM: Memory cell with data-aware write bitline-free and inner readout features for energy-efficient bitwise logic-in-memory operations

【字体: 时间:2026年02月11日 来源:Sustainable Computing: Informatics and Systems 3.8

编辑推荐:

  基于Gnr-GDI SRAM的内存计算架构设计及其性能验证

  
该研究针对当前内存计算架构存在的核心问题,提出了一种基于新型纳米管栅极场效应晶体管(GnrFET)的静态随机存取存储器(SRAM)结构,并在此基础上构建了具有突破性性能的内存计算系统。研究团队通过创新性的电路设计,在存储与计算融合的技术路径上实现了多项关键指标优化,为下一代低功耗高可靠性计算系统提供了新的解决方案。

一、技术背景与挑战分析
随着人工智能和机器学习应用的发展,传统冯·诺依曼架构面临显著的数据传输瓶颈和计算能效问题。具体表现为:1)内存与处理器之间的物理距离导致频繁数据搬运,增加系统延迟和能耗;2)传统6晶体管(6T)SRAM在集成计算单元时存在读/写干扰、噪声容限不足等问题;3)现有IMC架构普遍存在计算精度不稳定、面积开销过大等缺陷。特别是在先进制程下(如16纳米GnrFET工艺),传统SRAM结构在动态功耗、静态泄漏电流控制、噪声容限等方面表现不足,严重制约了内存计算的性能提升。

二、核心创新点解析
(一)GnrFET-GDI混合架构突破
研究团队创造性采用GnrFET晶体管与扩散输入(GDI)技术相结合的混合架构。GnrFET独特的碳纳米管通道结构带来超高的载流子迁移率(较传统Si-MOSFET提升2个数量级),配合GDI技术形成的对称反向器结构,显著降低了静态泄漏电流。通过蒙特卡洛模拟(3000次运行)验证,在8%-10%的工艺波动范围内,该架构的静态噪声容限(SNM)波动幅度控制在6%-8%,优于传统6T SRAM设计。

(二)无写位线(WBL-free)架构设计
提出的三维堆叠式写电路结构通过T型连接网络消除写位线依赖,将写驱动电路面积缩减67%。采用n型晶体管主导的写控制网络,有效解决了p型晶体管暗电流过大的技术瓶颈。实测数据显示,在0.85V供电电压下,写静态噪声容限(WSNM)达到0.425V(超过50% Vdd),较传统设计提升32%。

(三)浮动读出隔离技术
在存储单元内部集成浮动反相器(Float Inverter),通过三明治式结构实现读路径与外围电路的物理隔离。该设计不仅消除传统预充电电路,更将读静态噪声容限(RSNM)提升至0.48V(占Vdd的56.8%),同时使软错误率降低至10^-7量级,达到工业级可靠性标准。

(四)计算单元的布尔函数集成
创新性地将基础逻辑运算(AND/NOR/NOT)嵌入存储单元架构,形成可并行处理异或(XOR)、与非(NAND)等核心逻辑的计算单元。特别设计的交错位线(Odd/Even Bit Interleave)结构,使计算功能无需额外面积开销,即可实现全布尔运算功能。实测表明,在2.88GHz时钟频率下,XOR运算成为性能瓶颈,但整体吞吐量仍达每周期1.2次有效计算。

三、系统架构与实现
(一)双模工作架构
系统支持两种独立工作模式:1)内存模式(Memory Mode)下,保持传统SRAM的高密度存储特性,写操作采用动态自刷新机制,无需额外驱动电路;2)计算模式(Compute Mode)启用内嵌逻辑单元,通过行列地址译码器的智能切换,实现存储单元的即时计算。

(二)交错存储阵列设计
128×64的8KB阵列采用奇偶位线交错布局,每个存储单元(4×4矩阵单元)配备独立计算模块。这种设计在保证数据完整性的同时,将计算单元密度提升至传统架构的3.2倍,位线交叉干扰降低78%。

(三)动态功耗管理机制
通过写操作自适应电压调节(ASV)技术,在保持0.8V最低运行电压的前提下,动态调整存储单元供电。该机制使总静态功耗降低至2.3mW(占系统总功耗的18%),动态功耗控制在5.7mW(占系统总功耗的42%)。

四、实验验证与性能对比
(一)全参数PVT分析
在0-85℃温度范围、±10%电压波动条件下,系统持续运行3000次蒙特卡洛模拟。关键指标表现如下:
1. 可靠性:存储保持时间(数据稳定性)达2.1ms,较传统SRAM提升3.8倍
2. 动态性能:最大运算频率2.88GHz(受限于XOR门延迟)
3. 能效比:每操作能量(EPO)降至0.75pJ,较同类系统降低35.4%
4. 系统吞吐量:每时钟周期完成1.2次有效计算(含存储更新)
5. 错误率:计算错误率(CER)<10^-4,软错误率(SER)<10^-7

(二)与现有架构对比
1. 对比传统6T SRAM:面积减少42%,动态功耗降低31%,但计算功能缺失
2. 对比10T SRAM:面积缩减28%,PDP(功耗-延迟积)降低37.16%,同时实现完整布尔运算
3. 对比最新IMC架构(2023年):QF_CiM指标提升1.88倍,EPO降低35.4%,CER降低两个数量级

五、技术优势与产业化潜力
(一)三维堆叠架构优势
通过GnrFET的异质集成技术,实现存储单元与计算模块的垂直集成。实测表明,在16纳米工艺下,这种三维结构使系统延迟降低63.11%,同时保持存储密度与计算吞吐量的平衡。

(二)抗干扰能力提升
采用双阈值电压控制(Vth_high=0.45V,Vth_low=0.28V)和写操作自校准技术,使系统在±10%电压波动下的功能稳定性提升2.3倍。特别设计的对称反向器结构,有效抑制了相邻单元的漏电流串扰。

(三)能效指标突破
在单周期双模工作(存储+计算)模式下,系统能效比达到传统架构的1.8倍。实测数据表明,在典型工作负载下,单位计算能量仅为0.75pJ,较最优IMC方案降低35.4%。

(四)可扩展性设计
模块化的存储单元架构支持4KB到256MB的容量扩展,通过行列地址译码器的层级化设计,系统延迟与规模呈线性增长关系(斜率0.78)。这种扩展性使架构适用于从边缘计算到云端的不同场景需求。

六、未来技术演进方向
研究团队指出,下一阶段将重点突破以下方向:
1. 构建GnrFET与碳纳米管异质集成存储单元,目标将存储密度提升至1TB/cm3
2. 开发自适应阈值控制算法,实现电压范围从0.4V到1.2V的全覆盖
3. 研发基于量子门电路的计算单元,目标将计算吞吐量提升至每周期5次
4. 完善ECC(错误校正码)方案,将当前10^-7的软错误率目标提升至10^-15

该研究不仅验证了GnrFET在先进存储计算领域的可行性,更通过系统性创新解决了内存计算架构中的核心矛盾。其提出的无写位线隔离技术、浮动读出机制和布尔运算集成方案,为构建下一代低功耗智能计算系统提供了可复用的技术范式。实测数据表明,在典型16纳米工艺下,系统综合性能指标达到现有最优方案的1.5-2.0倍,展现出良好的产业化前景。后续研究将重点解决多比特运算精度、温度梯度下的稳定性优化等问题,推动该架构向实际应用转化。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号