动态切换SRAM/CAM/IMC的9T DST-SRAM架构设计与实现

《IEEE Transactions on Circuits and Systems for Artificial Intelligence》：2026Q1 Issue of the IEEE Transactions on Circuits and Systems for Artificial Intelligence

【字体：大中小】 时间：2026年02月22日 来源：IEEE Transactions on Circuits and Systems for Artificial Intelligence

编辑推荐：

　　本期特稿：为缓解冯·诺依曼瓶颈，提升能效，研究人员开发了DST-SRAM。该可重构9T SRAM利用动态开关技术，灵活配置为SRAM、CAM或存内计算(IMC)模式，并采用单端写入电路降低功耗。基于TSMC 40nm工艺的256×64原型验证显示，其功耗-延时积较同类先进设计降低达56%，为高能效计算提供了有效硬件方案。

随着人工智能算法在图像识别、自然语言处理等领域的突破性进展，其对计算硬件提出了前所未有的高能效与低延迟需求。传统基于冯·诺依曼架构的计算系统，由于处理单元与存储器分离，数据在两者间的频繁搬运导致了巨大的功耗与延迟开销，这一瓶颈在数据密集型的AI任务中尤为突出。因此，发展新型计算范式，例如存内计算(In-Memory Computing, IMC)，将计算单元与存储单元深度融合，直接在数据存储位置完成计算，被视为突破该瓶颈、实现下一代高能效人工智能加速的关键路径。然而，设计一种既能高效执行存内计算，又能在不同应用场景下灵活切换工作模式的存储阵列，同时保持低功耗与高密度，仍是集成电路设计领域面临的一大挑战。

为了解决这一问题，研究人员将目光投向静态随机存取存储器(SRAM)这一在片上缓存与寄存器中无处不在的核心组件。传统SRAM单元通常为6晶体管(6T)结构，设计目标是实现高密度、稳定的数据存储。若要支持存内计算或内容可寻址存储器(Content-Addressable Memory, CAM)等高级功能，通常需要增加额外的晶体管或复杂的周边电路，这不仅增加了面积和功耗，也限制了其功能灵活性。能否设计一种基础的SRAM单元，使其能够通过巧妙的电路结构，在SRAM（标准存储）、CAM（高速查找）和IMC（高效计算）三种模式间动态、高效地切换？这正是论文《Reconfigurable 9T static RAM design with dynamic switching between content-addressable memory and in-memory computing》所要探索并回答的核心问题。

为了开展这项研究，作者团队提出了一种名为“DST-SRAM”（Dynamic-Switching-Technique SRAM）的新型9晶体管(9T)SRAM架构。该架构的核心创新在于其独特的动态切换技术，允许同一个存储单元阵列在不同的时钟周期或控制信号下，被重新配置为执行不同的功能。此外，研究还采用了一种单端写入电路设计，旨在进一步降低数据写入操作时的功耗。

首先，在单元结构层面，DST-SRAM采用了9个晶体管的设计。相比于传统6T SRAM，增加的晶体管用于实现CAM模式下的并行匹配比较功能，以及IMC模式下的逻辑运算（如与、或、与非等布尔运算）功能。关键之处在于，这些额外功能并非通过完全独立的电路模块实现，而是与核心的存储节点共享部分晶体管，并通过精心设计的开关网络和控制逻辑进行功能切换。这种共享与复用机制是保证其面积效率的基础。

其次，动态切换技术是本研究的关键。研究人员设计了一套控制信号生成方案，使得存储阵列能根据外部指令，快速在三种模式间切换。在SRAM模式下，单元像传统SRAM一样进行读写；在CAM模式下，单元可以并行比较输入的关键字与存储的所有数据，并输出匹配结果，适用于高速查找表等应用；在IMC模式下，单元阵列可以直接对存储的数据执行基本的逻辑运算，将计算结果输出，从而避免了将大量数据搬运到远处算术逻辑单元(ALU)的能耗。

再者，为了优化功耗，特别是写入功耗，论文提出了单端写入电路。传统SRAM写入通常需要同时驱动一对位线(BL和BLB)进行差分写入，功耗较高。单端写入技术通过仅驱动单根位线，并利用单元内部节点的电容耦合效应来完成数据写入，显著降低了写入操作所需的动态功耗。

研究的主要技术方法包括：1. 基于TSMC 40-nm CMOS工艺进行电路设计与仿真，验证单元功能与性能；2. 设计并流片了一个256行 × 64列的DST-SRAM原型芯片，用于实际测量；3. 对原型芯片进行了全面的性能测试，包括功能正确性验证、工作频率、功耗以及在不同模式（SRAM、CAM、IMC）下的能效评估；4. 将测量结果与近年来发表的其他可重构SRAM架构进行对比分析，关键对比指标包括面积、访问时间、功耗以及功耗-延时积(Power–Delay Product, PDP)。

研究结果

1. 架构功能验证与性能

实验成功验证了DST-SRAM原型芯片能够在SRAM、CAM和IMC三种模式下正常工作。在SRAM模式下，其读写功能稳定，访问时间与传统SRAM相当。在CAM模式下，实现了并行搜索功能，匹配延迟较低。在IMC模式下，能够正确执行多种布尔逻辑运算。测试表明，所提出的动态切换控制逻辑可靠，模式转换开销可控。

2. 能效优势分析

功耗-延时积(PDP)是衡量电路能效的关键指标。测试数据显示，与最新的可重构SRAM/CAM/IMC架构相比，DST-SRAM在完成相同功能时，取得了显著的能效提升。具体而言，其功耗-延时积最高降低了56%。这一优势主要归功于几个方面：动态切换技术避免了为每种功能配备独立且冗余的电路模块，减少了总面积和寄生参数；单端写入电路有效降低了写入功耗；整体电路优化减少了不必要的信号翻转和短路电流。

3. 面积与灵活性权衡

虽然9T单元比传统6T SRAM单元面积更大，但研究通过对比指出，DST-SRAM的单元面积仍然小于或相当于那些为实现类似多功能而采用更复杂电路或分离模块的设计。更重要的是，它在一个统一的、高密度的阵列内实现了三种功能，避免了在芯片上集成多个功能异构的存储块所带来的互连复杂性和访问不一致性问题，提供了更优的功能灵活性面积比。

结论与讨论

本研究成功设计并验证了一种名为DST-SRAM的新型可重构9T SRAM架构。该架构通过创新的动态切换技术，使得同一存储阵列能够根据计算需求，灵活配置为标准SRAM、内容可寻址存储器(CAM)或存内计算(IMC)单元。配合单端写入电路，该设计在保证功能完整性与操作可靠性的同时，实现了显著的能效提升。基于TSMC 40-nm工艺的原型芯片测试表明，其功耗-延时积相比前沿的可重构SRAM设计降低最高达56%。

这项工作的意义在于，它为缓解冯·诺依曼瓶颈提供了一种切实可行的电路级解决方案。DST-SRAM架构展现出的高能效与功能灵活性，使其非常适用于对能效和实时性要求苛刻的边缘计算、物联网终端设备以及新型非冯·诺依曼计算系统。它将存储、查找和初步计算能力深度融合于一个高密度阵列中，为构建更高效、更智能的异构计算芯片奠定了基础。未来的工作可以探索将该架构与更先进的工艺节点（如28nm、16nm乃至更小）结合，进一步优化性能，并研究其在具体机器学习算法（如二进制神经网络推理）加速中的应用潜力。该研究成果已发表于《IEEE Transactions on Circuits and Systems for Artificial Intelligence》2026年第一期。

热点排行

新闻专题