
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SIMMAC:基于SRAM IMC的多位乘法算法,采用模拟进位计算
【字体: 大 中 小 】 时间:2026年02月13日 来源:IEEE Embedded Systems Letters 2
编辑推荐:
本文提出一种基于8T SRAM的内存计算加速器SIMMAC,通过创新输入输出映射策略和模拟进位计算方法,无需DAC电路和数字加法器,实现多比特矩阵乘法的直接内存计算。在65nm工艺下,该架构在40ns内完成全片计算,达到819.2 GOPS能效,并成功应用于CNN分类任务。
边缘人工智能(edge-AI)应用的发展要求开发出高效且快速的架构,以支持实时部署的CNN工作负载。目前已有多种内存计算(IMC)架构被用于支持多比特精度的CNN网络[1]。然而,现有的最先进架构仍面临一些挑战:许多方案需要通过电压调节来提供输入信号,这会导致DAC电路的使用,而这些电路会占用IMC宏单元约15%的面积和约50%的功耗[2][3]。此外,基于电荷的方案还需要额外的硬件和复杂的控制电路来控制IMC列之间的电荷共享,以实现部分乘积的累积[4]。基于电荷的方案在电荷共享过程中会消耗更多时间,从而增加延迟并降低吞吐量[5][6]。像[1]中提到的基于电荷的SRAM IMC方案,虽然使用了数字移位加法电路来计算最终结果,但这不仅会增加功耗和面积,还会引入计算延迟。为了解决这些问题,我们在本研究中提出了三管齐下的方法:首先,我们提出了一种新的输入和权重映射策略,消除了对DAC电路的需求,使得可以直接在内存中进行4比特乘法运算;其次,所提出的模拟进位计算方法能够在内存中直接计算出最终结果,而无需使用数字移位加法电路;最后,我们提出的分层架构和CNN网络的工作负载映射方式显著提升了CNN层的计算效率、资源利用率和吞吐量。