SIMMAC:基于SRAM IMC的多位乘法算法,采用模拟进位计算

【字体: 时间:2026年02月13日 来源:IEEE Embedded Systems Letters 2

编辑推荐:

  本文提出一种基于8T SRAM的内存计算加速器SIMMAC,通过创新输入输出映射策略和模拟进位计算方法,无需DAC电路和数字加法器,实现多比特矩阵乘法的直接内存计算。在65nm工艺下,该架构在40ns内完成全片计算,达到819.2 GOPS能效,并成功应用于CNN分类任务。

  

摘要:

从人工智能到加密等多个应用领域都需要进行密集的多比特矩阵乘法运算。随着大数据应用和边缘计算的兴起,最近的研究重点转向了诸如内存计算(In-Memory Computing, IMC)这样的节能计算方法。在这项工作中,我们提出了一种基于Typo SRAM IMC的多比特乘法算法——SIMMAC,该算法采用模拟进位计算(Analog Carry Computation)技术,是一种新型的8T SRAM架构下的IMC加速器,能够实现可重构位精度的多比特乘法运算。为了解决当前IMC架构面临的问题,我们提出了一种新的输入和权重映射策略,并结合了模拟进位加法技术来优化内存计算过程。这种输入和权重映射策略使得整个实现无需使用DAC(数模转换器),从而在面积和功耗方面提升了IMC宏单元的性能。所提出的模拟进位加法方法能够在IMC宏单元内部完成多比特乘法运算,无需依赖外部的数字移位加法电路。通过对卷积神经网络(CNN)工作负载的分析,我们的架构能够在40纳秒的单个周期内完成所有 tile 的矩阵向量乘法(Matrix Vector Multiplication, MVM)运算。在TSMC 65纳米工艺节点下,该架构在MNIST分类任务上实现了98%的准确率,运行频率为200 MHz时,性能达到了819.2 GOPS(每秒浮点运算次数)和56.5 TOPS(每瓦特浮点运算次数)。

引言

边缘人工智能(edge-AI)应用的发展要求开发出高效且快速的架构,以支持实时部署的CNN工作负载。目前已有多种内存计算(IMC)架构被用于支持多比特精度的CNN网络[1]。然而,现有的最先进架构仍面临一些挑战:许多方案需要通过电压调节来提供输入信号,这会导致DAC电路的使用,而这些电路会占用IMC宏单元约15%的面积和约50%的功耗[2][3]。此外,基于电荷的方案还需要额外的硬件和复杂的控制电路来控制IMC列之间的电荷共享,以实现部分乘积的累积[4]。基于电荷的方案在电荷共享过程中会消耗更多时间,从而增加延迟并降低吞吐量[5][6]。像[1]中提到的基于电荷的SRAM IMC方案,虽然使用了数字移位加法电路来计算最终结果,但这不仅会增加功耗和面积,还会引入计算延迟。为了解决这些问题,我们在本研究中提出了三管齐下的方法:首先,我们提出了一种新的输入和权重映射策略,消除了对DAC电路的需求,使得可以直接在内存中进行4比特乘法运算;其次,所提出的模拟进位计算方法能够在内存中直接计算出最终结果,而无需使用数字移位加法电路;最后,我们提出的分层架构和CNN网络的工作负载映射方式显著提升了CNN层的计算效率、资源利用率和吞吐量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号