一种用于高效深度神经网络(DNN)加速器的分组加法-乘法-移位-累加数据流处理方法
《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:A Groupwise Add–Multiply–Shift–Accumulate Datapath for Efficient DNN Accelerators
【字体:
大
中
小
】
时间:2026年05月11日
来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1
编辑推荐:
摘要:乘法-累积(MAC)单元在现代深度神经网络(DNN)加速器中占据了大量的功耗和面积。尽管低比特宽度量化可以减少硬件开销,但乘法器的较高成本仍然是现代加速器数据路径中的一个根本性瓶颈。本文提出了一种加法-乘法-移位-累积(AMC)算法,该算法通过将基础乘法操作在相邻权重组之间
摘要:
乘法-累积(MAC)单元在现代深度神经网络(DNN)加速器中占据了大量的功耗和面积。尽管低比特宽度量化可以减少硬件开销,但乘法器的较高成本仍然是现代加速器数据路径中的一个根本性瓶颈。本文提出了一种加法-乘法-移位-累积(AMC)算法,该算法通过将基础乘法操作在相邻权重组之间共享,并使用轻量级的移位操作生成残差产品来减少乘法器的数量。为了支持高效部署,我们设计了一种紧凑的残差编码和缓冲组织方式,使得AMC数组的构建过程中的解码和控制开销降到最低。虽然AMC可以直接应用于现有的量化模型,但我们进一步引入了一种轻量级的残差感知微调(RAF)流程来提高AMC的兼容性。我们使用SystemVerilog实现了基于AMC的加速器,并在TSMC 28纳米CMOS技术中对其进行了合成,工作频率范围从500MHz到1GHz。在计算单元层面,与优化的基线乘法器相比,AMC可以将算术面积减少39.5%–62.8%,动态功耗减少32.2%–60.3%。当集成到CNN和视觉Transformer加速器中时,AMC能够实现更高的面积效率和更低的能源消耗,同时保持基线推理精度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号