一种用于高效深度神经网络（DNN）加速器的分组加法-乘法-移位-累加数据流处理方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》：A Groupwise Add–Multiply–Shift–Accumulate Datapath for Efficient DNN Accelerators

【字体：大中小】 时间：2026年05月11日 来源：IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐：

　　摘要：乘法-累积（MAC）单元在现代深度神经网络（DNN）加速器中占据了大量的功耗和面积。尽管低比特宽度量化可以减少硬件开销，但乘法器的较高成本仍然是现代加速器数据路径中的一个根本性瓶颈。本文提出了一种加法-乘法-移位-累积（AMC）算法，该算法通过将基础乘法操作在相邻权重组之间

摘要：

乘法-累积（MAC）单元在现代深度神经网络（DNN）加速器中占据了大量的功耗和面积。尽管低比特宽度量化可以减少硬件开销，但乘法器的较高成本仍然是现代加速器数据路径中的一个根本性瓶颈。本文提出了一种加法-乘法-移位-累积（AMC）算法，该算法通过将基础乘法操作在相邻权重组之间共享，并使用轻量级的移位操作生成残差产品来减少乘法器的数量。为了支持高效部署，我们设计了一种紧凑的残差编码和缓冲组织方式，使得AMC数组的构建过程中的解码和控制开销降到最低。虽然AMC可以直接应用于现有的量化模型，但我们进一步引入了一种轻量级的残差感知微调（RAF）流程来提高AMC的兼容性。我们使用SystemVerilog实现了基于AMC的加速器，并在TSMC 28纳米CMOS技术中对其进行了合成，工作频率范围从500MHz到1GHz。在计算单元层面，与优化的基线乘法器相比，AMC可以将算术面积减少39.5%–62.8%，动态功耗减少32.2%–60.3%。当集成到CNN和视觉Transformer加速器中时，AMC能够实现更高的面积效率和更低的能源消耗，同时保持基线推理精度。

联系信箱：

粤ICP备09063491号

摘要：

热点排行