TT-RRAM:通过在RRAM加速器上进行融合处理,共同提升张量训练推理中的稀疏性和重复性

《IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems》:TT-RRAM: Joint Improvement of Sparsity and Repetition in Tensor-Train Inference With Fused Processing on RRAM Accelerators

【字体: 时间:2026年03月24日 来源:IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 2.9

编辑推荐:

  降低模型存储需求但存在数据移动频繁的TT-DNNs,通过RRAM加速器利用存算一体实现高效推理,提出基偏移分裂、逆输入重用和融合调度方法解决低稀疏性、低输入稀疏和高数据依赖问题,实验显示性能提升3.44-5.53倍,能效节省55.6%-67.1%,存储开销降低66.7%-99.1%。

  

摘要:

利用张量列车分解(Tensor-Train Decomposition,简称TT-DNN)压缩深度神经网络(Deep Neural Networks)可以显著减小模型体积,从而降低存储需求,但会在推理过程中导致更频繁的数据传输。为了解决这个问题,基于阻变随机存取存储器(Resistive Random Access Memory,简称RRAM)的深度神经网络加速器通过利用内存计算(Computing-in-Memory)技术,可以减少数据传输,并高效执行推理过程中所需的向量-矩阵乘法(Vector-Matrix Multiplication,简称VMM)操作,使其成为加速TT-DNN推理的理想选择。然而,基于RRAM的加速器在TT格式的DNN推理中面临三个挑战:1) RRAM交叉阵列上的权重分布稀疏度低且重复性强;2) 输入数据的稀疏度低;3) 推理过程中数据依赖性强且存储开销大。为了解决这些挑战,我们提出了三种相应的方法:1) 基础偏移分割(Base-Offset Splitting,简称BOS)来改善交叉阵列上的权重分布,从而提升性能潜力;2) 逆输入重用(Inverse-Input Reusing,简称IIR)来提高推理过程中的输入数据稀疏度;3) 融合调度(Fused Scheduling,简称FS)来重新组织计算顺序,并利用基于RRAM的加速器的并行处理能力,以提高整体推理效率,同时减少数据依赖性和存储开销。实验结果表明,与现有的基于RRAM的加速器相比,我们提出的方法实现了高达3.44倍到5.53倍的性能提升,以及55.6%至67.1%的能耗节省,同时存储开销减少了66.7%至99.1%。

引言

随着深度神经网络(DNN)在各个领域的应用日益广泛,其模型规模持续扩大,导致模型复杂度和存储需求不断增加,这限制了它们的实际应用。为了减小模型体积,张量列车(Tensor-Train,简称TT)分解技术被引入作为一种有效的DNN模型压缩方法[1][2][3][4]。TT分解将高维张量(如DNN权重参数)压缩为低维张量的乘积。通过TT分解压缩的DNN被称为TT-DNN。这些模型在保持模型精度的前提下显著降低了存储需求。例如,对VGG16的全连接(Fully Connected,简称FC)层应用TT分解后,压缩率达到了50%,同时仅损失了1.3%的精度[2],展示了出色的压缩效果和模型精度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号