TT-RRAM：通过在RRAM加速器上进行融合处理，共同提升张量训练推理中的稀疏性和重复性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems》：TT-RRAM: Joint Improvement of Sparsity and Repetition in Tensor-Train Inference With Fused Processing on RRAM Accelerators

【字体：大中小】 时间：2026年03月24日 来源：IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 2.9

编辑推荐：

　　降低模型存储需求但存在数据移动频繁的TT-DNNs，通过RRAM加速器利用存算一体实现高效推理，提出基偏移分裂、逆输入重用和融合调度方法解决低稀疏性、低输入稀疏和高数据依赖问题，实验显示性能提升3.44-5.53倍，能效节省55.6%-67.1%，存储开销降低66.7%-99.1%。

摘要：

利用张量列车分解（Tensor-Train Decomposition，简称TT-DNN）压缩深度神经网络（Deep Neural Networks）可以显著减小模型体积，从而降低存储需求，但会在推理过程中导致更频繁的数据传输。为了解决这个问题，基于阻变随机存取存储器（Resistive Random Access Memory，简称RRAM）的深度神经网络加速器通过利用内存计算（Computing-in-Memory）技术，可以减少数据传输，并高效执行推理过程中所需的向量-矩阵乘法（Vector-Matrix Multiplication，简称VMM）操作，使其成为加速TT-DNN推理的理想选择。然而，基于RRAM的加速器在TT格式的DNN推理中面临三个挑战：1) RRAM交叉阵列上的权重分布稀疏度低且重复性强；2) 输入数据的稀疏度低；3) 推理过程中数据依赖性强且存储开销大。为了解决这些挑战，我们提出了三种相应的方法：1) 基础偏移分割（Base-Offset Splitting，简称BOS）来改善交叉阵列上的权重分布，从而提升性能潜力；2) 逆输入重用（Inverse-Input Reusing，简称IIR）来提高推理过程中的输入数据稀疏度；3) 融合调度（Fused Scheduling，简称FS）来重新组织计算顺序，并利用基于RRAM的加速器的并行处理能力，以提高整体推理效率，同时减少数据依赖性和存储开销。实验结果表明，与现有的基于RRAM的加速器相比，我们提出的方法实现了高达3.44倍到5.53倍的性能提升，以及55.6%至67.1%的能耗节省，同时存储开销减少了66.7%至99.1%。

引言

随着深度神经网络（DNN）在各个领域的应用日益广泛，其模型规模持续扩大，导致模型复杂度和存储需求不断增加，这限制了它们的实际应用。为了减小模型体积，张量列车（Tensor-Train，简称TT）分解技术被引入作为一种有效的DNN模型压缩方法[1][2][3][4]。TT分解将高维张量（如DNN权重参数）压缩为低维张量的乘积。通过TT分解压缩的DNN被称为TT-DNN。这些模型在保持模型精度的前提下显著降低了存储需求。例如，对VGG16的全连接（Fully Connected，简称FC）层应用TT分解后，压缩率达到了50%，同时仅损失了1.3%的精度[2]，展示了出色的压缩效果和模型精度。

联系信箱：

粤ICP备09063491号

摘要：

引言

热点排行