WLR：一种条件良好的线性重构方法，用于无需训练即可对大型语言模型（LLMs）进行剪枝

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：WLR: Well-conditioned Linear Reconstruction for Retraining-free Pruning of LLMs

【字体：大中小】 时间：2026年03月16日 来源：Neural Networks 6.3

编辑推荐：

　　LLMs结构化剪枝补偿方法WLR通过线性组合保留通道避免参数增加，并解决病态矩阵导致的优化不稳定问题，在多个模型和基准测试中表现优于现有方法。

李思琪|向静阳|魏家腾|朱成瑞|杨建堂|陈军|杨健|魏晓斌|姜云亮|刘勇

浙江大学网络系统与控制研究所，杭州，310027，中国

摘要

结构化剪枝被广泛认为是减少大型语言模型（LLMs）规模和计算需求的有效方法。传统上，结构化剪枝遵循预训练-剪枝-再训练的框架。鉴于LLMs再训练的高成本，最近的研究集中在寻找高效的补偿方法来替代再训练阶段。然而，许多补偿方法会在剪枝后的模型中引入额外参数，这会影响模型的部署和推理性能。此外，许多补偿技术在解决优化问题时忽略了LLMs中异常值导致的病态条件问题，从而导致数值不稳定和解决方案效率低下。为了克服这些挑战，我们提出了“条件良好的线性重构”（WLR）方法，这是一种避免引入额外参数的结构化剪枝补偿技术。WLR通过保留的通道的线性组合来重构剪枝后的层，并解决了病态条件问题。我们在LLLaMA-V1/V2/V3和OPT系列模型上对这种方法进行了评估，在多种语言任务中取得了超越现有最佳方法的性能。

引言

大型语言模型（LLMs）在各个领域都取得了显著的性能。许多前沿模型（Brown等人，2020年；Bubeck等人，2023年；Dubey等人，2024年；Touvron, Lavril, Izacard, Martinet, Lachaux, Lacroix, Rozière, Goyal, Hambro, Azhar等人；Touvron, Martin, Stone, Albert, Almahairi, Babaei, Bashlykov, Batra, Bhargava, Bhosale等人；Zhang等人，2022年）被广泛应用于自然语言理解、机器翻译和内容生成等任务（Mihaylov等人，2018年；Sakaguchi等人，2021年；Zellers等人，2019年；Zhang等人，2023年）。然而，LLMs的成功是以巨大的计算资源为代价的。通常，LLMs包含数十亿个参数，这意味着它们不仅需要大量的训练资源，部署预训练模型也会产生显著的成本。此外，LLMs还具有较高的内存和处理需求，这不仅增加了硬件成本，还提高了能耗。

为了解决上述问题，研究人员正在探索模型压缩技术以减少LLMs的规模和计算需求。已经提出了许多LLMs的压缩方法，包括剪枝、量化和知识蒸馏（Ashkboos等人，2024年；Frantar和Alistarh，2023年；Frantar等人，2022年；Hu等人，2021年；Lee等人，2023年；Lin等人，2023年；Xiao等人，2023年）。在这些方法中，剪枝被认为是一种有效减少模型参数数量和计算量的方法。剪枝通过移除参数来减小模型规模。根据参数移除的粒度，剪枝可以分为两类：结构化剪枝和非结构化剪枝。由于非结构化剪枝通常会导致不规则的稀疏模式，并且需要专门的硬件支持，我们主要关注结构化剪枝。再训练是结构化剪枝后恢复模型性能的主流方法（He等人，2018年；Ma等人，2023年）。然而，预训练-剪枝-再训练的框架通常需要大量的计算开销，因此不适合大规模的LLMs。因此，许多研究集中在无需再训练的LLMs剪枝方法上（An等人，2024年；Ashkboos等人，2024年；Frantar和Alistarh，2023年；Wang, Fan, Hu, Chen, Wang, Wang, Zheng, Wan, & Zhang）。

无需再训练的剪枝方法利用补偿过程来恢复剪枝后LLMs的性能，而不是进行再训练。与再训练不同，补偿过程的计算开销很小，只需要少量的样本。由于其高效率，这种方法更适合大规模的LLMs。然而，当前的LLMs剪枝补偿方法存在一些问题。首先，虽然像SlimGPT这样的最新方法（Ling等人，2024年）成功保持了原始的参数数量，但其他代表性的补偿技术会引入额外的参数。例如，基于波动的自适应结构化剪枝（FLAP）（An等人，2024年）和基于线性插值的自适应恢复（LIAR）（Wang等人，2024a）会在原本没有偏置的线性层中引入偏置，而SliceGPT（Ashkboos等人，2024年）则通过为每个跳跃连接添加一个新的线性层来进一步处理这个问题。引入额外参数的补偿方法违背了减少参数数量的核心目标，并可能影响后续的部署和推理。其次，由于LLMs激活值中特定通道存在异常值，现有的补偿方法在解决优化问题时经常会遇到病态矩阵，导致数值不稳定和计算效率低下。

为了更好地解决现有补偿技术中的问题，我们提出了“条件良好的线性重构”（WLR），这是一种无需再训练的结构化LLMs剪枝的补偿方法，不会引入额外参数。主要贡献如下：

•
我们提出了一种不会引入额外参数的LLMs剪枝补偿方法，并提供了详细的数学推导。具体来说，我们通过保留通道的线性组合来补偿每个被剪枝的通道。
•
我们通过将异常值导致的病态条件问题转化为条件良好的问题，改进了补偿方法中的优化问题，使其更容易解决。我们提供了优化问题存在解的数学证明。
•
我们在包括OPT（Zhang等人，2022年）、LLLaMA-V1（Touvron等人，2023a）、LLLaMA-V2（Touvron等人，2023b）和LLLaMA-V3（Dubey等人，2024年）在内的多个LLMs上进行了一系列实验，涵盖了多种语言基准测试（Bisk等人，2020年；Clark等人，2018年；Mihaylov等人，2018年；Sakaguchi等人，2021年；Wang等人，2019年；Zellers等人，2019年）。与现有的最佳方法（SOTA）相比，我们的方法表现更优。

部分摘录

LLM剪枝。

许多研究表明，剪枝是减少大型语言模型规模的有效方法（An等人，2024年；Ashkboos等人，2024年；Frantar和Alistarh，2023年；Ma等人，2023年；Wang等人，2024a）。Frantar和Alistarh（2023）提出的SparseGPT使用逆Hessian矩阵进行非结构化剪枝，然后进行权重更新。LLM-Pruner（Ma等人，2023）基于梯度信息应用结构化剪枝，并通过低秩适应（LoRA）进行微调（Hu等人）

背景和符号说明

考虑一个由L层组成的大型语言模型（LLM）。每一层包含一个多头自注意力（MHA）块和一个前馈网络（FFN）块，它们通过层归一化（LayerNorm）层连接。如图1左侧所示。

对于第?层，MHA块可以表示为：

{\begin{matrix} X_{h e ad}^{?} = Attn (W^{q} X^{?}, W^{k} X^{?}, W^{v} X^{?}) \\ X^{? + 1} = W^{ou} X_{h ad}^{?} + b^{o u} \end{matrix}

其中

X^{?} \in R^{D \times N}

是输入张量，D是嵌入维度，N是序列长度。Attn表示多头

逐层线性重构

在剪枝-重构过程之前，第?层的第k个输出通道可以表示为：

X_{k}^{? + 1} = \sum_{j = 1}^{C_{i n}} W_{k}^{,} ou Z_{j}^{?} + b_{o u} ? k \in [1, C_{o u}]

其中

Z_{j}^{\in}

代表第j个输入通道对应的输入。

在剪枝输入通道集

P

后，使用公式（7）进行重构，第k个输出通道可以表示为：

{\overset{?}{X}}_{k}^{? + 1} = \sum_{j = 1}^{C_{i n}} (W_{k}^{,} ou + \sum_{p \in P}^{s_{p, j}} \times W_{k}^{,})_{?}^{k}

第k个通道的重构误差?_re可以定义为：

\begin{matrix} ?_{r} & = {∥ X_{k}^{? + 1} ? {\overset{?}{X}}_{k}^{? + 1} ∥}_{2}^{2} = ∥ \sum_{p \in P} W \end{matrix}

模型和数据集

我们在一系列LLMs上评估了WLR的性能，包括OPT（Zhang等人，2022年）、LLLaMA-V1（Touvron等人，2023a）、LLLaMA-V2（Touvron等人，2023b）和LLLaMA-V3（Dubey等人，2024年）模型系列。我们的评估与现有的LLMs剪枝方法（An等人，2024年；Ashkboos等人，2024年；Wang等人，2024a）一致，包括在WikiText上的困惑度（PPL）评估（Merity等人，2016年）以及七个常识基准测试上的评估（BoolQ Wang等人，2019年）

结论

在这项工作中，我们提出了“条件良好的线性重构”（WLR），这是一种用于大型语言模型的结构化剪枝的补偿方法。WLR消除了反向传播和再训练的需要，同时避免了在剪枝后的模型中引入额外参数。该方法通过线性组合重构剪枝后的层，并确保在重构过程中缓解了病态条件问题。我们使用

CRediT作者贡献声明

李思琪：软件、资源、方法论。向静阳：形式分析。魏家腾：数据整理。朱成瑞：形式分析。杨建堂：概念化。陈军：监督。杨健：概念化、资金获取。魏晓斌：调查。姜云亮：监督。刘勇：监督。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本研究得到了中国工业控制技术国家重点实验室（项目编号ICT2024A09）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号