GCL:适用于稀疏大型语言模型(LLMs)的群体共享持续学习微调方法
《Neurocomputing》:GCL: Group-shared continual learning fine-tuning for sparse LLMs
【字体:
大
中
小
】
时间:2026年02月03日
来源:Neurocomputing 6.5
编辑推荐:
针对稀疏大语言模型在持续学习中的性能退化与灾难性遗忘问题,提出GCL框架。该框架通过依赖感知的行-列优化参数和组共享策略实现权重训练而非稀疏掩码调整,结合生物启发的突触可塑性机制,将计算复杂度从O(N2)降至O(N)。实验表明GCL在7B到70B参数规模的LLaMA模型上显著优于基线方法,有效平衡性能与效率并兼容多种稀疏结构。
王彦哲|尹宝群
中国科学技术大学,金寨路,合肥,230026,安徽,中国
摘要
大型语言模型(LLMs)在多种任务中表现出色,但由于其庞大的规模,在部署过程中面临挑战。一次性剪枝通过引入参数稀疏性来降低计算成本,但剪枝后的模型通常会遭受性能下降,需要进一步微调。现有的针对稀疏模型的微调方法(如DS?T [1])使用启发式算法来更新稀疏性掩码。这些方法采用近似策略而无需训练,可能导致次优结果。此外,在持续的任务微调过程中,掩码更新的累积可能会导致灾难性遗忘,因为新的更新会覆盖之前的配置。为了解决这些问题,我们提出了群共享持续学习(GCL)框架,这是一种专为稀疏LLMs设计的微调框架。GCL通过训练来更新模型权重,而不是修改稀疏性掩码,从而在保持稀疏性的同时避免次优解。该框架利用依赖感知的行-列优化参数和组间共享策略,在性能和效率之间取得平衡。此外,为了减轻灾难性遗忘,我们将参数正则化建模为受生物启发的突触可塑性,并通过泰勒展开误差导出梯度感知的约束。与其他基于Hessian矩阵的方法[2]相比,我们的方法将计算复杂度从O(N^2)降低到O(N)。GCL兼容多种稀疏性配置,包括非结构化和N:M格式,并能无缝集成现有的剪枝技术。在LLaMA-V1/V2模型上的实验评估表明,GCL在性能恢复和跨任务稳定性方面优于以往的方法,同时保持了模型稀疏性。
引言
预训练的大型语言模型(LLMs)[3] [4]由于参数庞大而在部署过程中面临挑战,这促使人们采用一次性剪枝[5] [6]来移除连接同时保留功能。然而,最近的研究[7]表明,过于激进的稀疏化会导致剪枝后的性能大幅下降,因此需要微调以实现有效恢复。
现有的微调方法(例如LoRA [8])将密集参数更新引入预训练权重,这会破坏模型的稀疏性并导致灾难性遗忘,严重损害泛化能力。这需要专门为稀疏LLMs设计的保持稀疏性的微调框架。
目前关于稀疏LLMs微调的研究仍然有限,DS?T [1]是一种著名的启发式方法,它重新分配稀疏掩码以恢复特定任务的性能。然而,这种方法存在两个关键限制:首先,其无参数机制在扩展到大型微调数据集时会导致性能饱和;其次,顺序任务适应会导致掩码位置重叠,从而根本限制了持续学习的能力。
为了解决这些挑战,我们提出了群共享持续学习(GCL)——一种专为稀疏LLMs设计的保持稀疏性的持续学习框架。在针对当前任务的微调过程中,我们的方法利用从LLM推理动态中提取的依赖感知特征来设计双方面(行-列)优化参数。通过将特定任务的适应性与冻结的基础参数相乘整合,我们在不改变原始稀疏架构的情况下保持了模型稀疏性,并实现了参数高效的调整。此外,我们引入了一种块级参数共享机制,利用权重矩阵内的通道间相似性,实现了适应灵活性和计算复杂性之间的平衡。
此外,在持续任务微调的背景下,我们借鉴了生物突触机制[9]的见解,并将微调后的参数建模为特定任务的神经突触。通过分析参数调整对任务性能的影响,我们使用任务感知的正则化方法模仿生物突触可塑性动态。具体来说,我们利用泰勒展开误差导出参数重要性指标,建立了优先保留先前任务关键知识的梯度感知约束。与以往基于Hessian矩阵的方法[2]相比,我们的方法将计算复杂度从O(N^2)降低到O(N)。
我们的方法与多种训练后剪枝策略[5] [6]兼容,并支持包括非结构化[10]和N:M结构化稀疏性[11]在内的多种稀疏性格式。图1展示了在持续学习范式下微调工作流的比较。与DS?T和其他基于掩码的传统微调方法不同,GCL采用以权重为中心的微调策略——保持掩码位置的同时动态调整保留的值。这种设计理念通过参数叠加实现了跨序列任务的知识积累,而不是完全覆盖之前的微调状态。这样的架构在适应新任务的同时保持了历史知识,显示出更强的兼容性。
我们工作的关键贡献体现在三个方面:
•我们提出了一种新的参数配置策略,用于稀疏LLM的微调,利用了推理计算的内在特性。这包括为不同的权重矩阵引入行和列特定的适应参数,并结合参数共享机制,以实现计算成本和模型精度之间的最佳平衡。
•基于对突触可塑性的生物学见解,我们通过泰勒展开误差开发了梯度感知的正则化方法。这种方法将计算开销从二次方的O(N^2)降低到线性的O(N),显著提高了效率,优于传统的约束方法。
•作为一项开创性工作,我们将持续学习原理整合到了稀疏LLM的优化中。我们的实验证明了GCL在多种架构(包括LLaMA-V1和V2系列模型,参数规模从7B到70B)中的有效性,验证了该方法对大规模稀疏语言模型的广泛适用性。
部分片段
大型语言模型中的稀疏性
深度学习压缩方法[12] [13]大致分为结构化和非结构化两类。非结构化剪枝[14]通过消除单个权重元素来实现细粒度稀疏性,在模型压缩和精度保持方面表现出优于结构化方法的性能。随着压缩技术的进步,N:M稀疏模式[10] [11]已成为一种重要的压缩范式。
方法
在本节中,我们介绍了群共享持续学习(GCL)框架,该框架在保持模型稀疏性的同时支持顺序任务适应。第3.1节介绍了一种轻量级的参数化策略,使用共享的适应参数来保持优化过程中的结构完整性。第3.2节中的梯度感知正则化机制结合了特定任务的约束,以减轻灾难性遗忘。最后,整体
实验
本节展示了我们在多个维度上的实验结果。第4.1节概述了设置,包括数据集、指标和训练程序。第4.2节评估了语言建模性能,强调了优势和对基准的比较。第4.3节测试了持续学习能力,重点关注适应性和知识保留。第4.4节分析了零样本泛化,而第4.5节提供了消融研究以分离各个组件的贡献。
结论
本文介绍了一种名为群共享持续学习(GCL)的新框架,用于稀疏大型语言模型(LLMs)的微调。与在训练过程中修改稀疏性掩码的传统方法不同,GCL在通过特定任务优化更新模型权重的同时保持稀疏性。通过结合依赖感知的参数更新和组间共享,GCL在性能和效率之间取得了平衡。受生物启发的突触可塑性机制进一步将计算复杂度降低到
CRediT作者贡献声明
王彦哲:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,方法论,调查,数据整理。尹宝群:监督,软件,资源获取,概念化。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
王彦哲于2021年在中国科学技术大学获得了自动化学士学位。他目前正在中国科学技术大学的自动化系攻读博士学位。他的近期研究兴趣主要包括模型压缩和微调。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号