EfficientLoRA:重新审视预训练语言模型中低秩适配的效率

《Neural Networks》:EfficientLoRA: Rethinking the Efficiency of Low-Rank Adaptation in Pre-trained Language Models

【字体: 时间:2026年03月15日 来源:Neural Networks 6.3

编辑推荐:

  低秩适配器(LoRA)通过引入低维矩阵减少预训练模型的计算开销,但存在选择最优秩的挑战。本文提出EfficientLoRA,结合模型剪枝思想,通过扩展秩维度并优化稀疏比,动态筛选高效参数。创新性地设计Sparse-Refined Straight-Through Estimator(SR-STE)解决非平滑神经元梯度传播问题,确保关键参数更大更新步长。实验表明在GLUE基准上,EfficientLoRA在情感分析、问答等任务中显著优于基线,并保持低秩适配器的参数量优势。

  
曹世通|张瑶|张学杰|王瑾|周晓兵
云南大学信息科学与工程学院,中国昆明650504

摘要

对预训练的语言模型进行微调以适应下游任务已成为自然语言处理中的关键范式。低秩适应(LoRA)通过引入低秩矩阵来适应特定任务,从而降低了计算和存储开销。然而,LoRA往往忽略了更有效的秩,导致微调性能不佳。因此,我们提出了EfficientLoRA,该方法受到模型剪枝的启发,旨在提取更有效的秩。我们引入了稀疏精炼的直通估计器(SR-STE),确保剪枝过程中产生的离散性仍然可训练。同时,它奖励对重要秩的更新。我们在多个预训练的自然语言理解和自然语言生成任务上进行了广泛的实验,以验证EfficientLoRA的有效性。实验结果表明,EfficientLoRA显著优于基线模型,并在三个基准测试中达到了最先进的性能水平。我们的源代码已公开提供1

引言

预训练的语言模型(PLMs)在自然语言处理任务中表现出色,但它们庞大的内存需求带来了挑战(Devlin等人,2019年;He等人,2021年;Liu等人,2019年;Radford等人,2019年)。对预训练模型进行微调以适应多种任务非常耗内存,因为每个任务都需要单独的模型副本,使得全面微调成本高昂且不切实际。为了解决这个问题,开发了参数效率高的微调方法,例如Adapter Tuning(Houlsby等人,2019年;Kang等人,2024年;Kim等人,2024年),这些方法仅调整轻量级模块,同时保持主模型不变。其中,低秩适应(LoRA)(Hu等人,2022年)是一种非常有效的技术,它通过优化低维矩阵来适应预训练模型,显著降低了计算开销。与传统方法不同,LoRA不会插入额外的神经模块,也不会导致延迟。
然而,一个关键挑战在于确定最佳的内在秩 r,这在不同的模型和任务中是变化的。尽管LoRA在效率和可管理性方面表现出改进,但在选择最佳秩方面的灵活性仍然有限。在实际应用中,秩通常是随机选择的,这可能导致性能不佳和效率低下。改进的方法AdaLoRA(Zhang等人,2023年)引入了自适应预算分配机制,根据不同任务或模型层的重要性动态调整参数分布(Ding等人,2023年;Zhang等人,2024年)。这种方法确保在有限的参数预算内,最关键的组件获得更多资源,从而提高整体性能。然而,尽管这些方法提出了合理的分配方案,但它们忽略了秩的质量。在分配之前提高秩的有效性有助于提升性能。
在模型剪枝的背景下,根据参数的重要性删除冗余参数,同时保留对模型性能有显著贡献的参数。模型剪枝的基本思想是对大规模神经网络进行结构修改,以获得更小的模型(Benedek和Wolf,2024年;Liu, Li, Shen, Huang, Yan, Zhang, 2017年;Liu, Sun, Zhou, Huang, Darrell, 2019年)。通过评估并移除对性能影响最小的冗余参数和网络连接,剪枝后的模型显著减少了参数数量,同时保持了与原始模型相当的性能。该过程通常首先训练一个高性能的大模型,然后进行剪枝以优化其大小和参数使用(Luo和Wu,2017年;Zhou等人,2025年)。
在这项工作中,我们探讨了秩效率属性,以回答以下问题:如何在原始参数预算内提高适配器的表示能力?为此,我们采用模型剪枝技术(Janowsky,1989年;Mozer和Smolensky,1989年)来研究秩 r 的效率。这包括两个步骤:首先,构建并训练一个具有更高维度表示的深度神经网络,以更好地捕捉复杂的数据分布;其次,在训练过程中进行秩剪枝和稀疏化,保留对性能至关重要的秩,同时消除冗余组件。
通过模型剪枝提取有效秩的过程会导致神经元的不平滑性(Venkatesh,1993年)。我们的创新还在于如何反向传播这些不平滑神经元的梯度。我们提出了稀疏精炼的直通估计器(SR-STE),这是直通估计器(STE)(Bengio等人,2013年;Rastegari等人,2016a)的改进版本。SR-STE提供了一种处理不平滑神经元中不可微分操作的方法,有效解决了STE中的梯度偏差问题,并实现了损失函数梯度的更准确估计。通过使用基于二进制矩阵的正则化,SR-STE指导并纠正了梯度更新的方向,使重要秩的更新步长更大(Cheng等人,2015年;Zhou等人,2021年)。总之,EfficientLoRA的贡献如下:
• 我们提出了EfficientLoRA,它通过秩扩展和秩缩减来提取有效的参数信息,从而实现高效的低秩适配器。
• EfficientLoRA引入了稀疏精炼的直通估计器(SR-STE),有效处理由模型稀疏化产生的不平滑神经元的梯度反向传播。
• 我们的方法在训练过程中扩展了秩,允许更高效的信息流动,并在推理时提高模型准确性,而不会增加参数数量。

部分摘录

基于适配器的方法

几种参数效率高的技术通过结合额外的神经组件或参数来增强主干模型,例如Adapter(Houlsby等人,2019年;Wang等人,2021年)、Prefix Tuning(Li和Liang,2021年)以及Prompt Tuning(Lester等人,2021年;Pang等人,2023年)。另一种策略是识别可以训练或剪枝的特定参数(Han等人,2021年)。研究人员对这些方法进行了多种变体优化,以提高它们的性能和效率(Hu等人)

模型结构

LoRA(Hu等人,2022年)作为瓶颈模块插入到预训练的语言模型(PLMs)中,其中瓶颈维度用 r 表示,模型维度用 {d1, d2} 表示。模型维度 {d1, d2} 根据基础模型的架构固定,而瓶颈维度 r 可以调整。在LoRA中,只有适配器层是可训练的,原始参数保持不变。可训练参数的数量决定了适配器的容量。

实验数据集

GLUE基准测试 是一个涵盖自然语言理解相关任务的广泛集合。它包括CoLA(语言可接受性)(Warstadt等人,2019年)、SST-2(情感分析)(Socher等人,2013年)、MRPC(释义检测)(Dolan和Brockett,2005年)、QQQ(问答)(Wang等人,2018a年)、QNLI(推理)(Rajpurkar等人,2016年)、RTE(推理)(Dagan等人,2005年)、MNLI(推理)(Williams等人,2018年)和STS-B(文本相似性)(Cer等人,2017年)。其广泛的覆盖范围使得

结论

在本文中,我们提出了EfficientLoRA。通过增加秩维度并同时提高稀疏比例,我们促进了多余秩的消除,从而得到了更加精简和高效的适配器。此外,我们引入了稀疏精炼的直通估计器(SR-STE),它在由于稀疏化导致的不平滑神经元存在的情况下改进了梯度反向传播过程,确保了准确和高效的训练。

CRediT作者贡献声明

曹世通:撰写——原始草稿、方法论、研究、概念化。张瑶:可视化、方法论、研究。张学杰:撰写——审阅与编辑、项目管理、资金获取。王瑾:撰写——审阅与编辑、方法论、概念化。周晓兵:撰写——审阅与编辑、项目管理、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号