预训练的语言模型(PLMs)在自然语言处理任务中表现出色,但它们庞大的内存需求带来了挑战(Devlin等人,2019年;He等人,2021年;Liu等人,2019年;Radford等人,2019年)。对预训练模型进行微调以适应多种任务非常耗内存,因为每个任务都需要单独的模型副本,使得全面微调成本高昂且不切实际。为了解决这个问题,开发了参数效率高的微调方法,例如Adapter Tuning(Houlsby等人,2019年;Kang等人,2024年;Kim等人,2024年),这些方法仅调整轻量级模块,同时保持主模型不变。其中,低秩适应(LoRA)(Hu等人,2022年)是一种非常有效的技术,它通过优化低维矩阵来适应预训练模型,显著降低了计算开销。与传统方法不同,LoRA不会插入额外的神经模块,也不会导致延迟。
然而,一个关键挑战在于确定最佳的内在秩 r,这在不同的模型和任务中是变化的。尽管LoRA在效率和可管理性方面表现出改进,但在选择最佳秩方面的灵活性仍然有限。在实际应用中,秩通常是随机选择的,这可能导致性能不佳和效率低下。改进的方法AdaLoRA(Zhang等人,2023年)引入了自适应预算分配机制,根据不同任务或模型层的重要性动态调整参数分布(Ding等人,2023年;Zhang等人,2024年)。这种方法确保在有限的参数预算内,最关键的组件获得更多资源,从而提高整体性能。然而,尽管这些方法提出了合理的分配方案,但它们忽略了秩的质量。在分配之前提高秩的有效性有助于提升性能。
在模型剪枝的背景下,根据参数的重要性删除冗余参数,同时保留对模型性能有显著贡献的参数。模型剪枝的基本思想是对大规模神经网络进行结构修改,以获得更小的模型(Benedek和Wolf,2024年;Liu, Li, Shen, Huang, Yan, Zhang, 2017年;Liu, Sun, Zhou, Huang, Darrell, 2019年)。通过评估并移除对性能影响最小的冗余参数和网络连接,剪枝后的模型显著减少了参数数量,同时保持了与原始模型相当的性能。该过程通常首先训练一个高性能的大模型,然后进行剪枝以优化其大小和参数使用(Luo和Wu,2017年;Zhou等人,2025年)。
在这项工作中,我们探讨了秩效率属性,以回答以下问题:如何在原始参数预算内提高适配器的表示能力?为此,我们采用模型剪枝技术(Janowsky,1989年;Mozer和Smolensky,1989年)来研究秩 r 的效率。这包括两个步骤:首先,构建并训练一个具有更高维度表示的深度神经网络,以更好地捕捉复杂的数据分布;其次,在训练过程中进行秩剪枝和稀疏化,保留对性能至关重要的秩,同时消除冗余组件。
通过模型剪枝提取有效秩的过程会导致神经元的不平滑性(Venkatesh,1993年)。我们的创新还在于如何反向传播这些不平滑神经元的梯度。我们提出了稀疏精炼的直通估计器(SR-STE),这是直通估计器(STE)(Bengio等人,2013年;Rastegari等人,2016a)的改进版本。SR-STE提供了一种处理不平滑神经元中不可微分操作的方法,有效解决了STE中的梯度偏差问题,并实现了损失函数梯度的更准确估计。通过使用基于二进制矩阵的正则化,SR-STE指导并纠正了梯度更新的方向,使重要秩的更新步长更大(Cheng等人,2015年;Zhou等人,2021年)。总之,EfficientLoRA的贡献如下:
• 我们提出了EfficientLoRA,它通过秩扩展和秩缩减来提取有效的参数信息,从而实现高效的低秩适配器。
• EfficientLoRA引入了稀疏精炼的直通估计器(SR-STE),有效处理由模型稀疏化产生的不平滑神经元的梯度反向传播。
• 我们的方法在训练过程中扩展了秩,允许更高效的信息流动,并在推理时提高模型准确性,而不会增加参数数量。