通过通用线性结构正则化实现参数高效的微调,以适应高阶问题 赵博 和 欧阳伟华

《Information》:Parameter-Efficient Fine-Tuning via General Linear Structural Regularization for High-Rank Adaptation Bo Zhao and Weihua Ou

【字体: 时间:2026年05月10日 来源:Information 2.9

编辑推荐:

  ### 摘要 参数高效的微调(PEFT)使大型语言模型能够以较低的计算成本适应下游任务。作为代表性的高 Rank PEFT 方法,MoRA(用于参数高效微调的高 Rank 更新)通过压缩-变换-解压缩的重新参数化机制提高了更新的表达能力。然而,其瓶颈子空间仍然采用自由学习的线性变

  ### 摘要
参数高效的微调(PEFT)使大型语言模型能够以较低的计算成本适应下游任务。作为代表性的高 Rank PEFT 方法,MoRA(用于参数高效微调的高 Rank 更新)通过压缩-变换-解压缩的重新参数化机制提高了更新的表达能力。然而,其瓶颈子空间仍然采用自由学习的线性变换进行建模。此外,分组压缩可能会将来自不同原始方向的信息投影到共享的瓶颈坐标中,这可能会降低子空间的可分性,并导致有效更新空间的利用效率低下。为了解决这一限制,我们提出了 GL-log-MoRA,它在 MoRA 的瓶颈子空间中引入了一个可学习的通用线性变换,并应用对数行列式正则化来促进更平衡的谱结构。通过这种方式,所提出的方法在不施加硬性结构约束或导致显著内存开销的情况下,提高了方向协调性和子空间的表达能力。我们在五个基准测试上评估了 GL-log-MoRA:LogiQA、Financial PhraseBank、GSM8K、FinQA 和 HotpotQA。结果表明,在相同的参数预算下,GL-log-MoRA 在这些下游任务上获得了最佳性能,并且比 MoRA 有小幅但持续的改进。与 MoRA 相比,GL-log-MoRA 将 LogiQA 的准确率从 42.50% 提高到 45.45%,Financial PhraseBank 从 81.60% 提高到 83.02%,GSM8K 从 63.1% 提高到 64.6%,FinQA 从 10.02% 提高到 10.23%,HotpotQA 从 70.6% 提高到 70.8%。同时,平均经验有效秩指标从 1.05 提高到 2.80。GPU 内存峰值仅略有变化,从 18.21 GB 提高到 18.28 GB。

### 1. 引言
大型语言模型(LLMs),如 GPT 和 LLaMA,在各种自然语言处理任务中取得了显著的成功 [1,2]。然而,它们不断增长的参数规模使得全参数微调在存储和计算方面的成本变得非常高昂,尤其是在资源受限的情况下。因此,参数高效的微调(PEFT)已成为实际部署和高效模型专门化的重要研究方向。PEFT 通过仅训练一小部分参数来适应下游模型,同时保持主干网络不变。在现有的 PEFT 方法中,Adapter、Prompt Tuning 和 LoRA(低 Rank 适应)代表了三种广泛研究的范式。特别是 LoRA,由于其简单性、较低的内存开销以及与大规模训练的兼容性,已成为最具影响力的方法之一。通过将更新矩阵分解为两个低 Rank 因子,LoRA 显著减少了可训练参数的数量。然而,其严格的低 Rank 结构也限制了参数更新的表达能力。对于需要复杂高维变换和强大推理能力的任务,这一限制可能成为问题。为了缓解低 Rank 更新的局限,最近的研究探索了高 Rank PEFT 方法。作为代表性的高 Rank PEFT 方法,MoRA(用于参数高效微调的高 Rank 更新)用压缩-变换-解压缩机制替代了传统的低 Rank 因子分解。通过这种方式,在相似的参数预算下,它提高了更新矩阵的理论秩上限。这种设计比标准 LoRA 提供了更强的表达潜力,并展示了高 Rank 适应的前景。然而,仅提高理论秩并不能保证瓶颈子空间在优化过程中能够得到有效利用。

更具体地说,MoRA 中的瓶颈变换仍然被建模为一个在压缩子空间内没有明确结构指导的自由学习的线性映射。此外,分组压缩机制可能会将来自不同原始方向的信息混合到共享的瓶颈坐标中。结果,学习的瓶颈变换在实践中可能会表现出谱浓度、方向冗余和有效秩退化。换句话说,尽管 MoRA 扩大了潜在的更新空间,但它没有明确规定不同瓶颈方向的组织或协调方式。这一限制表明,在高 Rank PEFT 中,改进瓶颈子空间的内部结构可能与提高理论秩本身一样重要。

受此观察的启发,我们提出了 GL-log-MoRA(用于高 Rank 参数高效微调的通用线性结构正则化)。它是一种基于结构指导的高 Rank PEFT 方法,通过软性通用线性正则化来增强瓶颈子空间的利用。我们没有施加硬性的几何约束,而是在 MoRA 的瓶颈空间中引入了一个可学习的通用线性变换,并应用对数行列式正则化项来促进更平衡的奇异值结构。通过这种方式,所提出的方法在保持 MoRA 的表达灵活性的同时,提高了方向协调性和瓶颈子空间内的结构效率。本文的主要贡献如下:
- 我们提出了 GL-log-MoRA,这是一种高 Rank PEFT 框架,通过向 MoRA 中引入可学习的通用线性变换来改进瓶颈子空间的建模。
- 我们设计了对数行列式正则化机制,以减轻谱浓度和有效秩退化。这种机制在优化过程中促进瓶颈方向的更平衡利用。
- 我们在多个推理和分类基准测试上进行了实验,并提供了效率和谱分析。结果表明,在相同的参数预算下,GL-log-MoRA 一致地优于 LoRA 和 MoRA,且额外的内存成本可以忽略不计。

### 2. 相关工作
#### 2.1. 参数高效的微调
参数高效的微调(PEFT)旨在通过仅更新一小部分参数来适应大型预训练模型,从而减少优化成本、内存消耗和存储开销。在现有的 PEFT 方法中,LoRA 是最具影响力的方法之一。它将权重更新表示为两个低 Rank 矩阵的乘积,同时冻结主干网络参数,以便可以用少量的可训练参数实现下游适应,并在训练后将学习到的更新合并回原始模型 [3]。其主要优势在于简单性和效率,但严格的低 Rank 结构可能会限制参数更新的表达能力,特别是对于需要复杂变换的任务。除了 LoRA 之外,还提出了几种 PEFT 范式来降低适应成本。Adapter 将轻量级的瓶颈模块插入到 Transformer 块中,但会引入额外的推理模块并可能增加延迟 [4]。Prompt Tuning 和 Prefix Tuning 在保持主干网络冻结的情况下优化连续的任务特定向量,尽管它们在复杂推理任务上的表达能力可能受到限制,前缀标记可能会增加序列长度 [5,6]。IA3 通过学习 attention 和前馈激活的逐元素缩放向量进一步降低了参数成本,但其结构灵活性相对有限 [7]。几种基于 LoRA 的扩展进一步改进了低 Rank 更新的参数化。AdaLoRA 根据参数重要性动态重新分配秩预算 [8]。DoRA 将权重适应分解为幅度和方向组件 [9]。QLoRA 结合了量化主干权重来减少内存消耗 [10]。ReLoRA 定期合并低 Rank 更新以累积更高 Rank 的有效更新 [11]。这些方法证明了 PEFT 的有效性。然而,它们大多仍然停留在低 Rank 更新框架内,或者主要关注效率。因此,更高 Rank 更新空间的结构组织尚未得到充分探索。

#### 2.2. 高 Rank PEFT
由于严格的低 Rank 约束可能会限制表示能力,最近的研究越来越多地探索高 Rank 或全 Rank PEFT。MoRA 是这一方向上的代表性方法。与 LoRA 不同,MoRA 采用压缩-变换-解压缩机制,而不是将更新分解为两个低 Rank 矩阵,从而在相似的参数预算下提高了有效更新的理论秩上限 [12]。这种设计缓解了低 Rank 瓶颈问题,并表明,在相同的可训练参数数量下,提高有效更新秩可以提高适应能力。一些最近的方法进一步扩展了这一研究方向。RandLoRA 通过学习固定随机低 Rank 基础矩阵的线性组合来进行全 Rank PEFT,其中可训练部分仅限于对角缩放参数。这项研究表明,全 Rank 更新可以减少 LoRA 和全微调之间的性能差距,在一些要求更高的多模态任务中,这种差距几乎可以消除 [13]。HiRA 为大型语言模型引入了基于 Hadamard 乘积的高 Rank 适应机制。它通过乘法调制将学习到的更新与冻结的预训练权重结合在一起。这种设计在保持参数预算较低的情况下提高了更新的表达能力,从而证明了 Hadamard 风格高 Rank 适应的有效性 [14]。ABBA 通过将更新建模为两个独立学习的低 Rank 矩阵的 Hadamard 乘积来进一步提高表达能力。与 HiRA 不同,ABBA 完全解耦了更新和冻结的预训练权重。这使得两个组件都可以自由优化。ABBA 在算术和常识推理基准测试上报告了更强的实验表现 [15]。HyperAdapt 采取了不同的方法,通过对预训练权重矩阵进行逐行和逐列的对角缩放来进行高 Rank 适应,只需要 n × m 层的 n + m 个可训练参数。这种方法表明,高 Rank 变换可以在极小的参数开销下实现,同时与全微调和强 PEFT 基线保持竞争力 [16]。这些研究表明,高 Rank PEFT 是克服传统 LoRA 风格低 Rank 更新限制的有希望的方向。然而,现有的高 Rank PEFT 方法主要关注于扩大有效更新秩或重新设计更新形式本身。因此,它们的主要重点是扩大表达能力。相比之下,即使理论秩变得更大,瓶颈方向的内部组织在实践中可能仍然条件不足,导致谱浓度和子空间方向的有效利用不足。

#### 2.3. 基于结构的 PEFT
除了秩扩展之外,另一个重要的研究方向是利用结构信息来指导参数更新。SVFT 是一个代表性的例子:它使用预训练权重的奇异向量来构建更新方向,并仅学习少量系数,从而将原始模型的结构先验注入 PEFT [17]。这些工作表明,通过增加可训练参数的数量以及设计更好的更新方向,可以改善适应质量。相关的想法也出现在施加明确几何约束的方法中。Orthogonal LoRA 将低 Rank 矩阵限制在正交流形上,旨在稳定更新空间并减少学习方向之间的冗余 [18]。这些研究共同表明,结构先验可以帮助防止退化的更新模式,使 PEFT 更稳定和有效。然而,这些基于结构的方法与本工作考虑的问题不同。例如 SVFT 依赖于从预训练权重中提取的固定结构基础 [17],而基于正交性的方法在对优化空间施加相对硬的几何约束 [18]。现有的高 Rank 方法,包括 RandLoRA、HiRA、ABBA 和 HyperAdapt,主要通过提高有效更新的秩或重新设计参数化来提高表达能力 [13,14,15,16]。然而,它们并没有明确调节瓶颈变换的内部谱组织。因此,关键的研究空白是即使更新秩提高了,高 Rank 瓶颈子空间的内部结构仍然不够受限。为了解决这一空白,我们提出了 GL-log-MoRA,它在 MoRA 的瓶颈子空间中引入了一个可学习的通用线性变换,并应用对数行列式正则化作为软性结构先验。与仅扩大秩的方法不同,我们的方法明确改进了瓶颈方向的内部组织。与基于固定奇异向量基础的方法不同,它是在任务适应的同时学习结构变换的。此外,与硬约束方法不同,它在保持优化灵活性的同时,促进了更平衡的谱结构。

为了清晰起见,表 1 总结了上述讨论的代表性 PEFT 方法、高 Rank PEFT 方法和基于结构的适应方法。

### 3. 方法
在本节中,我们首先回顾了 LoRA 和 MoRA 的公式,并分析了 MoRA 的结构限制。基于这一分析,然后介绍了所提出的 GL-log-MoRA 方法及其正则化机制和理论见解。

#### 3.1. MoRA 的基本形式
为了明确 LoRA 和 MoRA 之间的结构差异,我们简要回顾了它们的公式。LoRA 通过向冻结的预训练权重矩阵引入低 Rank 更新来进行参数高效适应,而 MoRA 用压缩-变换-解压缩机制替代了传统的低 Rank 因子分解。给定一个冻结的预训练权重矩阵,LoRA 计算输出为:
\[ \text{Output} = B(A + \Delta W) \]
其中 \(\Delta W = BA\) 表示低 Rank 更新矩阵,\(A\) 和 \(B\) 是可训练矩阵。因此,更新矩阵的秩满足 \(\text{rank}(\Delta W) \leq r\)。为了缓解这一限制,MoRA 引入了一种结构化的重新参数化机制。具体来说,更新可以表示为:
\[ \text{Update} = B(A + \Delta W)D(A)B \]

这里,\(D\) 分别表示压缩和解压缩操作符,\(D\) 是一个可训练的平方矩阵。与 LoRA 不同,MoRA 构建了一个平方的瓶颈变换,并结合压缩和解压缩操作符将低 Rank 更新映射到更高维的内部变换空间。在相同的参数预算下,这种设计显著提高了更新矩阵的理论秩上限。有效更新秩可以大致表示为(3)式,其中d和k分别表示权重矩阵的输入维度和输出维度。这种关系表明,即使外部秩相对较小,MoRA中的结构化瓶颈变换也可以导致更高的有效更新秩。然而,较高的理论秩并不一定能保证在优化过程中有效利用瓶颈子空间。这促使我们进一步分析MoRA的结构限制。

3.2 MoRA的结构限制
尽管MoRA提高了参数更新的理论秩,但其瓶颈变换仍然被建模为一种没有明确结构指导的自由学习的线性映射。结果,在训练过程中瓶颈矩阵的奇异值可能会变得极不均衡,导致谱集中和有效秩利用率降低。此外,压缩阶段使用的是分组聚合方法。因此,来自不同原始维度的信息可能会混合到相同的瓶颈坐标中。这可能会削弱子空间方向的可分性并产生冗余更新。这些观察结果表明,仅仅提高理论秩是不够的,从而促使我们在瓶颈子空间内引入额外的结构正则化。

3.3 提出的GL-Log-MoRA方法
为了增强瓶颈子空间内的结构表达能力,我们在MoRA更新矩阵之前引入了一个可学习的一般线性变换矩阵Q。该矩阵与瓶颈子空间具有相同的维度,并初始化为单位矩阵。原始的压缩和解压缩操作符保持不变,因此所提出的修改仅作用于低维瓶颈空间内。MoRA与GL-log-MoRA之间的结构比较如图1所示。图1显示了MoRA和GL-log-MoRA之间的结构对比。设表示输入隐藏表示,表示冻结的预训练权重矩阵。 entonces,适配层的前向计算可以表示为(4)式,其中和分别表示压缩和解压缩操作符。这些矩阵是可训练的矩阵,作用于压缩后的瓶颈表示,其中表示瓶颈维度。方程(4)中的第二项表示所提方法引入的参数效益更新,可以等价地表示为(5)式,其中表示应用于输入表示的有效权重更新。

在实践中,压缩操作符将输入向量重塑为一系列低维块。具体来说,输入向量被分成长度为的连续段,然后将这些段重新塑造成一个矩阵,其中每一行对应于原始向量的一个段。因此,压缩操作符可以表示为(6)式。压缩后,对每个块应用相同的瓶颈变换,其中和因此。解压缩操作符通过连接变换后的块来恢复原始的维度布局:(7)式。在这里,表示将变换后块的行连接成一个向量,从而将块表示映射回原始空间。在这种分块压缩-变换-解压缩的实现下,得到的更新矩阵可以解释为由重复的变换块组成的块对角矩阵:(8)式。因此,所提出的GL-log-MoRA在保持MoRA高效参数化机制的同时,增强了瓶颈子空间的结构表达能力。

这里,方程(8)描述的是有效更新矩阵,而不是冻结的预训练权重。在一般情况下,如果输入隐藏表示的最后维度为,有效更新应满足条件,以便是明确定义的,并且具有与原始线性变换相同的输出维度。方程(8)中的块对角形式对应于一个简化的平方情况,仅用于阐明分块压缩-变换-解压缩机制。

为了提高所提方法的清晰度,图2展示了GL-log-MoRA的整体分块更新架构。图2显示了GL-log-MORA的整体架构。压缩和解压缩操作符保持不变,而在瓶颈子空间内的瓶颈变换从M修改为QM。为了使所提方法的训练过程更加清晰,算法1展示了GL-log-MoRA的优化过程。

3.4 一般线性结构约束的动机
为了解决上述限制,我们在瓶颈子空间引入了一个可学习的一般线性变换Q。Q不像硬性几何约束那样起作用,而是一种只在压缩空间内起作用的灵活结构变换。这种设计有两个优点。首先,它通过避免对可训练更新的过度限制来保持原始MoRA变换的表达能力。其次,它在任务特定适应之前提供了协调不同子空间方向的明确机制。通过这种方式,Q负责结构组织,而M仍然负责表达适应。这种分离允许模型在不牺牲原始瓶颈变换灵活性的情况下改进子空间利用。

3.5 对数行列式正则化
选择对数行列式正则化的动机是旨在阻止谱崩塌,同时保持瓶颈变换的高秩适应能力。相比之下,Frobenius范数惩罚主要控制整体参数的大小,而核范数惩罚倾向于偏好低秩结构,这与MoRA风格的高秩适应动机不符。在这项工作中,被设置为一个温和的正则化系数,以便结构先验不会主导任务优化,而仅引入是为了确保对数行列式计算中的数值稳定性。为了进一步稳定可学习变换Q的谱结构,我们应用了对数行列式正则化项:(9)式,其中表示正则化系数,是一个小的正常数。由于对于是对称正定的,正则化项也可以从奇异值的角度来解释。设表示Q的奇异值。那么正则化项可以表示为(10)式。这种正则化鼓励更平衡的奇异值谱,防止更新能量在少数主导方向上过度集中,并有助于保持一个条件良好的变换矩阵。

4. 实验结果与分析
4.1 实验设置
实验使用了LLaMA-3.1-8B-Instruct预训练模型。所有方法都将PEFT模块插入到Transformer注意力投影矩阵中,包括q_proj、k_proj、v_proj和o_proj。其余的骨干参数被冻结。为了公平比较,比较方法在相同的模型规模和训练配置下进行训练。我们使用AdamW优化器,瓶颈变换矩阵的学习率为2 × 10^-4,结构变换矩阵的学习率为3 × 10^-4,批量大小为4,最大序列长度为1024。所有实验都在单个NVIDIA A800 GPU上进行,使用FP16混合精度训练。

上述设置是根据常见的PEFT实践、比较的公平性和计算约束组合选择的。所有比较方法的目标模块固定为注意力投影层。这遵循了常见的LoRA风格PEFT实践[3,9,12],并确保了一致性。外部瓶颈秩被固定为,遵循之前PEFT研究[3,12]中使用的标准小秩PEFT设置,同时也能够在相同的参数预算下进行公平比较。批量大小和序列长度的选择是为了平衡单个A800设备上的上下文覆盖范围和GPU内存使用。对于GL-log-MoRA,用于的学习率略高于,以便于新引入的结构变换的优化。在结构正则化项中,对数行列式系数被设置为0.01,作为一个温和的正则化强度,以防止结构先验主导任务目标。为了评估工程效率,我们测量了每秒的平均训练吞吐量(以令牌计)。对于LLaMA-3.1-8B的注意力投影层,外部瓶颈秩在MoRA压缩-解压缩设计下对应于大约256的内部变换维度,这已经提供了相当大的表达能力。

为了清晰度和可重复性,主要实验设置在表2中进行了总结。

4.2 主要结果
总体而言,实验结果显示了三个一致的模式。首先,在相同的参数预算下,GL-log-MoRA在多个推理和分类基准测试中相对于MoRA取得了稳定的提升。其次,这些改进几乎没有额外的内存成本。第三,性能提升伴随着瓶颈子空间中更好的有效秩利用,表明所提出的结构正则化不仅改善了任务性能,还改善了内部更新结构。

如表3所示,在统一的设置r = 8下,GL-log-MoRA在主要下游基准测试中相对于MoRA取得了持续的改进。具体来说,在LogiQA上的性能从42.50%提高到45.45%,在GSM8K上从63.10%提高到64.60%。在FinQA上从10.02%提高到10.23%,在Financial PhraseBank上从81.60%提高到83.02%,在HotpotQA上从70.60%提高到70.80%。此外,与新添加的PEFT基线(包括DoRA、HyperAdapt和RandLoRA)相比,GL-log-MoRA在所有五个下游基准测试中都取得了最佳性能。这些结果表明,所提出的结构正则化可以改善不同任务设置下的高秩适应效果。

表3显示了不同PEFT方法在r = 8下的下游基准测试性能比较。在这些基准测试中,GSM8K [19]、LogiQA [20]、FinQA [21]和HotpotQA [22]是面向推理的任务,而Financial PhraseBank [23]是一个金融情感分类任务。在LogiQA和GSM8K上相对明显的提升表明,结构化约束的高秩更新对逻辑和算术推理有益。FinQA采用了严格的精确匹配指标,导致所有方法的绝对分数相对较低,但GL-log-MoRA仍然取得了最佳结果。在Financial PhraseBank上的改进进一步表明,所提出的方法不仅限于推理任务,在分类设置中也同样有效。

对于HotpotQA,不同方法之间的性能差距相对较小。这主要是因为oracle支持事实设置提前提供了支持证据,将任务难度从全多跳推理简化为答案提取。因此,对适应子空间的表示需求相对有限。尽管如此,GL-log-MoRA仍然保持了最佳性能,表明所提出的结构设计是稳定的,没有引入性能下降。

MMLU结果在不同提示设置下作为补充的合理性检查。这里,MMLU 0表示零次评估,而MMLU 5表示五次评估。不同方法的MMLU分数保持在一个相对接近的范围内,表明下游微调不会严重损害模型的一般知识能力。尽管GL-log-MoRA没有获得最高的MMLU分数,但其结果仍然与基线方法相当。

同样重要的是要注意,在MoRA风格的适应中,外部秩参数r并不等同于最终更新矩阵的真实秩。通过压缩和解压缩操作符,一个较小的外部秩可以对应于一个更大的内部变换空间。因此,当MoRA已经具有相对较高的有效秩时,改进子空间的内部组织可能比简单地增加外部秩更有效。

本文的实验旨在验证所提出的结构机制,而不是为每个基线彻底优化超参数。由于完整的多任务微调在计算上非常昂贵,因此无法对多个独立种子进行正式的统计显著性测试。尽管如此,我们还是在相同的配置下对具有代表性的基准测试进行了多次微调和评估运行。模型至少进行了三次微调,并使用确定性贪婪解码进行了三次以上的评估。报告的分数保持不变或显示出相同的整体改进趋势。因此,报告的收益应该被解释为在当前设置下的稳定经验改进,而不是统计学上证明的优越性。4.3. 效率分析如表4所示,LoRA实现了最高的训练吞吐量(2482.40令牌/秒)和最低的峰值内存使用量(18.16 GB),反映了传统低秩适应的效率优势。MoRA在内存占用上与LoRA相当接近,其峰值GPU内存仅从18.16 GB增加到18.21 GB。然而,由于额外的压缩-转换-解压缩操作,其吞吐量降低到了2271.49令牌/秒。相比之下,GL-log-MoRA将训练吞吐量进一步降低到1426.60令牌/秒。与此同时,峰值内存仅从18.21 GB略微增加到18.28 GB,增加了大约0.076 GB,或约76 MB,这不到0.5%。表4. LoRA、MoRA和GL-log-MoRA的训练吞吐量和峰值GPU内存。在实现中使用了基于步长的聚合优化,结果表明它在当前高秩设置下对内存占用的影响有限。总体而言,GL-log-MoRA保持了与原始MoRA几乎相同的内存特性,这支持了其工程实用性。吞吐量的减少主要来自于额外引入的矩阵操作和梯度传播,而不是缓存增长。就参数数量而言,GL-log-MoRA仅引入了一个额外的子空间矩阵,这相对于原始模型大小来说是微不足道的。这些结果表明了一个明确的准确性-效率权衡:当训练速度是主要关注点时,LoRA仍然是最高效的选择;而GL-log-MoRA更适合于内存预算紧张且需要稳定性能提升的场景。因此,GL-log-MoRA的主要开销来自于瓶颈转换中的额外计算,而不是内存增长。这证实了所提出方法通过牺牲训练速度来提升瓶颈子空间的利用率和获得适度但稳定的性能提升。4.4. 超参数敏感性分析为了进一步检验所提出方法的鲁棒性,我们对LogiQA进行了超参数敏感性分析,重点关注log-det正则化系数和数值稳定性常数。如表5所示,性能在一定范围内的值变化时保持相对稳定,而移除正则化会导致明显的性能下降。表5. LogiQA上log-det正则化系数的敏感性分析。表6进一步显示,在默认设置λ = 0.01下变化数值稳定性常数δ仅导致有限的性能波动,这与它作为数值稳定性项而非主要性能控制超参数的角色一致。这些结果支持了默认超参数设置的合理性和鲁棒性。4.5. 光谱分析为了进一步分析所提出方法对子空间结构的影响,我们检查了q_proj、k_proj、v_proj和o_proj处瓶颈更新矩阵的奇异值分布。具体来说,我们计算了大于0.1的奇异值数量,并将其作为有效秩的指标。所有方法都应用了相同的阈值,结果是对32层进行了平均。表7显示了从LoRA到MoRA再到GL-log-MoRA的明显渐进趋势。LoRA在所有投影层的平均有效秩值最低,仅为0.21,这表明在严格的低秩参数化下,训练后只有非常有限的更新方向有显著贡献。MoRA将平均有效秩指标提高到了1.05,表明其高秩瓶颈设计确实扩展了可用的更新子空间。然而,训练后的光谱仍然表明实际上只有有限的方向被有效利用。表7. 注意力投影层中更新矩阵的平均有效秩。相比之下,GL-log-MoRA将平均有效秩指标进一步提高到2.80,并在所有四个投影层中实现了更高的值。与MoRA相比,所提出的方法减轻了奇异值集中的问题,使得子空间方向得到更均匀的利用。这些结果表明,仅增加理论秩是不够的;瓶颈子空间的内部结构组织也很关键。引入log-det正则化后,奇异值分布变得更加平滑,这提高了子空间的表达能力,并与观察到的性能提升相符。4.6. 额外分析和讨论4.6.1. 训练损失动态为了提供相同训练预算下训练过程的补充视图,我们在表2的实验设置下绘制了不同方法在HotpotQA [22]上的训练损失曲线。由于在HotpotQA上的训练计算成本较高,我们仅展示了有限范围内的训练步骤的损失值,而不是整个收敛过程。由于时间和计算限制,显示的曲线仅反映了总训练步骤的一个子集的训练行为。因此,图3主要用于说明训练过程中损失减少的稳定性,而不是作为最终任务性能优越性的有力证据。如图3所示,LoRA、MoRA和GL-log-MoRA的训练损失都在没有明显振荡或发散的情况下稳步下降,表明在当前设置下三种方法的优化行为稳定。与LoRA和MoRA相比,GL-log-MoRA在显示的训练阶段表现出略低的训练损失。然而,由于只展示了有限数量的训练步骤,损失尚未完全平缓,这不应被解释为模型已经完全收敛的证据。同时,GL-log-MoRA和MoRA之间的最终HotpotQA性能差异很小(70.8% vs. 70.6%)。因此,应谨慎解释图3。虽然更平滑的损失减少可能表明优化行为稳定,但这并不一定转化为更好的最终任务性能。这是因为最终性能还受到泛化能力和后期训练阶段可能过拟合的影响。例如,像LoRA这样的基线可能在后续时期继续减少训练损失,但其下游性能可能由于过拟合而不再相应提高。因此,图3主要作为训练稳定性和中间优化行为的补充说明,而不是HotpotQA上最终任务性能显著提升的直接证据。图3. 在HotpotQA上从第500步开始的不同方法的训练损失曲线。4.6.2. 消融研究和与替代结构约束策略的比较为了进一步研究不同结构约束对瓶颈转换矩阵的影响,我们将GL-log-MoRA与LogiQA上的几种替代变体进行了比较。如表8所示,引入一个可学习的且不进行log-det正则化的变量将EM分数从42.50%提高到42.97%,表明额外的瓶颈转换本身有助于任务适应。表8. 不同结构约束策略在LogiQA上的比较。然后,我们评估了两种基于正交性的变体:Hard-Stiefel-MoRA通过硬正交投影对其进行约束,而Soft-Orthogonal-MoRA引入了一个软正则化项,鼓励该变量接近单位矩阵。这两种变体分别实现了43.14%和44.22%的EM分数,均优于原始MoRA基线。这一结果表明,对变量施加结构约束可以提高瓶颈子空间的利用率。然而,这两种基于正交性的变体仍然低于GL-log-MoRA的最佳成绩45.45%。这表明严格的或近似的正交性可以提供有用的结构正则化,但也可能限制瓶颈转换的灵活性。相比之下,所提出的log-det正则化提供了一种更柔和的光谱约束。它不是强制变量成为正交的,而是鼓励更平衡的光谱,同时保持变量的表达灵活性。在初步实验中,我们还尝试直接对原始MoRA更新矩阵施加正交性约束,但这种设计导致了严重的性能下降,表明直接约束变量可能会干扰其在任务特定适应中的作用。因此,我们的主要比较集中在施加于变量的结构约束上,同时保持变量为原始的MoRA更新矩阵。总体而言,这些结果表明,GL-log-MoRA的性能提升不仅仅来自于添加了一个额外的转换矩阵。相反,log-det正则化提供了比硬正交性或软正交性约束更有效的结构引导,从而实现了更好的瓶颈子空间利用率和更强的任务性能。5. 实际应用GL-log-MoRA在实际应用中对于需要在不显著增加GPU内存使用量的情况下实现适度性能提升的内存受限微调场景非常有用。由于该方法只引入了一个小的额外瓶颈空间矩阵,因此它适用于工业智能系统、财务分析、问答和决策支持应用中的大型语言模型的领域特定适应。然而,由于该方法降低了训练吞吐量,它更适合那些优先考虑内存效率和任务性能而非最大训练速度的场景。此外,GL-log-MoRA也可能适用于复杂推理任务,如多跳问答和数值推理,其中模型需要协调多个中间表示。通过引入结构化正则化,所提出的方法改善了瓶颈子空间的利用率,因此可以支持问答、对话系统和自动化决策支持系统等领域特定推理应用。此外,GL-log-MoRA还有潜力扩展到多模态学习和更大规模的适应场景。在这些设置中,计算资源和模型稳定性都是重要考虑因素。未来的工作将探索这些方向,以进一步评估GL-log-MoRA在实际和高风险环境中的适用性。还可以探索整合外部知识源和更高级的推理策略,以解决现实世界应用中的复杂推理任务。6. 结论在这项工作中,我们提出了GL-log-MoRA,这是一种参数效率高的微调方法,它结合了软性通用线性结构约束来增强瓶颈子空间的利用率。通过引入一个可学习的通用线性变换Q以及log-determinant正则化,GL-log-MoRA在保持计算效率和低内存开销的同时,提高了子空间的表达能力。我们在推理和分类基准测试(包括LogiQA、GSM8K、FinQA和HotpotQA)上的实验表明,GL-log-MoRA一致性地优于LoRA和MoRA。即使在相同的参数预算下,它也与新添加的代表性基线保持竞争力。这些改进很小但稳定,特别是在需要强大推理能力的任务上,如LogiQA和GSM8K。此外,GL-log-MoRA在几乎没有额外内存成本的情况下实现了这些提升。这些特性使其适用于内存受限的环境。这项工作的主要贡献有两个方面。首先,我们引入了一种软结构正则化技术来提高瓶颈子空间的表达能力。其次,我们展示了这种技术可以在多个数据集上带来适度但一致的性能提升。未来的工作将专注于提高所提出方法的计算效率。我们还将评估其在更大语言模型和多模态任务上的可扩展性,并进一步检验其在更广泛下游设置中的鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号