基于矩阵变换的低秩自适应方法(MTLoRA):一种受大脑启发的、参数效率高的微调技术

《Neural Networks》:Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning

【字体: 时间:2026年01月27日 来源:Neural Networks 6.3

编辑推荐:

  矩阵变换低秩适应(MTLoRA)通过引入可学习矩阵变换提升低秩微调的性能与稳定性,在NLU、NLG和跨模态任务中均优于LoRA及现有PEFT方法,保持参数高效且无需剪枝。

  
梁瑶|王宇伟|李阳|曾毅
中国科学院自动化研究所,脑启发式认知智能实验室,北京,100190

摘要

参数高效微调(PEFT)降低了调整大型语言模型的计算和内存需求,但标准的低秩适配器(例如LoRA)在性能和稳定性上可能不如完全微调,因为它们将更新限制在固定的秩-r子空间内。我们提出了基于矩阵变换的低秩适配(MTLoRA),这是一种受大脑启发的扩展方法,它在低秩更新中插入了一个可学习的r×r变换T(ΔW=BTA)。通过为子空间赋予数据适应的几何结构(例如旋转、缩放和剪切),MTLoRA在可忽略的O(r^2)开销下重新参数化了秩-r假设类,改善了其条件性和归纳偏差,并在T=Ir时恢复了LoRA的功能。我们实现了四种T的结构——SHIM(T=C)、ICFM(T=C^T)、CTCM(T=C^D)和DTSM(T=C+D)——提供了互补的归纳偏差(基变换、PSD度量、分阶段混合和对偶叠加)。优化分析表明,T在子空间内充当了一个学习到的预处理器,产生了谱范数步长界限和算子范数方差收缩,从而稳定了训练过程。实证结果表明,MTLoRA在保持PEFT效率的同时,能够在GLUE(通用语言理解评估)中使平均分数比LoRA提高2.0分(86.9→88.9),并与AdaLoRA(88.9)相当,且无需任何剪枝计划;在GPT-2 Medium的自然语言生成任务中,它在DART上的BLEU分数提高了0.95,在WebNLG上的BLEU分数提高了0.56;在LLaVA-1.5-7B的多模态指令调整任务中,DTSM以约4.7%的可训练参数数量取得了最佳平均分数(69.91),优于完全微调和强PEFT基线。这些结果表明,在低秩子空间内学习几何结构可以提高有效性和稳定性,使MTLoRA成为大型模型微调的实用且兼容的替代方案。

引言

像Llama 3(Dubey等人,2024年)和GPT-5(OpenAI,2025年)这样的大型语言模型(LLMs)在各种NLP基准测试中取得了领先性能。然而,训练或完全微调这些模型仍然计算成本高昂,对许多应用来说存在实际障碍。参数高效微调(PEFT)通过冻结主干网络并仅更新轻量级模块来解决这个问题。在PEFT方法中,低秩重新参数化方法——尤其是LoRA(Hu等人,2022年)——因为它们在保持许多任务准确性的同时将可训练参数的数量减少了几个数量级,因此非常吸引人。
尽管有这些优势,但仍存在两个持续的限制。首先,LoRA及其许多变体在平均性能和稳定性上可能不如完全微调,特别是在数据稀缺或异构的情况下。其次,标准的LoRA分解ΔW=BA仅沿固定轴暴露了秩-r子空间的容量,并且通常在所有位置使用相同的秩——这限制了在该子空间内重塑特征几何结构的灵活性。结果是秩-r假设类的参数化受到限制,可能未能充分利用可用的秩。
我们认为,所缺少的是一个在低秩子空间内的显式、可学习的混合器。受到“结构决定功能”这一神经科学观点的启发——即皮层活动是通过混合少数共振(特征)模式来组成的(Pang等人,2023年)——我们分离了(i)由低秩因子捕获的、可重用的、任务稳定的方向,以及(ii)一个用于扭曲这些方向以表达任务依赖的几何结构的轻量级操作符。具体来说,我们引入了基于矩阵变换的低秩适配(MTLoRA),它在低秩更新中插入了一个可学习的变换T:ΔW=BTA。这里,T在r子空间内执行旋转/缩放/剪切操作,然后通过B“提升”,使模型在低秩坐标上具有可学习的子空间几何结构。这通过可学习的子空间几何结构重新参数化了秩-r假设类,仅向LoRA路径增加了少量的r×r计算。
为了定位我们的方法,我们注意到之前改进LoRA的努力大致分为三类:(i)秩适应方法(例如AdaLoRA(Zhang等人,2023b)、IncreLoRA(Zhang等人,2023a)、DyLoRA(Valipour等人,2023)、CAPABOOST(SONG等人,2024)、MELoRA(Ren等人,2024);(ii)结构改进(例如DELTA-LoRA(Zi等人,2023)、DoRA(Liu等人,2024a)、VeRA(Kopiczko等人,2024)、AFLoRA(Liu等人,2024c)、PRoLoRA(Wang等人,2024b);以及(iii)面向应用的扩展(例如LongLoRA(Chen等人,2023)、QLoRA(Dettmers等人,2024)、LoRA-Flow(Wang等人,2024a))。虽然这些技术有效,但它们都是基于相同的基分解ΔW=BA构建的,很少在低秩子空间本身内学习几何结构。MTLoRA通过添加一个显式的子空间混合器T来加强这一基础。
我们实现了四种T的结构,每种结构都以可忽略的开销提供了不同的特征学习偏差:SHIM(T=C)提供了一个免费的线性基变换,对齐了判别轴而不增加秩;ICFM(T=C^T)施加了一个PSD度量,用于白化/相关子空间特征,充当隐式的协方差滤波器;CTCM(T=C^D)组合了两个映射(“预处理然后旋转”)以改善层次混合;DTSM(T=C+D)叠加了并行混合路径,实现了有利的偏差-方差权衡。
优化视角。我们在第3.5节正式解释了为什么混合器T可以提高稳定性和效率。我们证明了两个命题和两个推论(命题1和2;推论1和2):(i)低秩路径的谱范数步长界限随着‖T‖2的增加而收紧,提供了类似信任区域的控制;(ii)算子范数方差界限预测了梯度协方差的收缩——特别是在PSD ICFM参数化下——从而在数据稀缺或异构情况下实现了更平滑的优化。
实证结果表明,MTLoRA在自然语言理解(NLU)、自然语言生成(NLG)和多模态推理任务中取得了持续的改进,同时保持了PEFT效率。在GLUE(Wang等人,2018年)中使用DeBERTaV3-base时,MTLoRA使平均分数比LoRA提高了约2.0分(86.9→88.9),并与AdaLoRA相当,且无需任何剪枝计划;在GPT-2 Medium的自然语言生成任务中,它在DART上的BLEU分数提高了0.95,在WebNLG上的BLEU分数提高了0.56;在LLaVA-1.5-7B的多模态指令调整任务中,DTSM以约4.7%的可训练参数数量取得了最佳平均分数(69.91),优于完全微调和强PEFT基线。
贡献
  • 1.
    我们提出了MTLoRA,这是一种LoRA的扩展,它为低秩子空间配备了一个可学习的变换T(例如旋转、缩放和剪切),通过可忽略的O(r^2)成本重新参数化了秩-r假设类,以改善条件性和归纳偏差;当T=Ir时,恢复了LoRA的功能。我们实现了四种互补的结构(SHIM/ICFM/CTCM/DTSM)。
  • 2.
    我们在第3.5节(命题1和2;推论1和2)发展了一种优化理论视角,表明T作为一个学习到的预处理器,提供了谱范数步长控制和方差收缩——特别是对于PSD参数化。
  • 3.
    我们在NLU、NLG和多模态VLM基准测试上进行了全面实验,证明了与LoRA相比的一致性改进,并且在相当或更小的参数预算下获得了具有竞争力的或更优的结果。
  • 4.
    我们强调了部署的实用性:固定秩训练和推理(无需剪枝计划),DTSM中的双路径叠加允许并行混合,同时减少了在恒定秩下的干扰,并且具有仅O(r^2)的开销——使得MTLoRA成为资源受限加速器的实用选择。

相关工作

相关工作

变换器和PEFT 变换器架构支持了NLP和多模态学习的最新进展(Brown等人,2020年;Devlin等人,2019年;He等人,2020年;Liu等人,2019年;Radford等人,2019年;Vaswani等人,2017年)。为了避免完全微调的高成本,参数高效微调(PEFT)冻结了主干网络并学习了小的任务特定模块。LoRA将权重增量重新参数化为一个低秩乘积ΔW=BA,其中r?min(d, k),在保持高准确性的同时大大减少了参数数量。

脑启发式动机和形式化

系统神经科学中的一个核心观察是“结构决定功能”:大规模皮层动态可以分解为由大脑的几何结构和连接性引起的共振(特征)模式,而特定任务的活动模式是通过混合少数这样的模式来高效组装的(Pang等人,2023年;Xia等人,2024年)。从数学上讲,拉普拉斯-贝尔特拉米算子(LBO)在皮层流形上的解提供了一组紧凑的空间基函数;

实验

我们在文本和视觉语言设置中评估了MTLoRA:在GLUE上使用DeBERTaV3-base和RoBERTa-base(Liu等人,2019年)进行NLU;在E2E、WebNLG和DART上使用GPT-2 Medium进行数据到文本的NLG;以及在VQAv2(Goyal等人,2017年)、GQA(Hudson和Manning,2019年)、ScienceQA(Lu等人,2022年)、TextVQA(Singh等人,2019年)和MMBench(Liu等人,2024b)上进行的多模态指令调整。我们将其与完全微调和强PEFT基线进行了比较(LoRA,

结论和未来工作

我们提出了MTLoRA,这是一种高效的微调方案,它为大型语言模型增加了轻量级变换T,以塑造低秩子空间。这种设计保持了LoRA的参数效率,同时提高了适应性和跨不同任务的稳定性,没有增加推理延迟,并且在各种神经架构中具有广泛的兼容性。
未来工作。未来的研究方向包括(i)探索受神经科学启发的T参数化,以进一步提高适应性;

CRediT作者贡献声明

梁瑶:撰写——审阅与编辑、撰写——原始草稿、方法论、调查、形式分析、概念化。王宇伟:撰写——审阅与编辑、撰写——原始草稿、监督、资源获取、形式分析、概念化。李阳:撰写——审阅与编辑、形式分析。曾毅:撰写——审阅与编辑、撰写——原始草稿、监督、资源获取、概念化。

利益冲突声明

作者声明没有利益冲突。

致谢

本工作得到了国家科技重大项目(项目编号2022ZD0116202)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号