Adapter-x：一个适用于2D和3D视觉任务的通用、参数高效的微调框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Adapter-x: A general parameter-efficient fine-tuning framework for 2D and 3D vision

【字体：大中小】 时间：2026年02月21日 来源：Neurocomputing 6.5

编辑推荐：

　　提出参数高效微调框架Adapter-X，通过共享混合适配器模块实现动态参数分配与跨块共享，结合块特定注意力特征提取器和层特异性归一化设计，在2D图像和3D点云数据集上均超越全微调方法，参数量减少7.4倍和接近50%。

李明磊|叶鹏|张琳|白碧哲|陈涛

复旦大学，上海，200433，中国

摘要

随着基础模型在流行度和规模上的持续增长，参数高效的微调（PEFT）变得越来越重要。Adapter方法因其减少参数数量和适应不同任务的潜力而受到特别关注。然而，在高效率和跨任务的强大泛化能力之间找到平衡仍然是基于Adapter的方法面临的挑战。我们分析了现有方法，发现：1）参数共享是减少冗余的关键；2）更多的可调参数、动态分配和块特定设计是提高性能的关键。不幸的是，之前的研究没有考虑所有这些因素。受此启发，我们提出了一个名为Adapter-X的新框架。首先，我们提出了一个共享适配器混合体（Sharing MoA）模块，以实现令牌级别的动态分配、增加可调参数数量以及块间的共享。其次，我们为每个块集成了基于注意力的特征提取器（AFE）和块特定归一化层，以进一步增强模型的适应性。在2D图像和3D点云模态上的广泛实验表明，Adapter-X是一个重要的里程碑，因为它是在参数数量显著减少的情况下，在2D图像和3D点云模态上都优于全微调的方法。具体来说，在2D VTAB-1K基准测试中，它的性能与最先进的Adapter方法相当，同时参数数量减少了7.4倍。在具有挑战性的3D ScanObjectNN数据集上，它的性能比最先进的PEFT方法高出1.65%，且可调参数数量不到后者的一半。

引言

在模型规模和复杂性不断增加的时代，能够高效地将它们适配到特定任务和数据集变得至关重要。参数高效的微调（PEFT）已成为解决这一挑战的有希望的方法。在提出的PEFT技术中，基于Adapter的方法由于可调参数较少以及提高模型在不同下游任务上的性能的潜力而引起了广泛关注。

基于Adapter的方法主要可以分为两类，分别关注两个不同的优势：在各种任务上的性能能力和通过最小化微调所需的参数规模而获得的效率。关注性能提升的方法包括三种不同的方法。[1]、[2]旨在创建一个能够处理广泛任务的多功能Adapter结构。[3]、[4]、[5]旨在结合不同PEFT方法的优点，或通过分析不同Adapter和其他PEFT方法之间的相似性来建立统一的视角。[6]、[7]利用神经架构搜索（NAS）来发现更好的PEFT组合方法。在Adapter效率方面，已经设计了特定的方法[8]、[9]、[10]、[11]，它们从冗余性（包括排名、密度和精度）的不同角度进一步提高了Adapter的效率。尽管这些方法努力平衡Adapter的双重优势，但尚未有一种方法能够在多种模态和任务上同时实现高效率和良好的泛化能力，这促使我们思考：如何进一步提高Adapter的泛化能力，同时激发其效率潜力？

为了回答这个问题，我们分析了现有方法，并总结了影响效率和性能的以下因素。从效率的角度来看，许多方法[8]、[9]、[12]、[13]、[14]采用了不同块之间的共享策略，这表明参数共享机制确实可以减少冗余，从而提高PEFT方法的参数效率。从性能的角度来看，我们发现改进现有PEFT方法在不同任务上的性能大致可以分为三个主要方面。首先，增加可调参数数量（例如提高Adapter的排名）可以提高Adapter的性能。其次，在PEFT的背景下，动态分配可调参数被证明是非常有益的。例如，基于NAS的策略[6]、[7]可以被视为根据数据分布的变化来分配参数。第三，不同的方法为架构中不同位置的块实现了不同的设计，例如使用不同的PEFT方法。这些块特定设计使模型能够更好地适应各种数据集。以前的工作只关注一个或几个关键点，因此无法很好地处理平衡问题。我们假设，如果我们能够设计一种同时考虑所有这些有效因素的方法，就可以在效率和性能上实现同时提升。

为此，我们提出了一个名为Adapter-X的新通用参数高效微调框架。该框架的核心是不同块从块共享Adapter专家库中递归选择最合适的Adapter。我们将这个组件称为共享适配器混合体（Sharing MoA）。这一元素赋予了我们上述三个优势：共享策略、动态分配以及每个块更多的可调参数数量。首先，所有块都使用了共享适配器混合体，显著减少了参数数量。其次，对于任何给定的令牌集，Adapter-X将为不同块选择不同的Adapter专家来处理它们，从而实现微调参数的令牌级别动态分配。第三，由于每个块可以递归访问共享专家库中的所有Adapter专家，这意味着每个块可以访问比传统方法更多的Adapter。最后，为了增强块特定设计，Adapter-X使用了精心设计的基于注意力的特征提取器（AFE）和层特定归一化层来总结块特定特征，进一步提高了模型的性能。

为了验证所提出的方法Adapter-X的有效性和泛化能力，我们在2D图像和3D点云模态的不同数据集上进行了广泛的实验。结果证明，Adapter-X能够在参数数量显著减少的情况下实现更好的性能，如图1所示。据我们所知，这是第一个在2D图像和3D点云模态上都优于全微调的方法。特别是在2D VTAB数据集上，我们的方法使用的参数数量是当前最先进Adapter方法的七分之一，却取得了相同的分类结果。在3D ScanObjectNN数据集上，我们的方法的表现优于最先进的PEFT方法1.65%，且可调参数数量不到后者的一半。

方法

Adapter-X的概述如图2所示。接下来，我们在第3.1节简要回顾了Adapter和MoE。然后我们在第3.2节和第3.3节分别介绍了我们的共享适配器混合体（Sharing MoA）和块特定设计。最后，在第3.4节简要介绍了该框架的优化函数。

实验

我们通过在2d图像和3d点云领域进行广泛的视觉识别实验来评估Adapter-X的有效性。为了清晰起见，我们将Adapter-X中的Adapter定义为模块化组件。这种定义便于与其他方法无缝集成。例如，当与Adaptformer集成时，得到的方法称为Adaptformer-X。

我们首先在第4.1节描述了实验设置，包括预训练的backbone和基线方法

结论和未来工作

这项工作解决了在基础模型中平衡参数效率和强大泛化能力的关键挑战。我们对PEFT的分析强调了参数共享在减少冗余方面的重要性，以及可调参数、动态分配和块特定设计对于提高性能的作用。基于这些见解，我们提出了Adapter-X，它使用共享适配器混合体（Sharing MoA）模块实现令牌级别的动态分配，增加了每个块可访问的参数数量

CRediT作者贡献声明

李明磊：撰写——原始草稿、可视化、软件、方法论、研究。叶鹏：撰写——审阅与编辑、方法论、研究、形式分析、概念化。张琳：撰写——审阅与编辑、验证。白碧哲：撰写——审阅与编辑、验证。陈涛：监督、资源、项目管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家重点研发计划（编号2022ZD0160101）、上海自然科学基金（编号23ZR1402900）、上海科学技术委员会探索计划项目（24TS1401300）和上海市重大科技项目（编号2021SHZDZX0103）的支持。本研究中的计算使用了复旦大学的CFFF平台。

李明磊目前在中国上海的复旦大学攻读博士学位。他的研究兴趣包括计算机视觉、高效网络设计和训练。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作