GridPrune:从“在何处查找”到“选择什么”——基于视觉特征的标记剪枝方法在多语言大型语言模型(MLLMs)中的应用

《Neurocomputing》:GridPrune: From “Where to look” to “What to select” in visual token pruning for MLLMs

【字体: 时间:2026年05月10日 来源:Neurocomputing 6.5

编辑推荐:

  段玉翔|李奥力|李迎勤|李璐雨|王鹏伟 山东大学信息科学与工程学院,中国山东省青岛市,266237 摘要 多模态大型语言模型(MLLMs)在广泛的视觉-语言任务中展现了卓越的能力。然而,大量的视觉标记带来了显著的计算开销。为了解决这个问题,视觉标记剪枝作为一种关键技术应运而生

  
段玉翔|李奥力|李迎勤|李璐雨|王鹏伟
山东大学信息科学与工程学院,中国山东省青岛市,266237

摘要

多模态大型语言模型(MLLMs)在广泛的视觉-语言任务中展现了卓越的能力。然而,大量的视觉标记带来了显著的计算开销。为了解决这个问题,视觉标记剪枝作为一种关键技术应运而生,用于提高MLLMs的效率。在认知科学中,人类倾向于首先确定场景中应关注的区域(“看哪里”),然后再决定在这些区域内详细处理哪些特定元素(“选择什么”)。这种序列化的过程支持了对有限注意力的有效利用:它首先将注意力分配给候选区域,然后在选定的区域内进行精细处理。然而,现有的剪枝方法主要关注直接优化“选择什么”,通常使用注意力分数或相似性度量。它们很少考虑“看哪里”,而这已被证明会导致空间分配效率低下、位置偏差以及保留不相关或冗余的标记。在本文中,我们提出了GridPrune,这种方法用“全局指导,局部选择”的区域选择系统替代了全局Top-K机制。GridPrune将剪枝过程分为两个步骤:首先,它使用文本条件指导来动态分配每个空间区域的标记预算;然后,在每个预算区域内进行局部选择。实验结果显示,GridPrune在多种MLLM架构上实现了更好的性能。在LLaVA-NeXT-7B上,GridPrune在使用11.1%的标记的同时保留了96.98%的原始性能,在相同的剪枝比率下比表现最好的基线高出2.34%。代码可在https://github.com/NONO997/GridPrune获取。

引言

多模态大型语言模型(MLLMs)[1]、[2]、[3]、[4]、[5]、[6]在各种视觉-语言任务中展现了卓越的能力,例如视觉问答(VQA)、复杂推理和少量样本学习[7]、[8]、[9]、[10]、[11]。在这些模型中,图像通过视觉编码器[12]、[13]和投影器[14]、[15]进行处理,生成一系列视觉标记,这些标记随后被输入到LLM [16]、[17]、[18]中。然而,这带来了显著的计算开销。在典型的输入中,视觉标记的数量可以达到数百个,通常远远超过文本标记的长度。由于自注意力机制的计算复杂度与序列长度呈二次方关系,大量视觉标记使得MLLM推理变得代价高昂。在处理高分辨率图像[19]、[20]、[21]或视频流[22]、[23]、[24]时,标记数量会进一步增加。因此,开发有效的视觉标记剪枝策略对于提高MLLM的推理效率至关重要。
在视觉标记剪枝方面已经付出了大量努力,以降低MLLM的推理成本[25]、[26]、[27]、[28]。早期的主流方法大致可以分为两类:基于注意力的[26]、[27]、[29]和基于相似性的[30]、[31]、[32]。基于注意力的方法通常依赖注意力分数作为标记选择的重要性信号。然而,它们面临两个反复出现的问题:(i) 全局排名容易受到位置偏差的影响,导致选择不可靠[33]、[34]、[35],如图2(a)所示;(ii) 选定的标记往往是冗余的,因为具有相似视觉特征的相邻标记往往会获得相似高的注意力分数[34]。另一方面,基于相似性的方法主要旨在构建一个通用的标记子集,但在处理特定任务时往往与指令无关,导致信息效率低下[35]、[36]。后续的工作试图从不同角度解决这些限制。然而,这些方法要么通过在全局层面进行任务条件化来追求多样性[35],但这缺乏有效的空间规划,要么依赖于对特定问题不可动态调整的裁剪[34]。总体而言,现有研究主要集中在如何优化“选择什么”的问题上,但忽略了另一个问题——“看哪里”,这可能导致空间分配效率低下、位置偏差以及保留不相关或冗余的标记。
认知科学的研究为这一挑战提供了灵感。研究表明,在观察场景时,人类倾向于首先确定“看哪里”,然后再决定“选择什么”[37]。这种两阶段策略使视觉系统能够高效地使用有限的注意力:它首先将注意力分配给候选区域,然后集中在被关注区域内的细节上。我们假设当前方法中的问题,如位置偏差和冗余,是由于忽略了“看哪里”这一步骤。这是因为首先确定“看哪里”会将预算集中在与任务相关的区域,而不是分配给无关的背景区域。因此,标记选择是在与查询更相关的视觉输入子集上进行的,从而提高了后续选择过程的效率。
在本文中,我们提出了GridPrune,一种将这种两阶段策略引入MLLMs的剪枝方法。GridPrune将剪枝过程分为两个步骤。首先,它使用文本查询作为高级命令来做出任务驱动的决策,动态地将有限的标记预算分配给与任务相关的图像区域,从而解决了“看哪里”的问题。其次,在每个分配的区域内,根据文本相关性和视觉显著性的融合分数进行局部选择,从而解决了“选择什么”的问题。通过用基于区域的预算分配和区域内的选择取代单一的全局Top-K列表,GridPrune促进了与指令相关区域的平衡覆盖,并减轻了由全局排名引起的位置偏差,如图2所示。此外,我们的方法适应了高分辨率应用场景。我们在十个基准测试中评估了GridPrune的有效性,结果表明GridPrune在 aggressive 剪枝比率下优于现有的最先进方法,如图1所示。例如,在LLaVA-NeXT-7B上,GridPrune在使用仅11.1%的标记的同时保留了96.98%的原始性能,比表现最好的基线高出2.34%。在5.6%的保留率下,GridPrune的平均性能优于表现最好的基线3.1%。
总结如下:
  • 我们指出了现有视觉标记剪枝方法的局限性:它们主要关注“选择什么”的问题,而很少考虑“看哪里”,这导致了空间分配效率低下和位置偏差等问题。
  • 我们提出了GridPrune,这是一种无需训练的方法,实现了上述两阶段思想。它将剪枝过程分为任务驱动的预算分配和一系列区域内的选择。
  • 广泛的实验表明,GridPrune在多种MLLM架构上优于现有的最先进方法。即使在标记预算较小的情况下,它也保留了模型的大部分原始性能。

节片

多模态大型语言模型

大型语言模型(LLMs)[16]、[17]、[18]、[38]的显著成就促进了多模态大型语言模型(MLLMs)[1]、[2]、[3]、[4]、[5]、[6]的发展。这些模型的主导范式是将预训练的视觉编码器[12]、[13]通过投影器[14]、[15]连接到LLM。与特定任务的多模态融合和细粒度聚合方法[39]、[40]、[41]不同,这种架构直接将视觉输入转换为长序列的标记。

方法

本节介绍了提出的GridPrune方法。我们首先重新定义了视觉标记剪枝问题,然后介绍了GridPrune的两个核心组件:双源重要性评分函数和“全局指导,局部选择”的区域选择系统,如图3所示。

实验设置

模型和基线。 为了验证GridPrune的有效性和泛化能力,我们在三种不同的多模态大型语言模型上进行了实验。LLaVA-1.5-7B [2] 是一个广泛采用的标准分辨率输入基准模型。LLaVA-NeXT-7B [19] 代表为高分辨率图像设计的模型,处理更长的标记序列。Qwen2.5-VL-7B [3] 具有与LLaVA系列不同的架构,用于评估架构的泛化能力

结论

在本文中,我们指出了现有视觉标记剪枝方法的局限性:它们主要关注“选择什么”的问题,而较少关注“看哪里”,这可能导致空间分配效率低下、位置偏差和标记冗余。因此,我们提出了GridPrune,这是一种无需训练的方法,将剪枝分为两个阶段:“全局指导,局部选择”。GridPrune通过使用文本条件

CRediT作者贡献声明

段玉翔:撰写——原始草稿,验证,方法论。李奥力:撰写——审阅与编辑,方法论。李迎勤:撰写——原始草稿。李璐雨:撰写——原始草稿。王鹏伟:资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了山东省医学会[项目 YXH2025ZM014]、青岛科技惠民示范项目[资助号 24-1-8-cspz-20-nsh]以及中国国家自然科学基金[资助号 61301253]的支持。

关于写作过程中生成式AI和AI辅助技术的声明

在准备这份工作时,作者使用了ChatGPT来纠正文章中的语法错误。使用该工具/服务后,作者根据需要审阅和编辑了内容,并完全
段玉翔 目前正在中国青岛的山东大学攻读电子科学与技术学士学位。他的研究兴趣集中在多模态大型语言模型和视觉标记剪枝上。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号