重新思考注意力提示：基于多因素的令牌剪枝技术，以实现高效的视觉-语言理解

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Rethinking Attention Cues: Multi-Factor Guided Token Pruning for Efficient Vision-Language Understanding

【字体：大中小】 时间：2026年01月29日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　大型视觉语言模型（LVLMs）因冗余视觉token空间导致计算延迟。现有单指标剪枝方法存在语义退化风险，如仅依赖[CLS]注意力易忽略全局信息，仅依赖token相似性可能丢弃关键语义差异的token，仅依赖指令相关性无法捕捉通用视觉特征。本文提出MFPruner多因素剪枝框架，整合[CLS]注意力、token异质性和指令相关性三重指标，通过投票机制实现跨视角共识，在LLaVA-1.5-7B等九个基准上验证：剪枝94.4%的token后保持93.4%精度，FLOPs减少94.6%，推理速度提升3.42倍。代码开源。

中国电子科技大学，成都，611731

摘要

大型视觉语言模型在多模态理解方面表现出色，但往往受到其庞大视觉令牌空间内冗余性导致的高计算延迟的阻碍。现有的剪枝方法通常依赖于单一的重要性线索，例如[CLS]注意力或令牌相似性。我们对这些单独标准的深入分析表明，依赖单一指标在激进剪枝时容易导致语义退化。我们发现了一个关键问题：尽管这些线索明显具有提升性能的潜力，但它们之间的协同效应和相互作用被大大忽视了。为了解决这个问题，我们提出了Multi-Factor Pruner（MFPruner），这是一个无需训练即可直接使用的框架。通过综合不同指标的见解，MFPruner使用多维剪枝标准来全面评估每个令牌的重要性。此外，它还采用了一种独特的基于投票的机制，只保留至少出现在两个不同标准前n名排名中的令牌，从而有效地捕捉了跨视角的共识。通过利用这些多维线索，MFPruner在大幅提高效率的同时有效保留了关键的语义内容。无需任何重新训练，它在多个基准测试中实现了效率和准确性之间的最佳平衡。例如，在LLaVA-1.5-7B上，仅保留32个令牌（剪枝比例为94.4%）就能保持93.4%的准确性，同时将FLOPs减少了94.6%，并提高了3.42倍的预填充速度。代码可在https://github.com/dluo112/MFPruner获取。

引言

大型视觉语言模型（LVLMs）[1], [2], [3], [4], [5], [6]在多模态理解任务[7], [8], [9], [10], [11], [12], [13], [14], [15]中取得了显著的成功，展示了强大的视觉-语言推理和理解能力。尽管取得了这些进展，但由于图像令牌序列过长且包含大量冗余信息，其实际应用受到了计算效率低下的限制。通过策略性地剪除这些冗余令牌同时保持模型性能，为在资源有限的平台上实现高效推理和广泛部署提供了一条有希望的途径。

当前的令牌剪枝方法大致可以分为三类。(i)第一类方法侧重于基于注意力的剪枝[16], [17], [18]，该方法根据令牌的注意力分数来识别和保留显著令牌。这些方法通常利用视觉编码器中的[CLS]令牌注意力或语言模型的注意力图。虽然这种方法在确定关键视觉特征方面有效，但存在一些缺点。例如，依赖注意力分数的方法可能会受到位置偏见[19]的影响，并且往往与现代优化技术（如FlashAttention [20]）不兼容，从而限制了其可扩展性。相反，基于[CLS]令牌的策略可能会忽略重要的全局上下文信息[21]，导致剪枝决策不佳，从而可能损失对整个场景的理解。(ii)第二类方法称为基于相似性的剪枝[22], [23], [24]，它们根据特征相似性或聚类来测量和移除冗余令牌。这种方法有效减少了冗余，但未能考虑任务特定的上下文或指令。因此，它可能会丢弃在视觉上相似但在语义上对解决所需查询至关重要的令牌，从而降低模型的准确性和性能。(iii)第三类方法使用指令相关性方法[25]，优先保留与输入查询最匹配的令牌。尽管这种方法在特定任务场景中非常有效，但它与基于相似性的方法有类似的局限性：它忽略了指令中未明确提到的广泛视觉或上下文线索。这可能会限制其泛化能力，导致对视觉场景的理解不完整。同时，像DivPruner[22]和SparseVLM[25]这样的多标准方法也超越了单一分数剪枝，但它们是由特定目标驱动的，而不是明确强制不同线索之间的协同作用。

现有方法的局限性揭示了一个关键问题：依赖单一重要性线索在准确识别和保留真正有信息量的令牌方面本质上是次优的，而最近的多标准方法仍然缺乏一个明确的、通用的机制来强制不同线索之间的协同作用。令牌的重要性不是单一的，它是其视觉显著性、相对于其他令牌的独特性以及其与特定任务或指令的相关性的函数。这一认识促使我们提出了一种新的多线索令牌剪枝框架，该框架能够协同整合多个重要性信号，以稳健且准确地区分关键令牌和冗余令牌。

我们提出了多因素剪枝器（MFPruner），这是一种无需额外预训练即可直接使用的框架，通过综合评估多个线索下的令牌重要性来加速模型推理。图1展示了我们的方法与现有方法之间的根本区别。与之前依赖于编码器处理后单一标准的方法不同，所提出的MFPruner整合了注意力分数、令牌相似性和指令相关性来识别关键令牌。通过采用投票机制来汇总这些多维见解，MFPruner克服了单一标准方法的局限性，确保了最有价值令牌的保留。

图2(a)显示了在九个基准数据集上相对于最先进方法的一致性能提升。例如，在LLaVA-NeXT-7B上应用时，我们的方法减少了94.4%的视觉令牌，同时保持了96.2%的平均准确性。图2(b)强调了实际效率的提升：MFPruner在LLaVA-NeXT-7B上对于160个令牌和320个令牌的输入分别实现了6.1倍和4.6倍的加速，同时将FLOPs减少了95%，预填充时间减少了90.2%，KV缓存内存使用量减少了94.3%。

总结来说，本研究的显著贡献如下：

•
我们提出了MFPruner，这是一个无需训练且可直接使用的框架，它开创了多维线索（CLS注意力、令牌相似性和指令相关性）在VLMs中有效剪枝的协同使用。
•
我们引入了一种稳健的偏差缓解投票机制，系统地整合了这些互补线索，通过实现跨视角共识来确保一致且高质量的令牌选择。
•
我们进行了全面的研究，比较了单因素、双因素和三因素剪枝策略，以实证验证每个提出的维度的显著增量效益和非冗余性。
•
在九个具有挑战性的多模态基准测试上的广泛实验表明，MFPruner在各种剪枝率下均实现了最佳性能（SOTA），验证了其有效性、稳健性和卓越的泛化能力。

本文的其余部分结构如下。第2节回顾了与LVLMs和令牌剪枝相关的工作。第3节描述了所提出的MFPruner，包括其理论框架、多维标准和基于投票的共识机制。第4节介绍了实验设置、比较结果、效率分析和全面的消融研究。最后，第5节总结了我们的贡献，并讨论了未来的研究方向。

节选内容

大型视觉语言模型

大型视觉语言模型（LVLMs）[1], [2], [3], [4]已成为多模态社区中的一个变革性范式，通过编码器-投影器-解码器架构将大型语言模型的能力扩展到视觉理解。代表性模型如LLaVA-1.5 [1]通过结合CLIP视觉编码器[26]和大型语言模型，展示了显著的性能提升，而最近的发展包括

方法

我们提出了MFPruner，这是一个多因素令牌剪枝框架，它整合了三个互补的线索——[CLS]注意力、令牌差异性和指令相关性——以实现稳健且保留信息的视觉令牌选择。MFPruner不是依赖于单一的启发式标准，而是采用基于共识的投票机制来捕捉全局显著性、语义多样性和任务一致性。本节分析了单因素剪枝的局限性，并介绍了

实验

在本节中，我们对所提出的MFPruner与最先进方法进行了全面的性能评估，对比了多个基础模型。

结论

在本文中，我们提出了MFPruner，这是一种无需训练的视觉令牌剪枝方法，它通过整合三个多维标准（[CLS]注意力、令牌相似性和指令相关性）并通过强大的投票机制增强了VLM推理效率。在九个基准测试和各种VLM架构上的广泛实验表明，MFPruner始终表现出卓越的最佳性能平衡，显著减少了FLOPs和推理时间，同时保持了

未引用的参考文献

缺少参考文献图3

CRediT作者贡献声明

Deng Luo：撰写——原始草稿、软件、方法论。Dongyang Zhang：验证、监督、资金获取。Qiuhao Xie：软件、方法论。Cencen Liu：撰写——审稿与编辑、数据管理。Qiang Dong：资源、项目管理、数据管理。Xiurui Xie：验证、资源。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

节选内容

大型视觉语言模型

方法

实验

结论

未引用的参考文献

CRediT作者贡献声明

利益冲突声明

热点排行