大型视觉语言模型(LVLMs)[1], [2], [3], [4], [5], [6]在多模态理解任务[7], [8], [9], [10], [11], [12], [13], [14], [15]中取得了显著的成功,展示了强大的视觉-语言推理和理解能力。尽管取得了这些进展,但由于图像令牌序列过长且包含大量冗余信息,其实际应用受到了计算效率低下的限制。通过策略性地剪除这些冗余令牌同时保持模型性能,为在资源有限的平台上实现高效推理和广泛部署提供了一条有希望的途径。
当前的令牌剪枝方法大致可以分为三类。(i)第一类方法侧重于基于注意力的剪枝[16], [17], [18],该方法根据令牌的注意力分数来识别和保留显著令牌。这些方法通常利用视觉编码器中的[CLS]令牌注意力或语言模型的注意力图。虽然这种方法在确定关键视觉特征方面有效,但存在一些缺点。例如,依赖注意力分数的方法可能会受到位置偏见[19]的影响,并且往往与现代优化技术(如FlashAttention [20])不兼容,从而限制了其可扩展性。相反,基于[CLS]令牌的策略可能会忽略重要的全局上下文信息[21],导致剪枝决策不佳,从而可能损失对整个场景的理解。(ii)第二类方法称为基于相似性的剪枝[22], [23], [24],它们根据特征相似性或聚类来测量和移除冗余令牌。这种方法有效减少了冗余,但未能考虑任务特定的上下文或指令。因此,它可能会丢弃在视觉上相似但在语义上对解决所需查询至关重要的令牌,从而降低模型的准确性和性能。(iii)第三类方法使用指令相关性方法[25],优先保留与输入查询最匹配的令牌。尽管这种方法在特定任务场景中非常有效,但它与基于相似性的方法有类似的局限性:它忽略了指令中未明确提到的广泛视觉或上下文线索。这可能会限制其泛化能力,导致对视觉场景的理解不完整。同时,像DivPruner[22]和SparseVLM[25]这样的多标准方法也超越了单一分数剪枝,但它们是由特定目标驱动的,而不是明确强制不同线索之间的协同作用。
现有方法的局限性揭示了一个关键问题:依赖单一重要性线索在准确识别和保留真正有信息量的令牌方面本质上是次优的,而最近的多标准方法仍然缺乏一个明确的、通用的机制来强制不同线索之间的协同作用。令牌的重要性不是单一的,它是其视觉显著性、相对于其他令牌的独特性以及其与特定任务或指令的相关性的函数。这一认识促使我们提出了一种新的多线索令牌剪枝框架,该框架能够协同整合多个重要性信号,以稳健且准确地区分关键令牌和冗余令牌。
我们提出了多因素剪枝器(MFPruner),这是一种无需额外预训练即可直接使用的框架,通过综合评估多个线索下的令牌重要性来加速模型推理。图1展示了我们的方法与现有方法之间的根本区别。与之前依赖于编码器处理后单一标准的方法不同,所提出的MFPruner整合了注意力分数、令牌相似性和指令相关性来识别关键令牌。通过采用投票机制来汇总这些多维见解,MFPruner克服了单一标准方法的局限性,确保了最有价值令牌的保留。
图2(a)显示了在九个基准数据集上相对于最先进方法的一致性能提升。例如,在LLaVA-NeXT-7B上应用时,我们的方法减少了94.4%的视觉令牌,同时保持了96.2%的平均准确性。图2(b)强调了实际效率的提升:MFPruner在LLaVA-NeXT-7B上对于160个令牌和320个令牌的输入分别实现了6.1倍和4.6倍的加速,同时将FLOPs减少了95%,预填充时间减少了90.2%,KV缓存内存使用量减少了94.3%。
总结来说,本研究的显著贡献如下:
- •
我们提出了MFPruner,这是一个无需训练且可直接使用的框架,它开创了多维线索(CLS注意力、令牌相似性和指令相关性)在VLMs中有效剪枝的协同使用。
- •
我们引入了一种稳健的偏差缓解投票机制,系统地整合了这些互补线索,通过实现跨视角共识来确保一致且高质量的令牌选择。
- •
我们进行了全面的研究,比较了单因素、双因素和三因素剪枝策略,以实证验证每个提出的维度的显著增量效益和非冗余性。
- •
在九个具有挑战性的多模态基准测试上的广泛实验表明,MFPruner在各种剪枝率下均实现了最佳性能(SOTA),验证了其有效性、稳健性和卓越的泛化能力。
本文的其余部分结构如下。第2节回顾了与LVLMs和令牌剪枝相关的工作。第3节描述了所提出的MFPruner,包括其理论框架、多维标准和基于投票的共识机制。第4节介绍了实验设置、比较结果、效率分析和全面的消融研究。最后,第5节总结了我们的贡献,并讨论了未来的研究方向。