DS2VP：动态选择的空间可视化提示方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月10日 来源：IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐：

　　动态视觉提示方法DS2VP通过关键索引生成器筛选图像关键区域并动态适配提示，结合图像提示融合模块实现细粒度空间对齐，以及多级提示交互模块提升特征表征能力，在图像分类基准测试中显著优于现有视觉提示调优方法。

摘要：

多项研究充分证明了prompt调整在计算机视觉任务中的显著有效性。作为一种广泛可行的解决方案，空间建模范式旨在通过学习prompt令牌映射并将其与图像令牌映射在空间上对齐，来克服序列建模范式在捕捉图像内部空间关系方面的局限性。然而，这种视觉prompt调整的空间建模范式仍然面临两个潜在挑战：1) 大多数现有方法未能为不同的图像设计个性化的prompt，导致学习到的prompt对所有图像产生相同的静态效果；2) 现有方法的策略忽略了关键空间信息的筛选，而是不加区分地提示图像中的所有信息。在这项工作中，我们提出了一种新颖的动态选择和空间视觉提示方法（DS2VP），该方法旨在有效利用输入图像的关键空间信息，并实现动态的视觉prompt选择。具体而言，我们的DS2VP方法精心设计了关键索引生成器，以过滤图像中的关键区域来确定prompt的空间目标，从而实现对不同图像的动态prompt选择。通过在选定的关键位置添加prompt令牌，我们通过将可学习的prompt令牌适配到输入图像令牌中，实现了细粒度的空间对齐。此外，我们还提出了一个多级prompt交互模块，促进不同级别视觉prompt之间的交互，以增强各个语义层次的特征表示。在两个具有挑战性的图像分类基准测试中进行的广泛实验表明，DS2VP优于其他先进的视觉prompt调整方法。

引言

随着训练数据规模和模型规模的持续增长，人工智能（AI）的发展必须从单纯关注性能优化转向应对与可持续部署相关的挑战[1]。特别是基于transformer的架构[2]、[3]、[4]已成为视觉模型的主要框架，但其规模的迅速扩大导致了训练过程中的高能耗和高计算成本。然而，对于各种下游任务而言，对大型视觉模型进行传统的全精细调优面临着高计算成本和操作灵活性不足的显著挑战。通过在保持预训练模型不变的情况下引入少量额外的可学习参数，参数高效精细调优（PEFT）[5]、[6]、[7]已成为一种有效的策略，不仅在自然语言处理（NLP）[8]中得到应用，也在计算机视觉（CV）[9]、[10]中得到应用，用于将大型预训练模型适配到特定的下游任务中，尤其是在训练数据有限的场景下。

联系信箱：

粤ICP备09063491号

摘要：

引言

热点排行