DS2VP:动态选择的空间可视化提示方法

【字体: 时间:2026年03月10日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  动态视觉提示方法DS2VP通过关键索引生成器筛选图像关键区域并动态适配提示,结合图像提示融合模块实现细粒度空间对齐,以及多级提示交互模块提升特征表征能力,在图像分类基准测试中显著优于现有视觉提示调优方法。

  

摘要:

多项研究充分证明了prompt调整在计算机视觉任务中的显著有效性。作为一种广泛可行的解决方案,空间建模范式旨在通过学习prompt令牌映射并将其与图像令牌映射在空间上对齐,来克服序列建模范式在捕捉图像内部空间关系方面的局限性。然而,这种视觉prompt调整的空间建模范式仍然面临两个潜在挑战:1) 大多数现有方法未能为不同的图像设计个性化的prompt,导致学习到的prompt对所有图像产生相同的静态效果;2) 现有方法的策略忽略了关键空间信息的筛选,而是不加区分地提示图像中的所有信息。在这项工作中,我们提出了一种新颖的动态选择和空间视觉提示方法(DS2VP),该方法旨在有效利用输入图像的关键空间信息,并实现动态的视觉prompt选择。具体而言,我们的DS2VP方法精心设计了关键索引生成器,以过滤图像中的关键区域来确定prompt的空间目标,从而实现对不同图像的动态prompt选择。通过在选定的关键位置添加prompt令牌,我们通过将可学习的prompt令牌适配到输入图像令牌中,实现了细粒度的空间对齐。此外,我们还提出了一个多级prompt交互模块,促进不同级别视觉prompt之间的交互,以增强各个语义层次的特征表示。在两个具有挑战性的图像分类基准测试中进行的广泛实验表明,DS2VP优于其他先进的视觉prompt调整方法。

引言

随着训练数据规模和模型规模的持续增长,人工智能(AI)的发展必须从单纯关注性能优化转向应对与可持续部署相关的挑战[1]。特别是基于transformer的架构[2]、[3]、[4]已成为视觉模型的主要框架,但其规模的迅速扩大导致了训练过程中的高能耗和高计算成本。然而,对于各种下游任务而言,对大型视觉模型进行传统的全精细调优面临着高计算成本和操作灵活性不足的显著挑战。通过在保持预训练模型不变的情况下引入少量额外的可学习参数,参数高效精细调优(PEFT)[5]、[6]、[7]已成为一种有效的策略,不仅在自然语言处理(NLP)[8]中得到应用,也在计算机视觉(CV)[9]、[10]中得到应用,用于将大型预训练模型适配到特定的下游任务中,尤其是在训练数据有限的场景下。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号