从静态多视图到自适应多视图：针对细粒度图像检索的精细专家提示调优

《Pattern Recognition》：From static to adaptive multi-view: Nuanced expert prompt tuning for Fine-Grained Image Retrieval

【字体：大中小】 时间：2026年05月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　梁文斌|王浩伟|张可月|龚静宇|高岩|谭鑫|马丽庄华东师范大学计算机科学与技术学院，上海，中国摘要细粒度图像检索（FGIR）需要精确区分高度相似类别之间的细微视觉差异。现有方法通常由于采用“一刀切”的设计范式而无法实现这一目标：（I）它们通常依赖于共享参数（无论是主干网络内部还是

梁文斌|王浩伟|张可月|龚静宇|高岩|谭鑫|马丽庄

华东师范大学计算机科学与技术学院，上海，中国

摘要

细粒度图像检索（FGIR）需要精确区分高度相似类别之间的细微视觉差异。现有方法通常由于采用“一刀切”的设计范式而无法实现这一目标：（I）它们通常依赖于共享参数（无论是主干网络内部还是输入提示），从而在所有图像上强制执行静态且统一的特征提取策略，而不考虑它们的个别结构特征。（II）它们通常将FGIR视为单视图预测问题，这往往会模糊关键的局部细节，并未能充分利用不同结构尺度（即多个内在视图）中可用的丰富和互补的线索。为了弥合这些差距，我们提出了精细专家提示调优（NExPT）这一新颖框架，该框架将范式转变为自适应多视图建模。NExPT通过三个协同组件解决了这一双重限制：为了打破对静态共享先验的依赖，NExPT构建了一个包含多样化视觉语义的精细专家提示池（NEPP）。为了克服单视图瓶颈，多尺度粒度解析（MSGP）模块明确地将图像分解为多粒度视图。随后，通过粒度特定专家对齐（GSEA），我们的框架执行精确的跨视图对齐策略，动态检索并融合每个特定视图最兼容的专家提示。广泛的实验表明，NExPT的性能显著优于现有方法。

引言

细粒度图像检索（FGIR）[1]是计算机视觉中的一个基本而具有挑战性的任务，它是从生物多样性监测[2]、[3]到电子商务[4]等实际应用的基石。与一般图像检索不同，FGIR需要精确区分视觉上相似的子类别之间的细微、局部差异。核心挑战在于捕捉高度细致的线索——例如特定的羽毛纹理或前灯曲率——同时保持对由姿势或背景引起的显著类别内变化的鲁棒性。

随着视觉Transformer（ViT）[5]的兴起，基于ViT的度量学习[6]、[7]、[8]、[9]方法得到了快速发展。代表性方法侧重于优化复杂的嵌入空间以捕捉类别间的复杂关系。同时，为了减轻全参数微调的计算负担，视觉提示调优（VPT）[10]作为一种参数效率高的替代方案出现了[9]、[11]。尽管这两种方法在架构上有所不同，但它们通常都有一个根本的限制：它们通常依赖于固定的主干网络权重或全局共享的提示。通过假设特征提取过程不受输入影响而遵循不变的模式，这些方法遵循了一种僵化的范式，从而无法准确建模高精度检索所需的多样化和局部化模式。

为了解决这种僵化问题，后续方法转向了依赖于样本的建模。代表性方法（例如CoCoOp [12]、VAPT [13]和ProDA [14]）根据输入数据动态生成或调整提示。然而，它们通常将FGIR视为由全局表示驱动的单视图预测问题。这种对宏观统计的依赖往往会模糊尖锐的局部细节或忽略低方差线索。因此，虽然能够捕捉到一般的实例级特征，但它们往往忽略了特定区域的细微差异，并忽视了细粒度对象的内在多视图特性。

为了弥合这一差距，我们提出了精细专家提示调优（NExPT），该框架将调优范式从全局调整转变为自适应多视图建模。NExPT不是提出一个简单的设计变体，而是为FGIR建立了一种新的组合方法。首先，我们构建了一个精细专家提示池（NEPP）。NEPP不是一个单一的共享提示集，而是一个有组织的存储库，其中原型专门用于表示不同尺度上的不同视觉特征。其次，为了克服单视图瓶颈，我们引入了多尺度粒度解析（MSGP）模块。该模块明确地将图像分解为异构的多粒度视图——从全局一致性到局部块——超越了纯粹的整体特征适配。第三，我们采用粒度特定专家对齐（GSEA）作为动态多视图组合策略。它利用MSGP提取的视觉线索作为查询，动态检索并组装适用于同一图像不同区域的定制专家提示。最后，我们引入了提示多样性约束模块（PDCM）来确保原型之间的正交性，保证检索到的专家能够捕捉到互补的判别维度，而不是陷入琐碎的冗余解决方案。

总之，我们的贡献有三个方面：

•
我们提出了NExPT，它通过从静态的单视图适配转变为自适应的多视图建模，为细粒度检索建立了一种组合范式。
•
我们引入了一套定制组件：（1）NEPP，作为一个按尺度组织的专家存储库；（2）MSGP，用于明确地将图像分解为内在的多粒度视图；（3）GSEA，用于动态组合定制的提示；以及（4）PDCM，用于确保原型多样性。
•
我们在三个基准数据集（CUB-200、Cars-196和SOP）上进行了广泛的实验，证明NExPT的性能显著优于现有方法，并建立了新的最佳实践。

部分摘录

概述

精细专家提示调优（NExPT）的总体目标是将视觉适应范式从整体适应转变为自适应多视图建模。之前的实例感知方法，如CoCoOp [12]和ProDA [14]，依赖于单视图的全局表示来调整参数。这种对整体表示的依赖往往会模糊尖锐的局部细节或忽略低方差线索。为了弥合这一差距，NExPT将范式转变为粒度特定的特征提示

实验

在本节中，我们进行了全面的评估，以验证我们提出方法的有效性。我们将提出的NExPT框架与三个基准数据集上的现有方法进行了比较，并进行了深入的消融研究，以验证显式粒度挖掘的贡献。此外，我们还分析了计算效率，并提供了我们提出方法的定性可视化结果。

结论

在本文中，我们介绍了精细专家提示调优（NExPT），它代表了从整体适应到自适应多视图建模的范式转变。我们发现，以往FGIR方法的局限性在于静态共享参数和单视图瓶颈。为了克服这些限制，我们的框架通过精确的检索和匹配机制显式地发现了视觉语义。我们建立了精细专家提示池，作为一个分层的存储库，其中包含了专门化的

CRediT作者贡献声明

梁文斌：撰写——审阅与编辑，撰写——原始草稿，可视化，验证，软件，方法论，调查，概念化。王浩伟：撰写——审阅与编辑，可视化，方法论，概念化。张可月：撰写——审阅与编辑，验证，监督，资源，概念化。龚静宇：撰写——审阅与编辑，监督。高岩：撰写——审阅与编辑，撰写——原始草稿，监督，项目

关于写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了GPT-5.4来完善手稿。使用该工具后，作者根据需要对内容进行了审阅和编辑，并对发表文章的内容负全责。

未引用的参考文献

[37]、[38]、[39]、[40]、[41]、[42]、[43]

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（编号：62302167、62222602、62176092、62476090）、上海帆船计划（23YF1410500）、中国科学技术协会青年精英科学家资助计划（YESS20240780）、上海教育发展基金会和上海市教育委员会的光明计划（23CGA34）以及重庆市自然科学基金（CSTB2023NSCQJQX0007、CSTB2023NSCQ-MSX0137）的支持。

摘要

引言

部分摘录

相关工作

概述

实验

结论

CRediT作者贡献声明

关于写作过程中生成式AI和AI辅助技术的声明

未引用的参考文献

利益冲突声明

致谢

热点排行