AdaAlign：一种统一的解决方案，适用于传统和现代的零样本草图基图像检索方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：AdaAlign: A Unified Solution for Traditional and Modern Zero-Shot Sketch-Based Image Retrieval

【字体：大中小】 时间：2026年01月12日 来源：Neural Networks 6.3

编辑推荐：

　　零样本草图图像检索面临跨域差异和语义鸿沟双重挑战，传统方法依赖小规模视觉编码器而现代VLM直接微调可能损害泛化能力。本文提出AdaAlign方法，通过参数高效微调（PEFT）学习跨域抽象概念，结合视觉-语言对齐策略桥接语义鸿沟，在ResNet50、DINO-S等传统模型和SigLIP等现代VLMs上均实现SOTA性能，并在Sketchy、TU-Berlin、QuickDraw三个基准数据集上验证有效性。

Mingrui Zhu|Fangzhou Wang|Xin Wei|Nannan Wang|Xinbo Gao

中国西安电子科技大学综合服务网络国家重点实验室，邮编710071

摘要

基于草图的零样本图像检索（ZS-SBIR）具有挑战性，因为草图和照片属于不同的领域，同时已见类别和未见类别之间存在语义差距。随着现代大型视觉语言模型（VLMs）的快速发展，传统上仅依赖小型视觉编码器的方法逐渐被取代。然而，传统的基于视觉编码器的方法和现代的基于VLM的方法都有其局限性，目前还没有一种统一的方法能够有效解决这两个问题。在本文中，我们提出了一种名为“适应与对齐（AdaAlign）”的有效方法来应对这些关键挑战。具体来说，我们引入轻量级的Adapter或LoRA来学习草图的新抽象概念，以提高跨领域表示能力，从而缓解领域异质性问题。然后，我们提出在蒸馏框架内直接将对齐的图像嵌入与语义更丰富的文本嵌入，以弥合语义差距。这使得模型能够从语言语义线索中学习到更具泛化能力的视觉表示。我们将这些关键创新集成到传统的小型模型（例如ResNet50或DINO-S）和现代的VLM（例如SigLIP）中，取得了最先进的性能。在三个基准数据集上的广泛实验证明了我们方法在检索准确性和灵活性方面的优越性。

引言

手绘草图可以用简单的线条表示抽象的语义概念。随着触摸屏移动设备的广泛使用，基于草图的图像检索（SBIR）现在具有方便的应用场景和重要的价值。另一方面，SBIR与零样本设置的结合要求训练和测试类别不重叠。因此，基于草图的零样本图像检索（ZS-SBIR）（Liu, Luo, Peng, Wang, Hu, Gao, 2025a; Liu, Dang, Qi, Han, Shao, 2025b; Shen et al., 2018）已成为一个更现实的场景，并且最近引起了更多的关注。

ZS-SBIR面临两个挑战。首先，对于SBIR任务来说，草图和照片来自不同的领域，它们在特征空间可能存在显著差异，因为草图仅由线条组成，缺乏照片般的细节。其次，对于零样本学习挑战，需要一种能够从已见类别泛化到未见类别的通用表示方法。然而，传统方法（Choudhury et al., 2024; Dey et al., 2019; Dutta and Akata, 2019）如图1(a)所示，受到依赖于小型视觉编码器的限制，这些编码器缺乏丰富的视觉语义表示。

最近，得益于现代对比预训练技术（例如CLIP（Radford et al., 2021）和SigLIP（Zhai et al., 2023）的快速发展，检索性能得到了大幅提升（Lyou et al., 2024; Sain et al., 2023）。如图1(b)所示，这些基于现代VLM的方法通过精心设计的监督机制对模型进行微调，将VLM的强大能力应用于ZS-SBIR。然而，与之前的研究（Zhou et al., 2022）类似，我们发现不适当的微调方法可能会影响VLM的泛化能力。

在本文中，我们首先提出了一个一般性问题：如何以统一的方式克服传统小型模型和现代基于VLM的模型的局限性，同时解决ZS-SBIR的双重挑战？

为了回答这个问题，我们提出了AdaAlign，这是一种结合了“适应”和“对齐”策略的新方法。AdaAlign将参数高效的微调（PEFT）技术与视觉-语言对齐结合在一个统一的蒸馏框架中，如图1(c)所示。“对齐”的概念也包括了之前的基于CLIP的努力（Lyou et al., 2024; Sain et al., 2023），但我们将文本编码器离线处理，并优化了流程。

我们首先研究了如何将世界知识从文本表示转移到小型模型中，然后将我们的创新扩展到SigLIP模型中，使其具有更强的适应性。具体来说，为了解决领域异质性问题，我们采用了PEFT方法。这些方法使模型能够获取草图的抽象概念，减轻领域差距，并通过加入几个可训练的Adapter或LoRA层来增强跨领域表示能力。其次，我们明确地将图像嵌入与语义更丰富的文本嵌入对齐。这种对齐有助于将知识高效地转移到未见类别，并通过转移大型VLM的广泛泛化能力来提高性能。最后，为了将我们的方法集成到统一的框架中的VLM中，并结合“适应”和“对齐”策略，我们为SigLIP模型设计了一种合适的蒸馏策略进行训练。我们进行了广泛的实验，结果表明我们的方法在各种模型中都具有广泛的适用性。我们将我们的模型命名为AdaAlign，我们的贡献可以总结如下：

•

我们成功地将该方法应用于传统的小型模型和现代的VLM，并取得了比现有最佳方法更好的结果。

•

我们探索了不同的PEFT技术在ZS-SBIR中的应用，并提出了有效的领域适配器来解决领域异质性问题。

•

我们的直接图像-文本嵌入对齐策略有助于将嵌入在结构良好的语言编码器中的知识转移出来，增强了视觉模型的表示能力。

•

我们在三个流行的模型上进行了广泛的实验，证明了我们的关键思想具有广泛的通用性，并且它们可以利用越来越强大的基础模型。

章节片段

ZS-SBIR的早期探索

与SBIR（Lu et al., 2018; Sangkloy et al., 2016）相比，ZS-SBIR面临两个挑战：领域差距和语义知识转移。为了缓解领域异质性问题，之前的方法采用了不同的学习策略，包括基于共享编码器的方法（Liu et al., 2019; Wang et al., 2021b）、基于循环一致性的方法（Deng et al., 2020; Tian et al., 2021），以及基于三元组或四元组约束的技术（Dey et al., 2019; Jing et al., 2022）。

方法

在本节中，我们首先在第3.1节描述了ZS-SBIR问题设置、VLM的先验知识以及PEFT方法。然后，在第3.2节逐步介绍我们的主要思想。最后，在第3.3节描述了如何将我们的方法扩展到SigLIP中，以利用更广泛的世界知识。

数据和设置

数据集。遵循Liu et al.（2019）的现有方法，我们在三个流行的基准数据集上评估了我们的方法，包括Sketchy（Sangkloy et al., 2016）、TU-Berlin（Eitz et al., 2012）和QuickDraw（Dey et al., 2019）。

Sketchy包含75,471幅手工绘制的草图和73,000张自然图像，涵盖125个类别。我们采用了Shen et al.（2018）和Yelamarthi et al.（2018）提出的分割方法，其中100/104个类别用于训练，剩余的25/21个类别作为

结论

在这项工作中，我们提出了AdaAlign，这是一种简单而有效的方法，它应用了PEFT技术和视觉-语言对齐策略来解决ZS-SBIR中的挑战。PEFT层参数友好，仅包含100万到500万个参数，可以在三个不同的视觉编码器之间带来显著改进。它能够有效地学习两个不同领域之间的平衡，并显著提高草图表示的质量。此外，视觉-语言对齐

CRediT作者贡献声明

Mingrui Zhu：撰写 – 审稿与编辑，撰写 – 原始草稿，监督，项目管理，方法论，资金获取，概念化。Fangzhou Wang：撰写 – 审稿与编辑，可视化，验证。Xin Wei：撰写 – 审稿与编辑。Nannan Wang：撰写 – 审稿与编辑，监督，调查，资金获取。Xinbo Gao：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号