基于文本的补丁级示例选择方法，用于零样本计数

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Text-guided patch-level exemplar selection for zero-shot counting

【字体：大中小】 时间：2026年02月02日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　文本引导零样本目标计数方法TPECount通过视觉实例优化模块融合文本语义与视觉特征，利用相似性引导交互模块抑制语义偏移，显著提升计数准确性和跨数据集泛化能力。

张世辉|刘俊辉|贾胜伟

燕山大学信息科学与工程学院，秦皇岛，066004，中国

摘要

文本引导的零样本对象计数旨在通过文本提示来估计图像中的对象数量。现有方法面临两个关键挑战。首先，当前的示例建模方法忽略了跨模态融合，无论是使用文本作为示例还是根据文本选择视觉信息。其次，图像-示例特征交互存在语义偏移问题，导致模型关注错误的区域。为了解决上述问题，我们提出了一种基于对比语言-图像预训练（CLIP）的文本引导的补丁级示例选择计数方法（TPECount）。该方法在保留所选示例特征中的文本语义信息的同时，减轻了视觉外观细节的缺失，并生成高质量的相关特征用于密度图回归。具体而言，TPECount包括两个设计良好的模块：视觉示例优化模块（VEOM）和相似性引导交互模块（SGIM）。VEOM利用图像和文本之间的跨模态特征融合来建模和选择补丁级示例特征，使TPECount能够同时利用相关的示例视觉外观特征和文本特征。SGIM是一个新颖的交互模块，由我们设计的多层Transformer解码器块组成，用于图像-示例特征交互。通过利用可学习的图像-示例相似性作为全局监督，SGIM减轻了语义偏移的影响并计算相关特征。在三个计数数据集上的广泛实验表明，我们的方法具有出色的性能和泛化能力。代码可在https://github.com/aHui3/TPECount获取。

引言

对象计数旨在估计图像或视频中的对象数量。这项任务具有广泛的应用，包括人群监控（Qi等人，2024年；Pan等人，2023年；Chavan等人，2023年；Yang等人，2003年；Zhang等人，2016年）、车辆监控（Gloudemans和Work，2021年；Liu等人，2020年）以及细胞计数（Jiang和Yu，2021年；Vizcaíno等人，2022年）。传统的对象计数方法主要集中在类别特定计数（CSC）上，依赖于为特定类别定制的训练数据。这种依赖性本质上限制了它们对未见类别的泛化能力，因为需要重新标注和重新训练。

为了实现更好的泛化能力，开发了类别无关计数（CAC），其目标是计数任意类别的对象。CAC通过将查询图像和示例提示输入模型来执行计数。根据提示的类型，CAC方法可以分为三类：（a）视觉引导方法（图1a），（b）直觉引导方法（图1b），（c）文本引导方法（图1c）。视觉引导方法（称为少样本计数）通过少量边界框来指定对象类别（Ranjan等人，2021年；Yang等人，2021年；?ukic等人，2023年）。这些模型提取全局图像特征，并将它们与来自标注边界框的示例特征进行匹配。然而，手动框标注的要求对实际应用提出了重大挑战。当不需要边界框提示时，可以通过调整匹配机制将视觉引导方法转换为直觉引导方法（称为无参考或零样本计数）。直觉引导方法无需依赖提示即可执行CAC任务（Liu等人，2022年；Ranjan和Nguyen，2022年；Hobley和Prisacariu，2022年）。但是，缺乏提示限制了这些方法指定对象类别的能力，导致模型只能计数图像中数量占优势的对象。为了解决上述两种方法的局限性，出现了文本引导的零样本计数方法（Xu等人，2023年）。文本引导方法（称为文本引导零样本）利用文本描述来指定对象类别（Jiang等人，2023年；Amini-Naieni等人，2023年）。此外，视觉-语言模型（VLMs）在多种图像-文本任务中表现出色（Radford等人，2021年；Li等人，2022年），为改进文本引导的类别无关计数方法提供了重要机会。文本引导方法取得了显著进展，但它们在计数准确性方面通常仍不如视觉引导方法。这可以归因于文本的一个根本限制，即它无法像手动标记的视觉示例那样丰富地传达示例外观细节。

大多数现有的文本引导方法利用跨模态相关性来构建图像-文本相似性图，然后利用这些相似性图回归到密度图进行计数。预训练的VLMs能够高效计算文本-图像相似性，但它们难以捕捉图像内部特征的相似性。文本描述中缺乏细粒度的外观细节会降低计数性能。一些方法通过选择与文本语义特征最相似的图像补丁作为视觉示例来缓解这一限制。然而，不完美的示例选择以及在后续匹配过程中放弃文本语义特征都会损害模型的计数性能。此外，现有的特征交互与多个跨注意力层会导致相关输出特征中出现过度的语义偏移，因为累积的模态交互加剧了网络层之间的表示差异。

为了解决上述限制，我们提出了一种新颖的文本引导零样本计数方法TPECount，该方法包括两个核心模块：视觉示例优化模块（VEOM）和相似性引导交互模块（SGIM）。首先，VEOM将文本语义信息整合到图像外观特征中，然后利用图像-文本相似性来派生补丁级示例特征。这种机制使TPECount能够在保持文本语义信息的同时利用补丁级的示例外观特征。其次，SGIM利用输入数据的可学习相似性图作为全局监督来指导图像-示例相关性计算，然后将相关特征输入解码器以生成预测的密度图。在FSC-147数据集（Ranjan等人，2021年）和跨数据集CARPK（Hsieh等人，2017年）以及上海科技大学数据集（Zhang等人，2016年）上的广泛实验表明，我们的方法在性能上优于现有的最佳基线。

总结来说，我们的工作有三个贡献：

$•$
我们提出了一种新颖的文本引导零样本计数方法TPECount，该方法利用CLIP的视觉-语言对齐知识，通过计算视觉和文本特征之间的相似性来提高计数准确性。我们的方法首次解决了现有方法在使用相关视觉补丁或文本信息单独作为示例特征来指导模型计数时的局限性。
$•$
我们分析了视觉引导和文本引导范式之间的差异，并提出了视觉示例优化模块（VEOM），以融合和过滤文本和补丁级视觉特征。据我们所知，我们的研究是第一项通过将文本信息与视觉特征结合在文本引导计数中建模示例特征的工作，从而缓解了文本引导零样本计数任务中这两种类型示例信息的各自局限性。
$•$
我们提出了相似性引导交互模块（SGIM），这是一个由我们设计的多层Transformer解码器块组成的新颖交互模块。这些块使SGIM能够在TPECount中交互图像和示例特征。SGIM创新性地引入了可学习的图像-示例相似性图来监督交互过程，从而使模型专注于目标区域并提高计数性能。

初步

视觉-语言模型：CLIP。视觉-语言模型旨在联合处理和分析视觉数据（例如，图像、视频）和自然语言输入，以实现跨模态理解、生成和推理。对于文本引导分类模型CLIP（Radford等人，2021年），它有两个主要组成部分：视觉Transformer（VIt）编码器

E_{V} (?)

和文本Transformer编码器

E_{T} (?)

。该模型在大规模的图像-文本对上进行预训练，并学习将图像和

数据集和指标

FSC-147。为了展示TPECount的计数性能，我们在FSC-147数据集（Ranjan等人，2021年）上评估了我们的方法，该数据集是第一个用于类别无关计数的数据集，包含147个类别。该数据集根据对象类别划分为不重叠的训练集、验证集和测试集。每张图像都提供了其对象类别名称、三个示例图像的边界框以及带有标记每个对象中心的点注释的真实图像。

结论

在本文中，我们提出了一种新颖的文本引导零样本对象计数方法TPECount，该方法解决了在交互中和谐整合文本语义和视觉外观特征与图像特征的局限性。我们设计了视觉示例优化模块（VEOM），将文本语义整合到补丁级图像特征中，同时保持跨模态相似性以选择示例特征。相似性引导交互模块（SGIM）包括新颖的

CRediT作者贡献声明

张世辉：撰写 – 审稿与编辑、监督、资源获取。刘俊辉：撰写 – 原始草案、方法论、调查、数据管理、概念化。贾胜伟：撰写 – 审稿与编辑、验证、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

我们衷心感谢编辑和审稿人对本手稿的审阅。这项工作部分得到了国家自然科学基金（编号：62476235）；河北省自然科学基金（编号：F2023203012）；河北省创新能力提升计划项目（编号：22567626H）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

初步

数据集和指标

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行