大多数现有的对象计数方法专注于特定类别对象的狭窄应用领域,例如人群计数(Li, Hu, Abousamra, Chen, 2023; Liang, Xie, Zou, Ye, Xu, Bai, 2023)、动物计数监控(Zhao, Shen, Li, Zhong, & Tan, 2025)和车辆计数(Ciampi, Gennaro, Carrara, Falchi, Vairo, Amato, 2022; Zhang, Zhang, Zhang, Guo, Wang, Lu, 2024b)。然而,这些方法往往受到大量特定类别训练数据的限制,难以扩展到未见类别。此外,在智能监控系统(Murat, 2024; Shen, Tong, Li, Kong, 2025)、农业和生态监测(Farjon, Huijun, Edan, 2023; Zhao, Shen, Li, Zhong, Tan, 2025)以及工业制造(Jiang, Zhai, Ke, Zhou, Genovese, Piuri, Scotti, 2024; Zhang, Zhang, Zhang, Guo, Wang, Lu, 2024b)等应用领域,对象计数通常涉及复杂且多变的对象类别。为了提高这些应用场景中计数模型的泛化能力,一些研究人员开始探索能够跨不同对象类别进行计数的先进方法。因此,类别不可知的计数(CAC)(Lu, Xie, & Zisserman, 2018)最近受到了广泛关注。CAC方法可以根据少量示例估计任意类别对象的数量,具有泛化到未知场景的潜力,并减少对特定类别训练数据的依赖。
早期探索CAC的工作主要利用少量视觉示例(少样本)来实现任意对象类别的计数(Ranjan, Sharma, Nguyen, Hoai, 2021; Shi, Lu, Feng, Liu, Cao, 2022; Yang, Su, Hsu, Chen, 2021)。一些方法甚至在一次性设置中取得了出色的结果(?uki?, Luke?i?, Zavrtanik, & Kristan, 2023)。然而,这些依赖示例的CAC方法不可避免地依赖于大规模训练数据的标注,并且需要对每个单独的类别进行专门处理。因此,相关的劳动力成本仍然是一个重要问题,如图1(a)所示。为了解决这个问题,无参考(即零样本)对象计数方法逐渐受到关注,该方法主要关注识别图像中的显著对象。采用了两阶段训练流程(Liu, Zhong, Zisserman, & Xie, Ranjan, Nguyen, 2022)来识别CAC,如图1(b)所示。尽管取得了进展,但它们潜在的定位错误导致在存在多个对象类别时无法有效区分感兴趣的对象类别。
随着大型语言模型(LLMs)的蓬勃发展,以GPT-4为代表的模型获得了文本和图像的多模态理解能力,并在人工智能的各个领域取得了显著进展,例如医疗信息领域(Guo et al., 2025)和计算机视觉领域(Radford, Kim, Hallacy, Ramesh, Goh, Agarwal, Sastry, Askell, Mishkin, Clark, et al., 2021; Wang, Han, Liu, Yin, Gao, 2025)。在这种背景下,一些研究人员创新地将它们扩展到类别不可知的对象计数任务。通过整合自然语言和视觉图像,并借助用户输入的文本提示,一种新的文本引导的零样本对象计数(ZSOC)(Jiang, Liu, Chen, 2023; Xu, Le, Nguyen, Ranjan, Samaras, 2023)方案逐渐出现并迅速成为研究热点。与传统的特定类别计数和少样本CAC相比,ZSOC在核心设置上存在本质差异。特定类别计数方法通常在单一预定义类别上进行训练,适用于封闭世界环境。虽然少样本CAC实现了类别不可知的能力,但它依赖于少量标注的视觉示例作为查询条件。相比之下,ZSOC完全放弃了视觉示例,仅通过自然语言提示进行计数,从而实现了真正的开放场景泛化,如图1(c)所示。然而,从依赖示例到仅使用文本提示的范式转变也引入了两个核心挑战:语义对齐的模糊性(Jiang et al., 2023)和尺度感知的不足。首先,关于语义对齐的模糊性,与提供明确视觉外观细节的示例不同,文本提示以抽象和隐含的方式描述目标。这使得在文本描述和图像中的具体目标之间建立精确匹配变得困难,因此由于语义模糊性,计数偏差容易发生。其次,在尺度感知的不足方面,文本提示通常不编码目标尺度信息。然而,在现实世界场景中,目标尺度存在显著变化。如果模型无法自主适应跨尺度变化,其计数准确性将因漏检和误报而受到影响。因此,为了实现更通用的ZSOC,模型不仅需要准确理解未见类别的对象,还需要具备跨尺度语义传递的能力。
总之,对象计数正在从封闭环境中的特定类别识别发展到开放世界中的类别不可知计数。然而,现有的开放世界文本引导ZSOC仍然面临几个挑战,特别是在跨模态语义对齐和上下文尺度感知方面存在明显限制。为此,基于大型视觉语言模型CLIP(Radford et al., 2021)和自监督模型DINOv2(Oquab et al., 2024),我们提出了一种新的端到端ZSOC框架,名为PD-Count。PD-Count整合了单数和复数形式的自然语言提示信息,并引入了一种提示驱动的增强策略,以解决现有方法在理解用户意图、多尺度建模和目标敏感性学习方面的局限性。关键工作流程如图1(c)所示。PD-Count充分利用了CLIP的语义理解能力和DINOv2的视觉表示能力,使语义和补丁嵌入之间的隐式关联更加准确,从而构建了一个统一的多模态ZSOC模型。
具体来说,我们首先提出了加权语义提示调整(WSPT),它扩展了视觉提示调整(VPT)(Jia et al., 2022),以有效微调CLIP和DINOv2,获得更精细的视觉-语义特征。WSPT不是使用简单的可学习提示,而是将补丁嵌入输入到CLIP图像编码器的不同层次,使用语义条件化的提示进行微调,然后使用DINOViT编码器提取的视觉特征进行加权融合,生成强调感兴趣区域的补丁嵌入,从而增强模型理解图像语义的能力。其次,我们提出了一个可学习的动态频率转换(LDFT)模块,以增强WSPT在频率域生成的语义补丁嵌入,随后将其输入到多层感知器中,以增强全局信息的表示。然后,将增强后的视觉语义嵌入特征与原始输入进行加权融合,并通过与文本提示嵌入的对齐匹配获得中间相似性映射。同时,引入了基于等级意识的对比损失(Hoffmann, Behrmann, Gall, Brox, & Noroozi, 2022)来抑制中间相似性映射中的负面干扰。根据我们的观察,使用WSPT和LDFT获得的文本指令和查询图像之间的中间相似性映射已经合理地近似了计数对象的位置。尽管如此,我们设计了提示驱动的特征增强模块(PFEM),以增强跨层次尺度语义特征和全局上下文信息的自适应感知。这使得解码器在遇到未见类别时具有更强的泛化能力和更丰富的线索。这进一步促进了文本提示和查询图像之间的细粒度语义对齐。最后,通过逐通道连接中间相似性映射和LDFT增强的视觉-语义特征,获得频率域感知相似性映射。将获得的频率域感知相似性映射与PFEM增强的视觉-语义特征逐层融合,传输到计数解码器以生成最终的高质量密度特征图。实验结果表明,我们提出的PD-Count模型在FSC147数据集(Ranjan et al., 2021)和汽车计数数据集CARPK(Hsieh, Lin, & Hsu, 2017)上表现出优异的计数性能。总之,本研究的主要贡献如下:
我们提出了PD-Count,这是一种基于视觉语言模型CLIP和自监督模型DINOv2的新的零样本对象计数网络,具有提示驱动和动态频率域感知能力。我们设计了一种协作机制,该机制结合了基于语义提示调整的WSPT模块和频率域感知的LDFT模块,以增强文本提示和图像信息之间的跨模态语义对齐,生成高质量的中间相似性映射。我们提出了PFEM模块,有效聚合了文本-图像交互中的跨层次语义特征和全局上下文,增强了模型对多尺度对象实例的自适应感知。PD-Count在FSC147和CARPK数据集上均表现出优异的计数性能和泛化能力。