PD-Count:基于提示的零样本对象计数方法,结合动态频率变换技术

《Expert Systems with Applications》:PD-Count: Prompt-driven Zero-shot Object Counting with Dynamic Frequency Transformation

【字体: 时间:2026年01月23日 来源:Expert Systems with Applications 7.5

编辑推荐:

  PD-Count基于CLIP和DINOv2提出零样本目标计数框架,通过动态频率变换增强多尺度视觉语义特征,结合加权语义提示调优和提示驱动特征增强模块,解决跨模态语义对齐和尺度感知不足问题,显著提升开放场景下的计数精度。

  
Kai Liu|Jun Sang|Cheng Qian|Peng Zhu|Fa Zhu|Xiaofeng Xia|David Camacho
重庆大学大数据与软件工程学院,中国重庆,401331

摘要

零样本对象计数(ZSOC)利用文本提示来计算查询图像中任意指定类别的对象实例,克服了传统方法对预定义类别和大量标注数据的依赖性,在开放世界中具有广泛的应用前景。然而,现有的ZSOC方法在深度利用文本提示和有效融合多尺度视觉-语义特征与全局上下文信息方面存在显著不足,导致跨模态语义对齐效果不佳。为了解决这些问题,我们提出了PD-Count,这是一种基于对比语言-图像预训练(CLIP)的提示驱动型ZSOC框架。首先,加权语义提示调整将文本提示注入CLIP的不同编码层,并使用可学习的权重进行微调;然后,将这些权重与DINOV2编码器提取的视觉特征融合,生成专注于目标区域的视觉-语义特征。其次,可学习的动态频率转换模块重建视觉语义的结构不变特征,并使用多层感知器增强全局信息的表示。随后,将频率域中增强的视觉-语义嵌入信息与中间相似性映射逐通道连接,以获得针对计数的文本-图像相似性映射。最后,为了促进对不同尺度对象实例的自适应感知,我们设计了一个提示驱动的特征增强模块,有效捕获跨层次的多尺度语义特征和全局上下文信息。这最终提高了计数解码器对未见类别的泛化能力。PD-Count在对象计数数据集FSC-147和跨数据集基准CARPK上表现出优异的性能。

引言

大多数现有的对象计数方法专注于特定类别对象的狭窄应用领域,例如人群计数(Li, Hu, Abousamra, Chen, 2023; Liang, Xie, Zou, Ye, Xu, Bai, 2023)、动物计数监控(Zhao, Shen, Li, Zhong, & Tan, 2025)和车辆计数(Ciampi, Gennaro, Carrara, Falchi, Vairo, Amato, 2022; Zhang, Zhang, Zhang, Guo, Wang, Lu, 2024b)。然而,这些方法往往受到大量特定类别训练数据的限制,难以扩展到未见类别。此外,在智能监控系统(Murat, 2024; Shen, Tong, Li, Kong, 2025)、农业和生态监测(Farjon, Huijun, Edan, 2023; Zhao, Shen, Li, Zhong, Tan, 2025)以及工业制造(Jiang, Zhai, Ke, Zhou, Genovese, Piuri, Scotti, 2024; Zhang, Zhang, Zhang, Guo, Wang, Lu, 2024b)等应用领域,对象计数通常涉及复杂且多变的对象类别。为了提高这些应用场景中计数模型的泛化能力,一些研究人员开始探索能够跨不同对象类别进行计数的先进方法。因此,类别不可知的计数(CAC)(Lu, Xie, & Zisserman, 2018)最近受到了广泛关注。CAC方法可以根据少量示例估计任意类别对象的数量,具有泛化到未知场景的潜力,并减少对特定类别训练数据的依赖。
早期探索CAC的工作主要利用少量视觉示例(少样本)来实现任意对象类别的计数(Ranjan, Sharma, Nguyen, Hoai, 2021; Shi, Lu, Feng, Liu, Cao, 2022; Yang, Su, Hsu, Chen, 2021)。一些方法甚至在一次性设置中取得了出色的结果(?uki?, Luke?i?, Zavrtanik, & Kristan, 2023)。然而,这些依赖示例的CAC方法不可避免地依赖于大规模训练数据的标注,并且需要对每个单独的类别进行专门处理。因此,相关的劳动力成本仍然是一个重要问题,如图1(a)所示。为了解决这个问题,无参考(即零样本)对象计数方法逐渐受到关注,该方法主要关注识别图像中的显著对象。采用了两阶段训练流程(Liu, Zhong, Zisserman, & Xie, Ranjan, Nguyen, 2022)来识别CAC,如图1(b)所示。尽管取得了进展,但它们潜在的定位错误导致在存在多个对象类别时无法有效区分感兴趣的对象类别。
随着大型语言模型(LLMs)的蓬勃发展,以GPT-4为代表的模型获得了文本和图像的多模态理解能力,并在人工智能的各个领域取得了显著进展,例如医疗信息领域(Guo et al., 2025)和计算机视觉领域(Radford, Kim, Hallacy, Ramesh, Goh, Agarwal, Sastry, Askell, Mishkin, Clark, et al., 2021; Wang, Han, Liu, Yin, Gao, 2025)。在这种背景下,一些研究人员创新地将它们扩展到类别不可知的对象计数任务。通过整合自然语言和视觉图像,并借助用户输入的文本提示,一种新的文本引导的零样本对象计数(ZSOC)(Jiang, Liu, Chen, 2023; Xu, Le, Nguyen, Ranjan, Samaras, 2023)方案逐渐出现并迅速成为研究热点。与传统的特定类别计数和少样本CAC相比,ZSOC在核心设置上存在本质差异。特定类别计数方法通常在单一预定义类别上进行训练,适用于封闭世界环境。虽然少样本CAC实现了类别不可知的能力,但它依赖于少量标注的视觉示例作为查询条件。相比之下,ZSOC完全放弃了视觉示例,仅通过自然语言提示进行计数,从而实现了真正的开放场景泛化,如图1(c)所示。然而,从依赖示例到仅使用文本提示的范式转变也引入了两个核心挑战:语义对齐的模糊性(Jiang et al., 2023)和尺度感知的不足。首先,关于语义对齐的模糊性,与提供明确视觉外观细节的示例不同,文本提示以抽象和隐含的方式描述目标。这使得在文本描述和图像中的具体目标之间建立精确匹配变得困难,因此由于语义模糊性,计数偏差容易发生。其次,在尺度感知的不足方面,文本提示通常不编码目标尺度信息。然而,在现实世界场景中,目标尺度存在显著变化。如果模型无法自主适应跨尺度变化,其计数准确性将因漏检和误报而受到影响。因此,为了实现更通用的ZSOC,模型不仅需要准确理解未见类别的对象,还需要具备跨尺度语义传递的能力。
总之,对象计数正在从封闭环境中的特定类别识别发展到开放世界中的类别不可知计数。然而,现有的开放世界文本引导ZSOC仍然面临几个挑战,特别是在跨模态语义对齐和上下文尺度感知方面存在明显限制。为此,基于大型视觉语言模型CLIP(Radford et al., 2021)和自监督模型DINOv2(Oquab et al., 2024),我们提出了一种新的端到端ZSOC框架,名为PD-Count。PD-Count整合了单数和复数形式的自然语言提示信息,并引入了一种提示驱动的增强策略,以解决现有方法在理解用户意图、多尺度建模和目标敏感性学习方面的局限性。关键工作流程如图1(c)所示。PD-Count充分利用了CLIP的语义理解能力和DINOv2的视觉表示能力,使语义和补丁嵌入之间的隐式关联更加准确,从而构建了一个统一的多模态ZSOC模型。
具体来说,我们首先提出了加权语义提示调整(WSPT),它扩展了视觉提示调整(VPT)(Jia et al., 2022),以有效微调CLIP和DINOv2,获得更精细的视觉-语义特征。WSPT不是使用简单的可学习提示,而是将补丁嵌入输入到CLIP图像编码器的不同层次,使用语义条件化的提示进行微调,然后使用DINOViT编码器提取的视觉特征进行加权融合,生成强调感兴趣区域的补丁嵌入,从而增强模型理解图像语义的能力。其次,我们提出了一个可学习的动态频率转换(LDFT)模块,以增强WSPT在频率域生成的语义补丁嵌入,随后将其输入到多层感知器中,以增强全局信息的表示。然后,将增强后的视觉语义嵌入特征与原始输入进行加权融合,并通过与文本提示嵌入的对齐匹配获得中间相似性映射。同时,引入了基于等级意识的对比损失(Hoffmann, Behrmann, Gall, Brox, & Noroozi, 2022)来抑制中间相似性映射中的负面干扰。根据我们的观察,使用WSPT和LDFT获得的文本指令和查询图像之间的中间相似性映射已经合理地近似了计数对象的位置。尽管如此,我们设计了提示驱动的特征增强模块(PFEM),以增强跨层次尺度语义特征和全局上下文信息的自适应感知。这使得解码器在遇到未见类别时具有更强的泛化能力和更丰富的线索。这进一步促进了文本提示和查询图像之间的细粒度语义对齐。最后,通过逐通道连接中间相似性映射和LDFT增强的视觉-语义特征,获得频率域感知相似性映射。将获得的频率域感知相似性映射与PFEM增强的视觉-语义特征逐层融合,传输到计数解码器以生成最终的高质量密度特征图。实验结果表明,我们提出的PD-Count模型在FSC147数据集(Ranjan et al., 2021)和汽车计数数据集CARPK(Hsieh, Lin, & Hsu, 2017)上表现出优异的计数性能。总之,本研究的主要贡献如下:
  • 我们提出了PD-Count,这是一种基于视觉语言模型CLIP和自监督模型DINOv2的新的零样本对象计数网络,具有提示驱动和动态频率域感知能力。
  • 我们设计了一种协作机制,该机制结合了基于语义提示调整的WSPT模块和频率域感知的LDFT模块,以增强文本提示和图像信息之间的跨模态语义对齐,生成高质量的中间相似性映射。
  • 我们提出了PFEM模块,有效聚合了文本-图像交互中的跨层次语义特征和全局上下文,增强了模型对多尺度对象实例的自适应感知。PD-Count在FSC147和CARPK数据集上均表现出优异的计数性能和泛化能力。
  • 相关工作

    相关工作

    本节回顾了与我们提出的方法最相关的两个主要领域——特定类别计数和类别不可知计数的先前研究,并在表1中进行了总结。此外,我们还回顾了本文讨论的视觉语言预训练模型和语言提示学习的研究进展。

    提出的方法

    本节介绍了提出的视觉语言计数框架PD-Count的整体架构,如图2所示。PD-Count的基线与Seunggu Kang(Kang et al., 2024)提出的VLBase相同,后者利用了CLIP模型的视觉语言定位能力。简而言之,PD-Count主要在VLBase的基础上进行了三项改进,包括加权语义提示调整(WSPT)、可学习的动态频率转换(LDFT)和提示驱动的特征

    实验

    本节详细阐述了实验的各个方面。具体来说,我们在4.1、4.2和4.3节分别探讨了实现细节、用于评估的数据集和评估指标。在4.4节中,我们展示了我们的模型与现有最先进方法的比较分析。随后,在4.5节中,我们展示了消融实验的结果,深入剖析了模型的各个组成部分。然后,在4.6节中,我们

    结论与未来工作

    在这项工作中,我们设计了一个新的端到端框架PD-Count,它融合了频率域感知和视觉语言大型模型的优势,实现了ZSOC。简而言之,我们的基线模型基于预训练的大型视觉语言模型CLIP。随后,PD-Count巧妙地融入了三个核心组件,以提高其任务特异性和对象敏感性。其中,WSPT模块引入了加权语义提示调整机制,而LDFT模块

    CRediT作者贡献声明

    Kai Liu:概念化、数据整理、形式分析、方法论、可视化、撰写——原始草稿。Jun Sang:资金获取、项目管理、资源协调、监督。Cheng Qian:形式分析、撰写——审阅与编辑。Peng Zhu:形式分析、撰写——审阅与编辑。Fa Zhu:监督、撰写——审阅与编辑。Xiaofeng Xia:监督、验证。David Camacho:监督、撰写——审阅与编辑。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号