基于短语锚定的风格迁移技术在单域泛化目标检测中的应用

《IEEE Transactions on Circuits and Systems for Video Technology》:Phrase Grounding-Based Style Transfer for Single-Domain Generalized Object Detection

【字体: 时间:2026年01月29日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  单域广义目标检测旨在通过训练时仅使用单一源域的数据提升模型对多个目标域的泛化能力。本文提出短语锚定风格迁移方法(PGST),利用GLIP模型捕捉目标域风格并迁移至源域,生成语义丰富的视觉特征以微调模型,实现单域训练下的跨域泛化。实验表明,该方法在五个天气驾驶基准测试中平均mAP提升8.8%,优于或等同于传统域适应方法。

  

摘要:

单域泛化目标检测旨在仅使用来自单一源域的数据,在训练过程中提升模型对多个未见目标域的泛化能力。这是一个实际且具有挑战性的场景,因为模型需要在不将目标域数据纳入训练过程的情况下解决域偏移问题。在本文中,我们提出了一种基于短语锚定的风格迁移(PGST)方法来解决这一任务。具体来说,我们首先定义文本提示来描述潜在未见目标域中的对象。然后,我们利用基于语言和图像的预训练(GLIP)模型来捕捉这些目标域的风格,并从源域到目标域进行风格迁移。从源域迁移过来的视觉特征在语义上非常丰富,且与目标域中假设的对应特征非常接近。最后,我们利用这些经过风格迁移的视觉特征对GLIP模型进行微调。通过引入这些想象中的对应对象,检测器能够在训练过程中仅使用单一源域就能有效地泛化到未见的目标域。我们的方法显著提高了平均精度(mAP),在五个不同的天气驱动基准测试中平均提升了8.8%。值得注意的是,在几个具有挑战性的场景中,我们的方法优于或达到了需要目标域数据进行训练的域自适应目标检测方法的性能。

引言

随着深度学习[1]、[2]、[3]、[4]、[5]、[6]的发展,计算机视觉[7]、[8]、[9]领域中的目标检测任务取得了突破性进展。这些目标检测模型通常表现出优异的性能,但往往依赖于训练集和测试集遵循相同分布的假设以确保其有效性。然而,在开放环境中,由于环境、设备和人为干预等因素,测试数据集的分布存在变化,因此需要标注大量数据以适应可能出现的任何数据分布。这需要大量的手动和计算资源。为此,近年来域适应(DA)技术受到了广泛关注。其目标是提高在训练集(源域)上训练的模型对测试集(目标域)的泛化能力,尽管这两个域在某种程度上具有相关性,但它们的分布不同[10]、[11]。最近,域适应(DA)技术在计算机视觉任务(如图像分类[12]、[13]、[14]、[15]和目标检测[16]、[17])中得到了广泛应用,并取得了出色的性能。在图像分类中,DA侧重于跨域对齐全局图像特征。相比之下,目标检测更为复杂,因为它不仅要对对象进行分类,还要在图像中准确定位它们。因此,目标检测的域适应必须解决由域偏移引起的识别和定位差异问题,这使得它比图像分类更具挑战性[18]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号