无需源信息的领域自适应对象检测及语义补偿

《Pattern Recognition》:Source-Free Domain Adaptive Object Detection with semantics compensation

【字体: 时间:2026年05月02日 来源:Pattern Recognition 7.6

编辑推荐:

  宋唐|杨九正|毛叶|王博宇|甘燕|朱晓天 上海科技大学机器智能研究所,上海,200093,中国 **摘要** 强大的数据增强是先进的基于均值教师的源域自适应目标检测(SFOD)方法的核心组成部分,它能够在弱数据增强的基础上实现基于一致性的自监督优化。然而,我们的理论

  宋唐|杨九正|毛叶|王博宇|甘燕|朱晓天
上海科技大学机器智能研究所,上海,200093,中国

**摘要**
强大的数据增强是先进的基于均值教师的源域自适应目标检测(SFOD)方法的核心组成部分,它能够在弱数据增强的基础上实现基于一致性的自监督优化。然而,我们的理论分析和实证观察揭示了一个关键限制:强烈的数据增强可能会无意中擦除与类别相关的信息,从而导致类别间的虚假混淆。为了解决这个问题,我们引入了弱到强的语义补偿(WSCo)技术,该技术利用保留了完整语义的弱增强图像作为锚点,来丰富其强增强对应图像的特征空间。本质上,这补偿了在强增强过程中可能丢失的与类别相关的语义。值得注意的是,WSCo可以作为一个通用的插件实现,易于与任何现有的SFOD流程集成。广泛的实验验证了强增强对检测性能的负面影响,以及WSCo在提升现有检测模型在标准基准测试中的性能方面的有效性。我们的代码可在以下链接获取:https://github.com/tntek/source-free-domain-adaptive-object-detection

**引言**
源域自适应目标检测(SFOD)旨在将预训练在源域上的检测模型适应到无法访问源训练数据的未标记目标域[1]、[2]。当前的先进SFOD方法基于均值教师(MT)框架[3],该框架通过弱到强的数据增强机制实现自监督学习。在这种设计中,输入图像通过弱增强和强增强分别投影到两个数据流中,然后映射到它们的特征空间中。由教师模型提出的建议引导的结果区域对齐的实例特征对,使得每对特征对内部能够进行基于一致性的自监督学习。在这个过程中,强大的数据增强通过创建丰富的对比度来促进领域不变的特征提取。然而,随机的强干扰(如马赛克、颜色抖动和模糊)可能会擦除对类别至关重要的视觉成分,从而导致类别间的虚假混淆。例如,如图1所示,头部是识别“人”类别的关键判别特征。如果头部被马赛克化,模型可能会将图像错误分类为“伞”类别。

为了进一步研究这个问题,我们从信息论的角度分析了强增强过程。我们发现强增强引入了额外的信息熵,这在理论上导致了类别间的混淆。为了解决这一挑战,我们提出了弱到强的语义补偿(WSCo)方法。WSCo利用保留了完整语义的弱增强样本作为参考,来增强其强增强对应样本的表示,从而恢复在强增强过程中丢失的视觉信息。具体来说,我们在区域对齐的实例特征对上构建了一个语义共享空间,分别为弱增强和强增强构建了弱实例嵌入集(WIE)和强实例嵌入集(SIE)。这个潜在的嵌入空间通过一个映射网络学习得到,该网络通过对抗性语义校准进行调节。我们通过应用结合对比度正则化的梯度近似来实现这种校准。为了实现从WIE到SIE的知识转移,我们开发了一种动态伪标记策略。这涉及在训练过程中逐步在WIE上建立和更新一组原型。然后通过区域对关联将WIE的伪标签转移到SIE,从而实现监督下的对比学习,以增强SIE的表示。考虑到目标检测任务,我们的对比方案同时利用了实例和图像的不确定性,整合了富含语义的正对比度,同时适应性地消除了背景的负面影响。

**我们的贡献总结如下:**
(1) 我们指出了先进SFOD方法中由强数据增强引起的人工类别间混淆的根本问题,并从信息论的角度提出了一个理论框架来解决这个问题。
(2) 我们还引入了一种新的缓解方法WSCo,该方法利用弱增强样本作为对齐参考,恢复了在强增强过程中丢失的与类别相关的视觉信息。
(3) 广泛的实验表明,在训练过程中将WSCo作为通用插件模块使用时,可以显著提升先进SFOD模型在标准基准测试中的性能。

**相关工作**
无监督域自适应目标检测(UDA-OD)。与SFOD不同,UDA-OD可以访问源数据。方法大致可以分为五种策略。第一种是对抗性特征学习[4]、[5],使用梯度反转层。第二种是伪标记[6]、[7],使用高置信度预测来训练目标域。第三种是图像到图像的转换[8]、[9],使用非配对转换模型在域之间转换图像。第四种是...

**问题陈述**
假设源域Ds={(Iis,Yis)}i=1Ns是标记的,其中Yis={(bjs,cjs)}j=1Ms表示第i个源图像Iis中的对象的边界框和类别,Ms表示Iis中对象的总数,Ns表示源图像的总数。目标域Dt={xi}i=1Nt是未标记的,其中Nt是目标图像的总数,这些目标图像遵循与源域不同的分布。我们的目标是将...

**模型架构**
如图2所示,WSCo建立在标准的MT框架上,具有目标Lmt。整个模型包括作为教师模型和学生模型的弱分支和强分支。这两个分支都基于典型的检测器(如Faster-RCNN [30]),并作为源模型进行初始化,遵循现有的SFOD方法。具体来说,在强分支中,首先将强增强后的图像I?转换为相应的特征图...

**数据集**
我们的实验涉及七个数据集:Cityscapes [35]、Foggy-Cityscapes [36](我们仅使用最严重的雾天条件0.02%)、Pascal [37]、Clipart [38]、Watercolor [38]、KITTI [39] 和 Sim10K [40]。它们形成了两种场景下的五个任务:
(1) 城市场景适应:Cityscapes → FoggyCityscapes、Sim10k → Cityscapes 和 KITTI → Cityscapes;
(2) 图像风格适应:Pascal → Watercolor 和 Pascal → Clipart。

**实现细节**
为了公平比较,我们将WSCo与选定的基础模型集成在一起...

**进一步模型分析**
本节基于SMT组进行模型分析,包括SMT和SMT+WSCo,不关注任何其他特定设计。这种方法使我们的评估能够突出所提出的WSCo方法。

**基于提议的不确定性估计分析**
为了直观理解图像不确定性估计的工作机制,这部分在图10中可视化了两个典型图像的图像不确定性估计。如顶部行所示,提议的数量...

**结论**
在本文中,我们探讨了SFOD方法中由强增强引起的人工类别间混淆问题。首先,我们从信息论的角度理论上证明了强增强导致了这一现象。随后,为了缓解这个问题,我们引入了WSCo方法,该方法通过整合来自弱侧的补偿信息(包含完整语义)来增强强侧的表示,从而恢复了关键视觉成分的丢失。

**作者贡献声明**
宋唐:撰写——原始草稿、方法论、资金获取、形式分析、概念化。
杨九正:验证、软件、调查、数据管理。
毛叶:撰写——审稿与编辑、监督、资金获取。
王博宇:验证、方法论、调查。
甘燕:可视化、资金获取、数据管理。
朱晓天:撰写——审稿与编辑、监督、方法论。

**利益冲突声明**
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

**致谢**
本工作部分由国家自然科学基金(62476169、62206168、62276048);UKRI-AHRC创意产业研究与发展国家实验室(AH/Y001060/1);德国研究基金会和中国国家自然科学基金在跨模态学习项目Crossmodal Learning下的合作(合同编号Son-derforschungsbereich Transregio 169);以及中国博士后奖学金计划(GZC20233323)资助。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号