《Pattern Recognition》:Image Signal Process with Dynamic Class-rebalanced and IoU-threshold for Unsupervised Domain Adaptive Dark Object Detection
编辑推荐:
本文提出基于ISP动态教师架构的暗对象检测方法,通过自监督学习的ISP退化模块模拟相机信号处理,结合类不平衡校正模块和动态IoU阈值调整策略,有效解决数据分布不均和伪标签精度问题,在BDD100k和SHIFT数据集上取得49.6%和52.8%的AP性能。
张胤|张永强|张茜|张曼|田睿|丁明丽|博格丹·拉杜卡努|刘丹
哈尔滨工业大学仪器科学与工程学院,中国哈尔滨 15001
摘要
在黑暗条件下进行目标检测一直是一个巨大的挑战,因为低光照图像的形成过程非常复杂。目前,主流方法通常采用带有教师-学生架构的域适应技术来解决黑暗目标检测问题,它们通过在标注的日间图像上使用不可学习的数据增强策略来模拟黑暗条件。需要注意的是,这些方法忽略了建模内在的成像过程,即图像信号处理(ISP),这对于相机传感器生成低光照图像非常重要。此外,数据集中的类别不平衡常常导致将少数类错误地检测为多数类,这对黑暗目标检测也有很大影响。为了解决上述问题,本文提出了一种名为ISP Dynamic Teacher的新方法,该方法从新的角度探索了教师-学生架构(即基于自监督学习的ISP退化、动态类别平衡和IoU阈值调整策略)。具体来说,我们首先根据每个图像的真实标签按批量大小裁剪图像,并将它们保存到Mix-Instances-Bank中。然后,我们通过创建混淆矩阵并使用权重采样算法来识别Mix-Instance-Bank中与原始源图像中的基础实例最匹配的混合实例。随后,借助Mixup增强技术将它们混合在一起,从而解决目标检测中的类别不平衡问题。此外,我们设计了一个与相机传感器的ISP流程一致的日间到夜间转换模块(ISP-DTM),使增强后的图像更符合相机捕获的自然低光照图像,ISP相关参数以自监督方式学习。为了避免共享编码器中ISP退化和检测任务之间的冲突,我们提出了一种解耦正则化(DR)方法,该方法通过最小化余弦相似度的绝对值来解耦这两个任务,并使两个梯度向量尽可能正交。在此基础上,我们进一步设计了动态IoU阈值调整(DIA)策略,以找到被高静态阈值错误过滤掉的真正例(TP)伪标签。广泛的实验表明,我们在BDD100k数据集(AP值为49.6%)和SHIFT数据集(AP值为52.8%)上实现了最先进的黑暗目标检测性能。代码可在以下链接找到:
https://github.com/zhangyin1996/ISP-Teacher引言
目标检测在各个领域(如自动驾驶[1]、[2])取得了显著的成功。然而,这些在高质量日间图像上训练的模型在低光照图像上的表现往往较差,因为这些在黑暗条件下拍摄的图像受到各种类型的光线和不良噪声的影响。此外,对低光照图像进行标注也非常具有挑战性。因此,无法像对待日间图像那样为低光照图像获取高质量的标注信息。目前,在黑暗条件下进行鲁棒且准确的目标检测对于安全关键领域变得越来越重要,但由于能见度低和传感器噪声的存在,这仍然是一个巨大的挑战。
解决这个问题的一个简单方法是对低光照图像进行先期增强处理,然后再将其发送到现成的检测器中进行目标分类和回归。不幸的是,尽管增强后的图像在视觉上对人类更友好,但并不能从机器视觉的高级任务中受益[6]、[7]。最近,教师-学生架构在半监督目标检测[3]、[8]、[9]中引起了广泛关注,并且在域适应目标检测领域也取得了优异的结果[4]、[10]、[11]。然而,如图1所示,我们发现像AT[10]、TDD[4]这样的最佳教师-学生UDA方法在常规的域适应数据集(例如从城市景观到雾蒙蒙的城市景观)上取得了良好的结果,但在日间到夜间的条件下表现较差。它们的性能甚至低于直接在日间图像上训练并应用于夜间图像的基线检测器(Faster-RCNN[5],AP值为41.1%)。因此,尽管提出了UDA来解决这个问题,现有的UDA方法在黑暗条件下仍然面临一些限制和挑战:
常用于黑暗目标检测任务的数据集(例如BDD100k[12]和SHIFT[13])存在严重的类别不平衡问题。如图2所示,这两个数据集的类别分布完全不同。对于BDD100k数据集,'汽车'是多数类,'行人'是少数类;而对于SHIFT数据集,'汽车'和'行人'都是多数类。此外,两个数据集中多数类和少数类之间的差距非常大,这导致日间到夜间域适应检测的性能较差。ii) 大多数基于教师-学生的方法通过优化框架[4]或选择有用的真实标签[8]来解决域偏差问题。它们通常通过在可用的日间图像上使用传统的不可学习数据增强策略来模拟黑暗条件。然而,这些方法忽略了相机传感器的内在成像过程(ISP),可能会扭曲场景的物理属性,从而将域偏差引入检测器。相比之下,我们的可学习ISP模块以自监督方式建模真实的相机ISP流程(例如色调映射、伽马校正、噪声建模和白平衡),使模型能够捕获在不同域中保持一致的内在视觉信息,从而提高UDA设置中的适应能力。iii) 大多数教师-学生UDA方法使用静态阈值来生成伪标签。然而,这些获得的伪标签可能非常不准确[3],即当过滤掉低置信度的伪标签时,真正例的伪标签也会被同时过滤掉。此外,在黑暗条件下,小物体或少数类本来就很难看到,更高的静态阈值会导致它们进一步丢失[14],这反过来使得模型在训练过程中更难以学习这些物体的表示。如图1所示,ISP-Teacher[15]未能检测到远处的小物体,例如'交通灯'(绿色框)。
在本文中,我们的目标是通过结合可学习的基于ISP的退化模块和动态类别平衡及IoU阈值策略,在日间到夜间域转换下构建一个鲁棒的教师-学生框架。请注意,本文扩展了我们之前在AAAI 2024上发表的工作ISP-Teacher[15]。在ISP-Teacher中,我们从基于自监督学习的ISP退化的新角度探索了教师-学生架构,用于黑暗目标检测。更具体地说,我们研究了如何使用自监督学习来捕获不受光照变化影响的内在视觉信息,从而解决学生网络的域偏差问题。与ISP-Teacher相比,我们在本文中做了两个扩展:(1)提出了一个类别平衡模块(CRM)来解决黑暗目标检测中的类别不平衡问题;(2)设计了一个动态IoU阈值调整(DIA)来提高伪标签的质量。改进后的方法名为ISP Dynamic Teacher,本文的贡献如下:
•我们首先提出一个类别平衡模块(CRM),通过创建混淆矩阵并使用权重采样算法来找到与原始源图像中的基础实例最匹配的混合实例。然后通过Mixup增强技术将它们混合在一起,从而解决黑暗目标检测中的类别不平衡问题。
•我们设计了一个日间到夜间转换模块(ISP-DTM),该模块受到相机传感器图像信号处理流程的启发,可以从日间图像生成黑暗图像,从而使增强后的图像更符合相机捕获的自然低光照图像,从而解决学生网络的域偏差问题。
•此外,通过最小化两个不同任务(即基于自监督学习的ISP退化和目标检测)的余弦相似度梯度,并最大化同一任务的余弦相似度,施加了解耦正则化。
•最后,我们引入了动态IoU阈值调整(DIA),通过计算教师和学生边界框预测的IoU来动态调整阈值,从而进一步提高伪标签的质量。
•在BDD100k和SHIFT数据集上进行的广泛实验表明了我们提出方法的有效性。特别是,ISP Dynamic Teacher在BDD100k数据集上的性能达到了新的SOTA水平(AP值为49.6%),在SHIFT数据集上的性能为52.8%。
相关工作
黑暗条件下的目标检测。
为了解决低光照条件下的目标检测问题,一种直接的方法是使用低光照增强方法[16]处理黑暗图像,然后将去暗化的图像发送到主流的目标检测方法[5]、[17]进行推理。然而,这些方法的检测性能在一些自然黑暗图像上并不令人满意。因此,有一些端到端的方法同时训练低光照增强和目标检测
提出的方法
在本节中,我们详细描述了所提出的ISP动态教师方法,用于无监督的域适应黑暗目标检测。首先,我们展示了所提出的新颖教师-学生架构的概述,如图3所示。然后,提出了一个基于混淆矩阵和权重采样算法的类别平衡模块(CRM)来解决类别不平衡问题。基于自监督学习的ISP退化包括日间到夜间转换模块(ISP-DTM)等
实验
在本节中,我们在BDD1000k[12]和SHIFT[13]数据集上对我们的ISP动态教师方法进行了实验验证。首先,我们简要介绍了使用的数据集、指标和实现细节。然后,我们展示了该方法在这两个数据集上的主要结果,并将我们的方法与会议版本ISP-Teacher以及一些SOTA方法进行了比较。此外,还进行了一些消融研究来验证每个组件的有效性
结论与未来工作
在本文中,我们提出了一种名为ISP Dynamic Teacher的新颖黑暗目标检测方法,用于处理没有标注的具有挑战性的低光照场景。为了克服主流教师-学生架构基UDA方法在日间到夜间条件下表现不佳的问题,我们设计了一个与相机传感器的ISP流程一致的日间到夜间转换模块(ISP-DTM),使增强后的图像更符合相机捕获的自然低光照图像
CRediT作者贡献声明
张胤:撰写——原始草稿、验证、软件、方法论、调查、数据管理、概念化。张永强:撰写——审稿与编辑、方法论、调查、资金获取。张茜:验证、方法论、数据管理。张曼:验证、调查。田睿:可视化、软件、方法论。丁明丽:调查、资金获取。博格丹·拉杜卡努:撰写——审稿与编辑、监督。刘丹:监督、资金提供
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了内蒙古自然科学杰出青年学者基金(编号2025JQ009)和内蒙古杰出青年人才发展计划的支持。本工作还得到了MICIU/AEI/10.13039/501100011033和ERDF/EU的资助,以及加泰罗尼亚自治区政府的研究与大学部门(参考编号2021SGR01499)和加泰罗尼亚自治区CERCA计划的支持。