《Neural Networks》:On the Inherent Robustness of One-Stage Object Detection against Out-of-Distribution Data
编辑推荐:
本文提出基于特征图分析的未知物体检测算法FMap,无需模型重训练即可提升单阶段目标检测模型的开放世界鲁棒性,通过对比logits后处理方法和融合策略验证其有效性,并在未知物体检测基准上展现优于现有方法的性能。
Aitor Martinez-Seras | Javier Del Ser | Aitzol Olivares-Rad | Alain Andres | Pablo Garcia-Bringas
IDEKO,巴斯克研究与技术联盟(BRTA),Elgoibar,20870,西班牙
摘要
鲁棒性是开发安全可靠模型的一个基本方面,尤其是在这些模型被部署到开放世界中时。在这项工作中,我们分析了一阶段目标检测器在面对分布外(OoD)数据时具有鲁棒运行的内在能力。具体来说,我们提出了一种新的检测算法,用于从图像数据中检测未知对象,该算法利用了模型从每个样本中提取的特征。与其他最近的文献方法不同,我们的提案不需要重新训练目标检测器,从而允许使用预训练的模型。我们提出的OoD检测器利用了监督降维技术的应用来减轻维度灾难对模型提取的特征的影响。此外,它还利用高分辨率特征图以无监督的方式识别潜在的未知对象。我们的实验分析了不同算法配置和推理置信度阈值下检测已知和未知对象性能之间的帕累托权衡。我们还将我们提出的算法的性能与基于logits的事后OoD方法以及可能的融合策略进行了比较。最后,我们讨论了所有测试方法与最近发布的未知对象检测基准测试中最先进的OoD方法相比的竞争力。获得的结果验证了,当与我们的算法结合使用时,先进的事后OoD检测器的性能可以进一步提高。
引言
人工智能(AI)系统在现实世界应用中的快速发展和广泛采用突显了这些模型需要安全可靠的迫切需求(Bengio等人,2024年)。近年来,AI的可信度是一个备受争议的问题,引起了研究界的极大兴趣。2019年,欧盟(一个在此领域具有重要监管作用的机构)发布了《可信AI的伦理指南》,为了解释可信AI提供了重要突破。该文本概述了可信AI的七个关键要求,并确定了满足这些要求的三个基本支柱。AI系统的技术鲁棒性和安全性被认为是七个要求之一,也是可信性的一个基本支柱(Díaz-Rodríguez等人,2023年)。最近,另一个重要的监管机构——美国国家标准与技术研究院(NIST)在Tabassi(2023年)中将技术鲁棒性定义为系统在各种条件下保持其性能的能力。这不仅包括在预期场景下的一致运行,还包括在遇到意外事件的环境中最小化对个人潜在风险的能力。
为此,确保机器学习(ML)模型的安全性涉及开发能够处理未知语义的鲁棒系统,有效区分已知和未知数据实例。在图像数据的目标检测任务中,这些模型必须能够通过区分背景(无关信息)、已知对象(训练分布内的相关信息)和未知对象(训练分布外的相关信息)来在开放世界环境中导航。在这方面,大量的努力被投入到开放世界目标检测(OWOD)领域(Joseph等人,2021年;Wang等人,2023b年)。这一研究领域追求的目标是开发能够检测未知对象并随时间逐步学习新类别的模型。主要的研究集中在需要重新训练两阶段目标检测模型的方法上,例如Faster R-CNN。不同的重新训练策略旨在使学习到的模型具备识别更广泛对象的能力(包括训练数据中不存在的对象),例如持续学习方法或与对象存在相关的损失函数(对象性)。相比之下,预训练的目标检测模型在计算资源需求上较少,因为它们是在固定类别的数据集上优化的。然而,这种效率的代价是增加了仅检测熟悉对象的偏见,使得它们不太适合可能出现新未知对象的开放世界场景。
本手稿有助于理解预训练的目标检测模型在图像数据中检测未知对象的鲁棒性。我们的假设是,无需重新训练,单阶段目标检测模型可以固有地检测未知对象。为了探索这一点,我们引入了一种基于预训练模型的神经激活(特征图)的简单OoD检测算法。此外,我们还提出了一种无监督学习方法FMap,该方法利用特征图来提高对未知对象的召回率。
我们广泛的实验设置评估了该算法在不同配置和参数选择下的有效性,将其与基于logits的OoD方法和重新训练的目标检测模型进行了比较。我们进一步通过融合测试方法来探索潜在的改进,这些改进受到了Martinez-Seras等人(2023年)发现的启发。最后,我们将我们的方法与最先进的OWOD方法进行了比较,结果显示所提出的算法在基准测试中取得了更好的检测分数,而无需重新训练模型。为了指导我们的研究,我们提出了五个研究问题(RQs),这些问题结构化了我们的实验分析:
•FMap OoD检测器的最佳配置是什么?
•FMap与基于logits的事后OoD检测方法在单阶段目标检测器中的表现如何?
•基于特征的方法与基于logits的方法的融合是否优于其他潜在的集成配置?
•在单阶段模型上实现的未知对象检测算法与最先进的方法相比如何?
•FMap与基于logits的方法的融合是否在不同单阶段目标检测器中提高了OoD检测性能?
基于这些问题,本工作的主要贡献可以总结如下:
•对单阶段检测器的事后OoD技术进行了全面评估(RQ1 & RQ2):我们分析了传统OoD方法的有效性,并提出了FMap,这是一种无需重新训练的特征基方法,并评估了其在多种配置下的性能。
•FMap的设计及其改进(RQ1):我们介绍了一种利用特征图进行未知对象检测的轻量级算法,以及两种提高鲁棒性和召回率的扩展。
•用于提高鲁棒性的融合策略(RQ3):我们探索了将FMap与基于logits的方法相结合的集成方法,证明了混合方法在平衡已知和未知检测方面的优越性。
•与最先进的OWOD方法进行基准测试(RQ4):我们将我们的方法置于OWOD领域中,强调了其在无需重新训练或事先了解未知类别的情况下实现竞争性鲁棒性的能力。
•跨架构的泛化(RQ5):我们验证并确认了FMap和融合策略在多个YOLO版本中的适用性。
我们上述的贡献旨在证明预训练的目标检测模型本质上具有无需额外训练或语义信息即可区分未知对象的能力。
本文的其余部分组织如下:第2节回顾了目标检测的OoD技术,以及对OWOD领域最具影响力的工作的简要总结,以及本工作对相关文献的贡献的详细说明。第3节介绍了我们在图像中检测未知对象的算法1,首先概述了其复合算法步骤,然后详细描述了该方法。第4节概述了实验设置,而第5节分析和讨论了结果。最后,第6节总结了主要发现,并展望了未来可能的研究方向。
相关工作和贡献
本节提供了针对目标检测的现有OoD技术的概述(2.1小节),回顾了OWOD框架内的关键工作(2.2小节),将其与其他与开放世界学习相关的任务进行了比较(2.3小节),并介绍了本文对OoD文献的贡献(2.4小节)。
通过特征图特征化的开放世界目标检测
在本节中,我们介绍了我们提出的OoD检测算法,由于该算法依赖于模型内的特征图,因此此后将其称为FMap检测器。3.1小节介绍了FMap的一般工作流程,而3.2小节详细介绍了其每个复合算法步骤。接下来,3.3小节阐述了使用监督降维(SDR)与我们的检测器结合的好处。3.4小节概述了一种提高能力的方法
实验设置
为了评估所提出的FMap检测器的性能,我们设计了一系列广泛的实验,以回答引言中提出的五个RQ:
•FMap OoD检测器的最佳配置是什么?
•FMap与基于logits的事后OoD检测方法在单阶段目标检测器中的表现如何?
•基于特征的方法与基于logits的方法的融合是否优于其他潜在的集成配置?
•
结果与分析
我们现在开始展示和讨论为解决上一节中提出的RQs而获得的实验结果。首先,我们确定哪种FMap配置表现最佳(RQ1,5.2小节)。然后,我们将FMap与现有的事后方法进行比较(RQ2,5.3小节)。随后,我们将FMap与事后方法结合,以确定基于特征和基于logits的方法的集成是否比单独使用时获得更好的结果(RQ3,5.4小节)。
结论和未来研究方向
本研究专注于单阶段目标检测模型中未知对象的检测问题,这与开放世界目标检测范式密切相关。具体来说,我们提出了一种新的未知对象检测方法(FMap),该方法通过特征图来决定目标检测模型发出的对象预测是已知(ID)还是未知(OoD)对象。此外,我们还设计了两种改进方法
CRediT作者贡献声明
Aitor Martinez-Seras:撰写——原始草稿、软件、方法论、调查、形式分析、概念化。Javier Del Ser:撰写——审阅与编辑、可视化、验证、监督、项目管理、方法论、调查、资金获取、形式分析、概念化。Aitzol Olivares-Rad:撰写——审阅与编辑、软件。Alain Andres:撰写——审阅与编辑、验证、方法论、调查、形式分析、概念化。Pablo
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
A. Martinez Seras通过BAIKAINTEK博士支持计划获得了巴斯克政府的资金支持。J. Del Ser通过Consolidated Research Group MATHMODE(IT1866-26)和ELKARTEK计划(IKUN,授权号KK-2024/00064)获得了同一机构的资金支持。