编辑推荐:
纹理偏见分析及TexDrop增强方法在目标检测中的应用研究。
Jiwen Tang|Gu Wang|Ruida Zhang|Xiangyang Ji
中国地质大学(北京)人工智能学院,北京,100083,中国
摘要
卷积神经网络(CNN)被广泛用于物体检测任务,但最近的研究表明,它们在物体识别时更依赖于纹理而非形状,这种现象被称为纹理偏见。这种偏见使它们容易受到图像损坏、领域变换和对抗性扰动的影响,对实际应用(尤其是在安全关键和工业应用中)构成了重大挑战。尽管其重要性显而易见,但物体检测中的纹理偏见仍然很大程度上未被充分研究。为了解决这一差距,我们首先对多种广泛使用的基于CNN的检测架构中的纹理偏见进行了全面分析,证明了这一问题的普遍存在及其负面影响。受这些发现的启发,我们提出了一种简单而有效的方法TexDrop,通过增加CNN中的形状偏见来提高其准确性和鲁棒性。具体来说,TexDrop通过简单的边缘检测随机删除训练图像的纹理和颜色,迫使模型根据物体的形状进行检测,从而增加形状偏见。与需要架构修改、大量额外训练数据或复杂正则化方案的先前方法不同,TexDrop与模型无关,易于集成到现有的训练流程中,并且计算开销可以忽略不计。在Pascal VOC、COCO以及各种损坏的COCO数据集上的密集实验表明,TexDrop不仅提高了多种架构的检测性能,还一致增强了对抗各种图像损坏和纹理变化的鲁棒性。我们的研究为物体检测器中的纹理依赖性提供了实证见解,并为开发更强大和可靠的物体检测系统在实际应用中提供了实用解决方案。
引言
物体检测是计算机视觉中的一个基本任务,在自动驾驶[1]、[2]、监控[3]、机器人技术[4]、医疗保健[5]、零售[6]等领域有广泛的应用。卷积神经网络(CNN)在物体检测方面取得了显著进展,在各种基准数据集上实现了最先进的性能[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]。然而,尽管取得了成功,基于CNN的物体检测器仍然容易受到分布外数据、图像损坏和对抗性扰动的影响。这些弱点阻碍了它们的大规模部署,特别是在安全关键和实际工业应用中,那里鲁棒性和可靠性至关重要。
导致CNN缺乏鲁棒性的一个关键因素是它们强烈的纹理偏见:在识别物体时过分依赖纹理线索而非全局形状结构[15]。即使全局形状被破坏,CNN也能利用纹理线索准确分类物体[16]。然而,它们在处理保留形状但缺乏纹理的草图或纹理被改变的风格化图像时遇到困难[17]、[18]。当看到一张覆盖了大象皮肤纹理的猫的图像时,CNN经常将其错误地分类为大象而不是猫[18]。这种对纹理而非形状的依赖使CNN对分布变换和图像损坏非常敏感,因为纹理线索很容易被噪声、模糊或环境变化所改变。相比之下,形状在失真和损坏下比纹理更稳定[19]、[20],这表明物体检测器可以从更强的形状偏见表示中受益。尽管纹理偏见的影响显著,但在图像分类中已经得到了广泛研究,但在需要语义理解和精确空间定位的更复杂的物体检测任务中仍然研究不足。纹理偏见对物体检测模型的影响程度尚不清楚,这引发了重要的研究问题:纹理偏见如何影响基于CNN的物体检测模型,明确减少这种偏见如何提高它们的鲁棒性和泛化能力?
已经提出了一些方法来减少纹理偏见并增强CNN中的基于形状的特征学习。先前的工作表明,在Stylized-ImageNet[18]上进行训练(通过风格转换去除纹理线索)可以促进基于形状的表示。其他方法引入了架构修改或学习策略,以惩罚早期卷积层中对局部纹理模式的依赖[21]。信息丢弃技术也被探索用来迫使CNN关注更具信息量的全局结构[22]。最近的研究表明,通过在CNN中实施Top-K机制来强制激活稀疏性可以诱导基于形状的表示,从而在不牺牲分类准确性的情况下提高对纹理变化的鲁棒性[23]。同时,设计大核CNN已被证明可以增加有效感受野并增强形状偏见,从而实现最先进的性能[24]、[25]。然而,这些方法主要是为图像分类设计的,它们在物体检测中的有效性尚不清楚。鉴于物体检测需要语义解释和实例级别的几何定位,理解纹理偏见在此任务中的作用对于开发鲁棒的检测系统至关重要。
为了解决这个问题,我们系统地分析了基于CNN的物体检测模型中的纹理和形状偏见,并提出了一种简单而有效的方法TexDrop,以减轻纹理偏见并增强这些模型中的基于形状的学习。TexDrop使用简单的边缘检测从训练图像中随机删除纹理和颜色信息,迫使模型关注鲁棒的形状表示而不是表面纹理,从而增强形状偏见。与需要架构修改或复杂对抗性训练的先前方法不同,TexDrop与模型无关,计算效率高,并且可以无缝集成到现有的训练流程中,计算开销微乎其微。
为了评估TexDrop的有效性,我们为物体检测建立了一个全面的鲁棒性基准,测试了在Pascal VOC[26]、COCO[27]和多个损坏的COCO数据集(包括COCO-C[1]和Stylized COCO[28])上用TexDrop训练的模型。实验结果表明,TexDrop在各种CNN架构中一致提高了物体检测的准确性和鲁棒性,减少了在噪声、模糊和纹理失真等各种损坏下的性能下降。这些发现弥合了纹理偏见研究和物体检测之间的差距,为在工业和安全关键应用中开发更强大和可靠的AI驱动的感知系统提供了实用且可扩展的解决方案。
简而言之,本工作的贡献可以总结如下:
•我们对基于CNN的物体检测器中的纹理依赖性进行了全面的实证分析,研究了纹理变化和常见损坏如何影响多个检测器和数据集的检测性能。
•我们引入了TexDrop,这是一种简单而有效的方法,可以在不进行任何架构修改的情况下增强形状偏见,并提高模型在多种物体检测架构中的准确性和泛化能力,同时可以无缝集成到现有的训练流程中,计算开销可以忽略不计。
•我们建立了一个全面的物体检测鲁棒性基准,证明了TexDrop在多个数据集中一致提高了对损坏的准确性和鲁棒性(见图1)。
通过弥合纹理偏见研究和物体检测之间的差距,本研究为提高实际应用中物体检测模型的鲁棒性和可靠性提供了理论见解和实用、可扩展且计算效率高的解决方案。
本文的其余部分组织如下:第2节回顾了有关纹理偏见和物体检测鲁棒性的相关文献。第3节介绍了我们对多种检测架构中纹理偏见的系统分析。第4节介绍了TexDrop的方法论,详细说明了其设计、实现、集成到训练流程中的方式及其理论依据。第5节在标准和多个损坏的数据集上进行了全面的实验评估。第6节提供了关于影响和潜在问题的深刻讨论。最后,第7节总结了关键贡献并概述了未来研究的有希望的方向。
章节片段
CNN中的纹理偏见与形状偏见
虽然人类视觉感知本质上是基于形状的[29],但研究表明CNN主要受局部纹理模式的驱动[16]。Geirhos等人[18]证明,在ImageNet上训练的模型经常无法识别物体草图,并且容易受到“纹理-形状冲突”的欺骗,例如,将带有大象皮肤纹理的猫错误地分类为大象。这种对纹理的过度依赖被称为纹理偏见,是分布变换下脆弱性的主要来源
评估物体检测器中的纹理偏见
尽管基于CNN的物体检测器取得了广泛的成功,但它们对纹理线索而非形状信息的依赖仍然没有得到充分研究。受到最近在图像分类模型中观察到的纹理偏见见解的启发[18],我们试图系统地评估物体检测框架中的纹理偏见程度。
为了稳健地量化纹理偏见的存在及其影响,我们采用了Stylized COCO,这是COCO验证数据集的修改版本
动机
基于深度学习的物体检测器在标准基准测试中取得了显著的性能,但它们在实际应用中的部署仍然受到纹理偏见的挑战。这些模型通常优先考虑局部纹理模式而非全局结构信息,这大大限制了它们在变化的实际条件(如领域变换、环境变化或对抗性扰动)下的鲁棒性和泛化能力。
最近的研究
实验
我们进行了全面的实验,严格评估了TexDrop在多种物体检测范式和不同图像条件下的有效性、泛化能力和鲁棒性。我们选择了三种代表性的检测框架:Faster R-CNN[8](两阶段)、RetinaNet[13](单阶段)和FCOS[10](无锚点),涵盖了主流基于CNN的检测范式的全部范围。这种战略性的选择使我们能够系统地评估TexDrop的性能
讨论
本研究中呈现的广泛实验结果清楚地证明了TexDrop在提高物体检测模型的性能和鲁棒性方面的有效性。我们的发现突出了TexDrop的几个关键优势:
•增强的形状偏见提高了检测准确性:TexDrop在训练过程中系统地抑制了纹理线索,促使基于CNN的检测器主要依赖与形状相关的特征。我们的结果一致表明,这种有针对性的增强
结论
本研究解决了基于CNN的物体检测器中纹理偏见的关键问题,这限制了它们在复杂实际场景中的泛化和鲁棒性。具体来说,我们引入了TexDrop,这是一种简单而有效的训练策略,它随机抑制纹理和颜色线索以促进基于形状的特征学习。我们的全面评估表明,TexDrop在标准基准测试中一致提高了检测准确性,同时显著增强了模型
CRediT作者贡献声明
Jiwen Tang:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,方法论,调查,形式分析,数据整理,概念化。Gu Wang:撰写 – 审稿与编辑,可视化,资金获取,形式分析。Ruida Zhang:撰写 – 审稿与编辑,可视化,形式分析。Xiangyang Ji:监督,资源管理,项目行政。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
Jiwen Tang于2014年获得中国武汉大学的学士学位,2021年获得中国科学院航空航天信息研究所的博士学位。2021年至2024年,他是清华大学自动化系的博士后研究员。2024年,他加入了中国地质大学(北京),目前在该校人工智能学院担任讲师。他的研究兴趣在于计算机