Shadow-DETR:通过影子查询缓解匹配冲突
《Neural Networks》:Shadow-DETR: Alleviating Matching Conflicts through Shadow Queries
【字体:
大
中
小
】
时间:2026年01月02日
来源:Neural Networks 6.3
编辑推荐:
DETR通过一对应匹配实现端到端检测,但存在样本冲突和监督不足问题。本文提出阴影样本机制,对高相似负样本仅计算轻量级回归损失,同时引入样本平衡和特征感知查询初始化,有效缓解匹配冲突并增强定位监督,在DAB-DETR、Deformable-DETR和DINO等基线上显著提升性能。
马云飞|李杰|杨凌峰|苏一飞|李英鹏|杨万口
东南大学自动化学院,南京,210096,中国
摘要
得益于一对一匹配所实现的端到端检测能力,DETR在简化的处理流程中取得了先进的性能。然而,一对一匹配机制也引入了一些限制,例如收敛速度慢,这可以归因于匹配冲突和匹配过程带来的有限监督等挑战。本文分析并识别了由一对一匹配引起的两种冲突形式:相似样本的优化方向相反,以及不同解码器层之间的查询-对象匹配不对齐。为了在保持端到端特性的同时缓解这些冲突,我们将与正样本高度相似的负样本识别为阴影样本,并在训练过程中忽略它们的分类损失。为了解决监督有限的问题,我们计算了这些阴影样本的回归损失,从而提供了额外的定位监督。通过解决这些问题,我们的策略提高了网络训练效率,并在相同的训练配置下提升了整体性能。此外,我们还提出了一种损失平衡策略来增强阴影样本的有效性。另外,我们提出了一种基于特征的查询初始化方法,该方法为阴影查询提供了独特的特征,并加强了查询与图像特征之间的交互。实验结果表明,我们的Shadow-DETR显著提升了现有方法(如DAB-DETR、Deformable-DETR和DINO)的性能,同时达到了与最先进方法相当的水平。
引言
自从Transformer Vaswani等人(2017年)将这一技术引入计算机视觉领域以来,DETR(Carion等人,2020年)成为将这一范式应用于对象检测的开创性工作。DETR是一种端到端的对象检测网络,它与基于CNN的检测器(He等人,2017年;Min等人,2022年;Redmon等人,2016年;Ren等人,2015年;Tian等人,2019年)不同,因为它消除了后处理步骤的需求,并提供了更简洁的架构。在DETR提出之后,人们不断提出了各种改进措施。一些方法侧重于增强注意力机制(Dai等人,2021年;Gao等人,2021年;Ye等人,2023年;Zhu等人,2020年),或者减少计算开销(Li等人,2023年;Lv等人,2024年;Wang等人,2024年;Zhao等人,2024b年);而其他方法则侧重于改进查询机制(Gao等人,2025年;Liu等人,2022a年;Meng等人,2021年;Wang等人,2022b年;Yao等人,2021年)。这些改进极大地提升了DETR的性能,使其在自动驾驶、医学诊断、视觉定位等领域得到了广泛应用(Liu, Zeng, Ren, Li, Zhang, Yang, Li, Yang, Su, Zhu等人,2022b;Liu, Wang, Zhang, Sun, 2023c;Menezes等人,2023;Wang等人,2022a)。最近的研究(Chen等人,2023年;Huang等人,2024年;Jia等人,2023年;Li等人,2022年;Liu等人,2023a;Ouyang-Zhang等人,2022年;Zhang等人,2023年;Zhao等人,2024a;Zong等人,2023年)也致力于解决一对一匹配的局限性。一对一匹配是DETR类方法的核心设计,它使它们能够在不依赖后处理的情况下实现端到端检测。与基于CNN的检测器中常用的多对一匹配方法不同,在后者中,所有与真实样本高度相似的样本都被视为正样本,而在DETR类方法中,每个真实样本只被分配一个正样本。
尽管一对一匹配使DETR能够实现端到端的功能,但它也带来了匹配冲突和监督有限的问题,可能会影响检测器的学习效率。一对一匹配引起的冲突表现在两个方面:同一层内相似查询之间的冲突,以及不同层之间同一查询分配不一致。首先,如图1所示,一对一匹配迫使检测器区分高度相似的正样本和负样本,这在训练的早期阶段尤为常见。这会抑制收敛,并可能导致负面训练结果(Zhang等人,2023年)。其次,DETR使用了多个堆叠的解码器层,在每一层之后进行预测和损失计算。然而,这些预测所分配的标签在不同层之间可能有所不同,进一步影响学习效率(Liu等人,2023a)。这种不稳定性的根本原因在于,由于一对一匹配的限制,与正样本高度相似的样本必须被分配为负样本。这导致了第一种类型的冲突,即模型难以从这些视觉上相似的样本中有效学习。此外,由于训练过程的随机性,不同解码器层之间的正样本和相似样本之间存在细微差异。同一查询在不同的解码器层可能被分配为正样本或负样本,如第4.4节所示。这导致了层间分配结果的不一致性,从而产生了第二种类型的不稳定性。除了匹配冲突之外,一对一匹配还带来了监督有限的问题。具体来说,DETR只将少数样本分配为正样本并提供定位监督,导致检测器的定位监督非常有限(Jia等人,2023年)。为了解决这个问题,一些方法(Chen等人,2023年;Jia等人,2023年;Ouyang-Zhang等人,2022年;Zhao等人,2024a;Zong等人,2023年)提出了各种多对一匹配策略来提高DETR类方法的训练效率。与这些方法不同,我们的方法利用了DETR未能充分利用的冗余查询来提供额外的回归信号,同时缓解匹配冲突,而无需引入额外的解码器或查询。重要的是,我们保留了DETR的端到端特性。
为了解决匹配冲突和监督有限的问题,我们引入了阴影样本,这些样本与正样本高度相似但被分配为负样本。在训练过程中,阴影样本提供的分类损失将被忽略,而回归损失则使用较低的权重进行计算。通过这种方式,我们可以有效缓解这两种关键的冲突情况,同时增加定位监督。对于第一种冲突情况,检测器不再需要区分高度相似样本中的正样本和负样本,避免了由于高度相似样本被迫计算负样本损失而导致的收敛抑制。对于第二种冲突情况,我们的方法显著降低了当前层中的正样本在其他层中被分配为负样本的可能性。这是因为大多数相似样本被分配为正样本或阴影样本,从而减少了层间分配结果的差异。如图5所示,在引入阴影样本后,相邻层之间的不匹配现象减少了,表明层间分配不匹配问题得到了缓解。最后,阴影样本提供的回归损失可以提供比在所有解码器层上使用一对一匹配更多的定位监督信号。此外,在解码器的最后一层仍然使用原始的一对一匹配,以保留基线的端到端特性,从而消除了我们提出的方法中对NMS的需求。为了进一步解决阴影样本可能导致的样本不平衡问题,我们降低了这些阴影样本的损失权重,以确保各种真实样本之间的平衡。通过解决冲突和监督有限的问题,我们提出的策略提高了网络训练效率,并在相同的训练配置下实现了更好的准确性。
最后,我们认识到在训练初期将所有对象查询通道初始化为零可能会导致高度相似性,并影响阴影样本的判断,因此我们根据锚点参考从编码器输出中初始化了一部分对象查询通道,以进一步提高性能。我们将上述方法整合到了基线方法DAB-DETR(Liu等人,2022a)、Deformable DETR(Zhu等人,2020)和DINO(Zhang等人,2022)中,从而提出了我们的方法Shadow-DETR。在MS-COCO数据集上进行的实验证明了我们方法的有效性。
我们的贡献可以总结如下:
•我们总结了一对一匹配引起的两种冲突情况,并确定匹配冲突的主要原因是将与正样本高度相似的样本强制分配为负样本。为了解决这个问题,我们将这些样本识别为阴影样本,以避免冲突优化。
•我们在忽略分类损失的同时计算阴影样本的回归损失,有效缓解了一对一匹配引起的冲突。此外,通过样本平衡和基于特征的查询初始化,提高了阴影样本的性能。
•我们提出的Shadow-DETR在不需要额外查询或解码器的情况下显著提升了现有方法的性能,同时保留了DETR的端到端特性。
部分摘录
二分图匹配的不稳定性
TSPRCNN(Sun等人,2021年)是最早分析二分图匹配不稳定性对DETR收敛速度影响的研究之一。在此基础上,DN-DETR(Li等人,2022年)指出,由随机优化引起的不稳定匹配会阻碍模型的收敛速度。为了解决这个问题,DN-DETR提出了在训练期间使用噪声边界框来提高匹配过程的鲁棒性。Stable-DINO(Liu等人,2023a)关注的是处理流程
如图2所示,我们提出的方法旨在缓解DETR中由一对一匹配引起的冲突。前五个解码器的预测(即中间预测)将进入阴影匹配(SDW匹配)过程,而最后一个解码器的预测将进入一对一匹配(O-O匹配)过程。在本节中,我们首先介绍阴影匹配的过程。然后,引入对象平衡以实现样本之间的平衡
设置
我们在MS-COCO 2017数据集(Lin等人,2014年)上进行了实验。模型使用train2017训练集进行训练,并在val2017验证集上进行评估。模型训练了50个周期(DAB-DETR和两阶段Deformable-DETR)或12/24个周期(DINO),批量大小为16,使用8个4090 GPU。我们的实验使用了MMDetection(Chen等人,2019年)框架。在使用DINO作为基线时,我们适当调整了学习率,以确保充分学习
结论
本文分析了由一对一匹配引起的冲突问题,这是DETR的关键设计。我们通过引入阴影样本并保留DETR的端到端特性以及提供额外的定位监督,缓解了匹配冲突的两种主要表现形式:相似样本冲突和层间冲突。此外,通过引入对象平衡和基于特征的查询初始化,我们进一步提高了DETR上阴影查询的性能。
CRediT作者贡献声明
马云飞:撰写——原始草案、可视化、验证、方法论、概念化。李杰:撰写——审阅与编辑、方法论、概念化。杨凌峰:撰写——审阅与编辑、方法论。苏一飞:软件、资源。李英鹏:撰写——审阅与编辑、方法论。杨万口:撰写——审阅与编辑、监督、资源、方法论、概念化。
利益冲突声明
作者声明以下可能的财务利益/个人关系:杨万口报告称获得了国家自然科学基金的支持。如果还有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了国家自然科学基金(项目编号62276061和62436002)的支持。此外,本工作还得到了东南大学先进海洋研究院研究基金(重大项目MP202404)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号