SCOPE-DETR：一种基于监控场景的、通过感知增强技术提升交通参与者检测能力的Transformer模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：SCOPE-DETR: A Surveillance Context-Oriented Perception-Enhanced Transformer for Traffic Participant Detection

【字体：大中小】 时间：2026年03月04日 来源：Digital Signal Processing 3

编辑推荐：

　　交通监控系统视角畸变、目标尺度差异大和遮挡频繁的问题，本文提出SCOPE-DETR框架，集成PMAEFNet、DESA-IFI和BCFF模块，通过多尺度特征融合、动态注意力调节和双向特征传播，有效提升小目标检测精度和密集场景鲁棒性，在SEU_PML数据集上AP提高5.0%，参数减少25.1%，跨域验证通过MIO-TCD和UA-DETRAC数据集。

卢琦|余宪文|马德豪|郭树森|王浩

东南大学交通学院，中国南京东南大学路211189

摘要

从监控角度进行交通参与者检测面临独特的挑战，包括视角扭曲、尺度变化剧烈以及密集场景中的频繁遮挡现象，现有方法难以有效应对这些问题。为了解决这些特定挑战，本文提出了SCOPE-DETR框架，该框架协同整合了三个创新模块。为了解决极端尺度变化问题，设计了PMAEFNet，在每个下采样阶段部署具有不同感受野的并行卷积分支，从而实现从局部细节到全局语义的渐进式特征编码，同时在统一的网络中捕捉小目标细节和大目标的整体信息。为了减轻密集场景中的注意力稀释问题，提出了DESA-IFI模块，该模块引入了基于温度参数的空间注意力分布动态调节机制，并采用通道级能量抑制来平衡不同目标尺度上的特征响应，解决了大物体和小物体之间的特征表达不平衡问题。为了解决遮挡和边界模糊问题，构建了BCFF模块，通过自适应门控机制建立双向特征传播路径，使语义信息能够有效引导细节特征的同时保留关键的空间信息。在SEU_PML数据集上，SCOPE-DETR的AP达到41.4%，AP50达到75.3%，分别比基线提高了5.0%和4.3%。小目标检测性能提高了4.9%，同时模型参数减少了25.1%。在MIO-TCD和UA-DETRAC数据集上的跨领域验证证实了其泛化能力。实验结果表明，所提出的框架通过多尺度特征表示的协同优化，有效解决了监控场景中的检测挑战，为基于监控的交通检测应用提供了有效的解决方案。

引言

从监控角度进行交通参与者检测已成为智能交通系统（ITS）的关键组成部分，能够在复杂的城市环境中实时识别和定位车辆、行人和非机动车[1]。然而，基于监控的检测面临一些独特的挑战，这些挑战使其不同于一般的物体检测任务。交通摄像机的安装位置较高，导致严重的视角扭曲，使得远处的目标看起来比附近的目标小得多。这种几何扭曲加上远处目标分布密集和频繁遮挡，严重降低了检测性能[2]。此外，实时交通监控的严格计算限制要求模型架构具有高检测精度。这些特定于监控的挑战需要专门的检测框架，而不仅仅是传统的物体检测方法。

随着深度学习的快速发展，一般物体检测经历了多种范式的演变。两阶段检测器（如R-CNN系列[3]和Faster R-CNN[4]）通过区域提议和细化机制实现了高精度，但在精确定位方面表现优异。然而，它们存在较大的计算开销和较慢的推理速度，不适合实时交通监控应用。一阶段检测器（如SSD[5]和YOLO系列[6]）通过消除区域提议实现了更快的推理速度，但小物体和密集场景下的精度较低，这在监控场景中尤为明显，因为远处的车辆和行人可能只占据10-50个像素。基于Transformer的检测器（如DETR[7]和RT-DETR[8]）通过引入端到端检测范式和可学习的查询，消除了手工制作的组件（如NMS），在速度和精度之间取得了良好的平衡。

尽管取得了成功，基于RT-DETR的框架在应用于监控场景时仍存在三个关键限制。首先，ResNet主干网络缺乏足够的多尺度表示能力，特别是对于在监控场景中占主导地位的小目标和远距离目标。其次，AIFI模块采用统一的注意力机制，无法适应不同的场景密度，导致在拥挤交通场景中的多尺度目标性能下降。第三，CCFF的层次融合策略优先考虑语义信息而非空间细节，从而在杂乱环境中削弱了边界精度和小物体的区分能力。

因此，为了解决上述问题，本文提出了面向监控场景的感知增强检测Transformer（SCOPE-DETR）框架，其主要贡献如下：

(1) 进阶多尺度聚合与增强特征网络（PMAEFNet），在四个阶段部署具有不同感受野的并行卷积分支，实现从局部细节到全局语义的层次化编码，以处理交通监控中的极端尺度变化。

(2) 基于动态能量抑制的注意力内尺度特征交互（DESA-IFI）模块，采用基于温度参数的空间注意力和通道级能量抑制进行双域特征调制，减轻密集场景中的注意力稀释问题，同时平衡不同目标尺度上的特征表达。

(3) 双向上下文感知特征融合（BCFF）框架，整合了双向上下文感知聚合模块（BCAM）和空间细化模块（SRB），通过自适应门控机制实现深度跨尺度交互，有助于遮挡和边界模糊目标的处理。

部分摘录

交通参与者检测

交通参与者检测作为ITS的核心技术，受到了学术界和工业界的越来越多的关注。为了应对交通场景的复杂性，已经开发了多种基于CNN的检测器。谢等人[9]提出了MAFD-Net，该框架通过通道、局部和全局注意力整合了多尺度特征，但存在特征激活冗余和推理速度有限的问题。侯等人[10]设计了FL-SLKNet，采用了选择性大核和频域处理

方法

从监控角度进行交通参与者检测面临独特的技术挑战：视角扭曲导致目标尺度分布极不均匀，远处的密集小目标特征严重退化，频繁的遮挡和重叠现象进一步加剧了特征表示的模糊性。这些挑战对检测框架提出了特定要求：编码阶段必须提取保留细粒度特征的多尺度特征

实验

为了验证所提出的SCOPE-DETR框架的有效性，进行了一系列实验。首先介绍了数据集、训练配置和评估指标，然后进行了消融研究和比较研究，以评估每个组件的贡献和整体性能。最后提供了定性可视化结果，以证明其在复杂监控场景下的鲁棒性。

讨论

尽管SCOPE-DETR在检测精度、鲁棒性和多尺度适应性方面取得了显著改进，但在未来的工作中仍需解决一些限制。首先，作为一个单帧检测框架，它没有明确利用视频序列中的时间连续性和运动相关性。这一限制限制了其处理复杂动态交通场景（如快速移动的车辆或瞬时遮挡）的能力

结论

本文提出了SCOPE-DETR，这是一种专为具有挑战性的城市环境中的监控导向交通参与者检测设计的新型端到端检测框架。通过系统地解决视角扭曲、极端尺度变化和固定监控场景中常见的频繁遮挡等核心挑战，SCOPE-DETR通过三个关键组件的协同整合，建立了一种新的鲁棒且高效的交通参与者检测范式

CRediT作者贡献声明

卢琦：概念化、撰写——初稿、方法论、软件、形式分析。余宪文：概念化、撰写——审阅与编辑、监督。马德豪：可视化、撰写——审阅与编辑。郭树森：撰写——审阅与编辑。王浩：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

交通参与者检测

方法

实验

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行