对象检测是计算机视觉研究的重要组成部分。它使计算机能够正确识别和分类图像中的对象。对象检测的主要目标是确定图像中每个对象出现的边界框坐标和类别标签。这在许多领域和技术中都非常重要,如增强现实、机器人技术、医学成像、自动驾驶车辆和视频监控。
在过去,对象检测技术的初步步骤主要使用传统的机器学习分类器和特征,这些分类器和特征是由人工设计的算法实现的,例如Viola-Jones检测器,它使用提升决策树和类似Haar的特征在级联架构中工作,从而实现实时人脸识别。同样,行人和其他重要点也是通过方向梯度直方图(HOG)[1]和尺度不变特征变换(SIFT)[2]来检测的。这些传统方法为现代对象检测奠定了基础。
随着卷积神经网络(CNN)等深度学习方法被引入计算机视觉领域,这标志着巨大的进步。CNN受到视觉大脑中神经元感受野的启发,能够自动从图像输入中学习特征,从而实现层次化表示,既捕捉高层次的语义也捕捉低层次的纹理,因此不再需要人工特征工程。AlexNet在ImageNet大规模视觉识别挑战赛(ILSVRC)[3]中的成功表明,深度神经网络可以用于分类大量图像,这促使CNN重新受到重视。
Girshick等人引入了基于区域的CNN(R-CNN)[4],它提供了一个两阶段检测流程。在第一阶段,使用选择性搜索来生成区域提议;在第二阶段,使用CNN来提取特征并对每个区域进行排序。R-CNN在计算能力方面并不高效,但显著提高了准确性。Fast R-CNN[5]使用ROI池化来分散计算负担,而Faster R-CNN[6]则使用区域提议网络(RPN)代替选择性搜索,使系统从头到尾都是可训练的。这些改进使对象检测变得更简单,但同时也显著减慢了处理速度,使其不太适合实时应用。
由于基于区域的方法存在延迟问题,因此出现了单次检测器,如单次多盒检测器(SSD)[7]和You Only Look Once(YOLO)[8]、[9]、[10]。这些检测器显著加快了推理速度,非常适合实时应用,因为它们可以在一次前向传递中找到并分类对象。它们之所以表现良好,是因为可以直接从特征图中预测边界框和类别概率。随着研究的进展,将Transformer设计集成到视觉任务中引发了新一轮创新。Transformer最初是为自然语言处理设计的,由于使用了自注意力机制,它们在建模长距离依赖关系方面比CNN更优秀。Dosovitskiy的Vision Transformer(ViT)[11]证明了纯Transformer模型可以通过将图像分割成块并使用共享Transformer编码器来参与图像分类竞赛。然而,ViT需要大量的预训练和非常大的数据集。
Carion等人提出了Detection Transformers(DETR)[12],以提高Transformer在检测任务中的适应性。DETR通过将对象检测重新解释为直接集合预测问题,消除了对锚框和非最大值抑制等组件的需求。为了全面了解对象之间的连接方式,它采用了双部分匹配和Transformer编码器-解码器设计。DETR的主要问题是收敛速度慢和定位精度低,尽管它在理解和清晰度方面有所改进。通过改进注意力过程,提出了Conditional DETR和Deformable DETR两种解决方法。
后来的改进产生了如Swin Transformer[13]这样的模型,它通过添加分层视觉Transformer块和可变窗口来改进局部上下文建模并提高处理效率。在检测和分割任务中,Swin Transformer表现最佳。RT-DETR(实时DETR)[14]对基于Transformer的检测器进行了架构调整,以在速度和准确性之间找到平衡,以便快速处理大量数据。基于CNN的检测器逐渐采用了注意力机制来增强其建模上下文的能力,并重新校准通道级特征。轻量级注意力模块,如卷积块注意力模块(CBAM)[15]、高效通道注意力(ECA)[16]和挤压-激励(SE)[17]块,帮助网络去除不重要的噪声,专注于重要的特征。
You Only Look Once(YOLO)是这个不断发展和多样化的检测模型领域中一个有趣且重要的组成部分。Joseph Redmon在2016年提出了YOLO。它将对象检测简化为单次迭代问题。在一次遍历中,CNN预测输入图像中每个单元格的边界框坐标和类别概率,图像被划分为网格。自发布以来,YOLO经历了多次重大迭代,包括使用批量归一化和锚框的YOLOv2,以及添加多尺度预测和更深层主干网络的YOLOv3。YOLOv4引入了Mish激活、跨阶段部分连接(CSP)和空间金字塔池化(SPP)等新技术。YOLOv5通过添加自动学习边界框锚点和模块化训练脚本,使社区更容易使用。YOLOv8及后续模型通过结合先进的特征提取模块和不使用NMS的训练方法,进一步改进了该领域。最新的版本YOLOv11具有更好的注意力机制、使用更少参数的模块,并能够同时执行多项任务。
尽管基于CNN和基于Transformer的检测器发展迅速,但仍有一些问题需要解决,特别是在航空和无人机图像中,对象有时看起来非常小、间距紧密或严重遮挡。当前的YOLO系列模型虽然有效,但在下采样时经常无法保留细粒度的空间特征,导致小对象被忽略。此外,大多数特征金字塔架构在适当定位不同大小的对象方面存在局限性,因为它们依赖于狭窄的感受野且缺乏多尺度上下文。基于Transformer的检测器不适合在资源受限的平台上(如无人机)进行实时部署,因为尽管克服了一些上下文限制,但它们仍然会产生较大的计算开销。此外,现代检测器中的许多注意力机制只关注空间或通道维度,导致特征细化不足和表示学习效果不佳。这些缺点强调了需要一个能够高效整合多尺度变量、提取丰富上下文信息并在计算上保持轻量级的模型。
所提出的AMSF模型的三个主要目标是:(1)通过高效的基于扩张的残差学习改进多尺度特征表示;(2)通过联合建模空间和通道注意力来提高特征区分能力;(3)提供轻量级且高效的多尺度融合,以实现实时性能。
在我们的方法中,我们旨在通过引入基于注意力的多尺度特征提取(AMSF)模型来提高对象检测的准确性和效率。使用记录低级和高级模式的骨干网络,我们首先专注于提取层次化特征。然后利用网络的“颈部”对这些特征进行细化和组合。四个检测头接收改进后的特征,并用它们来预测类别概率、对象性分数和边界框坐标。空间金字塔池化融合加法(SPPFPLUS)用于实现高效的多尺度聚合。增强注意力模块(EAM)在通道和空间维度上选择性地突出相关元素。此外,扩张残差组(DRG)通过使用扩张卷积和全局上下文聚合来改进特征提取。在保持模型准确性的同时,实现了实时性能。