AMSF-YOLO：基于注意力的多尺度特征提取模型，用于无人机小型目标检测

《Pattern Recognition》：AMSF-YOLO: Attention-based Multi-Scale Feature Extraction Model for UAV Small Object

【字体：大中小】 时间：2026年02月17日 来源：Pattern Recognition 7.6

编辑推荐：

　　目标检测模型AMSF通过Dilated-Residual Group、Enhanced Attention Module和Spatial Pyramid Pooling Fusion Plus模块实现多尺度特征高效提取与时空注意力融合，在VisDrone和GlobalWheat数据集上mAP分别提升4.1%和6.4%，兼顾精度与实时性。

Bhimendra Dewangan|M. Srinivas

计算机科学与工程系

摘要

本研究提出了基于注意力的多尺度特征提取（AMSF）模型，这是一种改进的对象检测框架，旨在提高计算效率和准确性。AMSF模型中包含了三种新的特征提取方法：扩张残差组（DRG）、增强注意力模块（EAM）和空间金字塔池化融合加法（SPPFPLUS）模块。为了实现有效的多尺度特征聚合，SPPFPLUS模块采用了轻量级的挤压-激励注意力方法来进行动态特征加权。通过整合空间和通道注意力方法，EAM使模型能够在两个维度上突出相关元素。通过使用全局上下文聚合、多尺度扩张卷积和残差学习，DRG模块在高效捕获各种上下文信息的同时提高了特征提取能力。这些元素共同作用，创建了一个强大而有效的对象识别模型，能够处理不同大小的物体和复杂的背景环境，并且仍能实时运行。在VisDrone-DET2019和GlobalWheat2020两个基准数据集的实验评估中，所提出的AMSF模型表现优于现有模型，VisDrone数据集的mAP提高了4.1%，GlobalWheat数据集的mAP提高了6.4%。

引言

对象检测是计算机视觉研究的重要组成部分。它使计算机能够正确识别和分类图像中的对象。对象检测的主要目标是确定图像中每个对象出现的边界框坐标和类别标签。这在许多领域和技术中都非常重要，如增强现实、机器人技术、医学成像、自动驾驶车辆和视频监控。

在过去，对象检测技术的初步步骤主要使用传统的机器学习分类器和特征，这些分类器和特征是由人工设计的算法实现的，例如Viola-Jones检测器，它使用提升决策树和类似Haar的特征在级联架构中工作，从而实现实时人脸识别。同样，行人和其他重要点也是通过方向梯度直方图（HOG）[1]和尺度不变特征变换（SIFT）[2]来检测的。这些传统方法为现代对象检测奠定了基础。

随着卷积神经网络（CNN）等深度学习方法被引入计算机视觉领域，这标志着巨大的进步。CNN受到视觉大脑中神经元感受野的启发，能够自动从图像输入中学习特征，从而实现层次化表示，既捕捉高层次的语义也捕捉低层次的纹理，因此不再需要人工特征工程。AlexNet在ImageNet大规模视觉识别挑战赛（ILSVRC）[3]中的成功表明，深度神经网络可以用于分类大量图像，这促使CNN重新受到重视。

Girshick等人引入了基于区域的CNN（R-CNN）[4]，它提供了一个两阶段检测流程。在第一阶段，使用选择性搜索来生成区域提议；在第二阶段，使用CNN来提取特征并对每个区域进行排序。R-CNN在计算能力方面并不高效，但显著提高了准确性。Fast R-CNN[5]使用ROI池化来分散计算负担，而Faster R-CNN[6]则使用区域提议网络（RPN）代替选择性搜索，使系统从头到尾都是可训练的。这些改进使对象检测变得更简单，但同时也显著减慢了处理速度，使其不太适合实时应用。

由于基于区域的方法存在延迟问题，因此出现了单次检测器，如单次多盒检测器（SSD）[7]和You Only Look Once（YOLO）[8]、[9]、[10]。这些检测器显著加快了推理速度，非常适合实时应用，因为它们可以在一次前向传递中找到并分类对象。它们之所以表现良好，是因为可以直接从特征图中预测边界框和类别概率。随着研究的进展，将Transformer设计集成到视觉任务中引发了新一轮创新。Transformer最初是为自然语言处理设计的，由于使用了自注意力机制，它们在建模长距离依赖关系方面比CNN更优秀。Dosovitskiy的Vision Transformer（ViT）[11]证明了纯Transformer模型可以通过将图像分割成块并使用共享Transformer编码器来参与图像分类竞赛。然而，ViT需要大量的预训练和非常大的数据集。

Carion等人提出了Detection Transformers（DETR）[12]，以提高Transformer在检测任务中的适应性。DETR通过将对象检测重新解释为直接集合预测问题，消除了对锚框和非最大值抑制等组件的需求。为了全面了解对象之间的连接方式，它采用了双部分匹配和Transformer编码器-解码器设计。DETR的主要问题是收敛速度慢和定位精度低，尽管它在理解和清晰度方面有所改进。通过改进注意力过程，提出了Conditional DETR和Deformable DETR两种解决方法。

后来的改进产生了如Swin Transformer[13]这样的模型，它通过添加分层视觉Transformer块和可变窗口来改进局部上下文建模并提高处理效率。在检测和分割任务中，Swin Transformer表现最佳。RT-DETR（实时DETR）[14]对基于Transformer的检测器进行了架构调整，以在速度和准确性之间找到平衡，以便快速处理大量数据。基于CNN的检测器逐渐采用了注意力机制来增强其建模上下文的能力，并重新校准通道级特征。轻量级注意力模块，如卷积块注意力模块（CBAM）[15]、高效通道注意力（ECA）[16]和挤压-激励（SE）[17]块，帮助网络去除不重要的噪声，专注于重要的特征。

You Only Look Once（YOLO）是这个不断发展和多样化的检测模型领域中一个有趣且重要的组成部分。Joseph Redmon在2016年提出了YOLO。它将对象检测简化为单次迭代问题。在一次遍历中，CNN预测输入图像中每个单元格的边界框坐标和类别概率，图像被划分为网格。自发布以来，YOLO经历了多次重大迭代，包括使用批量归一化和锚框的YOLOv2，以及添加多尺度预测和更深层主干网络的YOLOv3。YOLOv4引入了Mish激活、跨阶段部分连接（CSP）和空间金字塔池化（SPP）等新技术。YOLOv5通过添加自动学习边界框锚点和模块化训练脚本，使社区更容易使用。YOLOv8及后续模型通过结合先进的特征提取模块和不使用NMS的训练方法，进一步改进了该领域。最新的版本YOLOv11具有更好的注意力机制、使用更少参数的模块，并能够同时执行多项任务。

尽管基于CNN和基于Transformer的检测器发展迅速，但仍有一些问题需要解决，特别是在航空和无人机图像中，对象有时看起来非常小、间距紧密或严重遮挡。当前的YOLO系列模型虽然有效，但在下采样时经常无法保留细粒度的空间特征，导致小对象被忽略。此外，大多数特征金字塔架构在适当定位不同大小的对象方面存在局限性，因为它们依赖于狭窄的感受野且缺乏多尺度上下文。基于Transformer的检测器不适合在资源受限的平台上（如无人机）进行实时部署，因为尽管克服了一些上下文限制，但它们仍然会产生较大的计算开销。此外，现代检测器中的许多注意力机制只关注空间或通道维度，导致特征细化不足和表示学习效果不佳。这些缺点强调了需要一个能够高效整合多尺度变量、提取丰富上下文信息并在计算上保持轻量级的模型。

所提出的AMSF模型的三个主要目标是：（1）通过高效的基于扩张的残差学习改进多尺度特征表示；（2）通过联合建模空间和通道注意力来提高特征区分能力；（3）提供轻量级且高效的多尺度融合，以实现实时性能。

在我们的方法中，我们旨在通过引入基于注意力的多尺度特征提取（AMSF）模型来提高对象检测的准确性和效率。使用记录低级和高级模式的骨干网络，我们首先专注于提取层次化特征。然后利用网络的“颈部”对这些特征进行细化和组合。四个检测头接收改进后的特征，并用它们来预测类别概率、对象性分数和边界框坐标。空间金字塔池化融合加法（SPPFPLUS）用于实现高效的多尺度聚合。增强注意力模块（EAM）在通道和空间维度上选择性地突出相关元素。此外，扩张残差组（DRG）通过使用扩张卷积和全局上下文聚合来改进特征提取。在保持模型准确性的同时，实现了实时性能。

提出的方法

在这项研究中，我们提出了一种名为AMSF-YOLO的新方法。当输入图像时，AMSF模型按以下方式工作：输入图像首先通过骨干网络处理，该网络使用卷积层提取层次化信息。这些层对于对象识别至关重要，因为它们能够捕获各种低级和高级模式，如对象部分、边缘和纹理。来自多个层的特征图被合并和增强，以创建更

VisDrone-DET2019 [51]

我们使用专为无人机捕获的图像中的对象检测设计的详细基准进行了实验。该数据集包含8,599张高分辨率图像，涵盖了不同时间和不同光照条件下的各种城市和郊区场景。其中包含近540,000个带有注释的边界框，涉及10个预定义的对象类别：摩托车、自行车、三轮车、遮阳三轮车、行人、厢式车、卡车、公交车、行人和

模型性能评估

为了全面评估模型性能，本研究使用了多种评估指标。精确度（P）通过计算所有正面预测中正确预测的百分比来表示模型识别有利结果的精确度。召回率（R）评估模型识别每个相关实例的能力。平均精度（mAP）通过平均0.5到0.95之间的多个IoU标准的精度得分来提供整体性能指标。

局限性

尽管AMSF-YOLO架构在各种基准测试中表现出改进的准确性和效率，但仍存在一些问题。虽然VisDrone数据集较为全面，但其相机运动和高度的缺乏显著变化可能会限制模型适应新的无人机视角的能力。因此，模型可能更难以适应极端的无人机视角。由于GlobalWheat数据集中的大多数场景是农业场景，模型在拥挤或

未来工作

有几种方法可以提高AMSF-YOLO系统的效率和灵活性。轻量级基于Transformer的注意力技术是一种潜在的方法，可以在不显著增加计算负担的情况下增强全局上下文建模。此外，采用模型压缩技术，如知识蒸馏、量化和剪枝，可能会提高模型在资源受限的无人机平台上的实时应用能力。在各种

结论

基于注意力的多尺度特征提取（AMSF）模型巧妙地结合了多尺度特征聚合、注意力过程和扩张卷积，这是对象识别方面的一个重要进展。扩张残差组（DRG）、增强注意力模块（EAM）和空间金字塔池化融合加法（SPPFPLUS）模块的创新设计使模型获得了更丰富的特征表示，显著提高了检测准确性和计算效率。

CRediT作者贡献声明

Bhimendra Dewangan：撰写——审稿与编辑、撰写——原始草稿、可视化、验证、软件、资源、项目管理、方法论、研究。M. Srinivas：撰写——审稿与编辑、验证、监督、资源、项目管理、方法论、研究、资金获取、正式分析、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

摘要

引言

相关工作