AMSA-YOLO：基于自适应多尺度注意力机制的实时目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：AMSA-YOLO: Real-time Object Detection with Adaptive Multi-Scale Attention Mechanism

【字体：大中小】 时间：2026年01月06日 来源：Neural Networks 6.3

编辑推荐：

　　针对YOLO系列算法在小目标检测和密集场景中的不足，提出AMSA-YOLO算法，通过引入自适应多尺度注意力机制，包括尺度感知模块、自适应空间和通道注意力模块，实现多尺度特征融合与动态关注分配，在COCO等数据集上检测精度提升2.3%-3.6%，速度仅下降10.3%。

作者：王灿金、孙鹏、杨春辉、滕向龙、王瑞军

单位：媒体融合生产技术与系统国家重点实验室及新华智云科技有限公司，中国杭州 310000

摘要

目标检测作为计算机视觉中的基础任务，在自动驾驶、视频监控、医学成像等领域有着广泛的应用。YOLO（You Only Look Once）系列算法因其出色的实时性能而成为单阶段目标检测的代表性方法。然而，现有的YOLO算法在检测小目标和密集场景时仍面临挑战。本文提出了AMSA-YOLO（自适应多尺度注意力YOLO），这是一种基于自适应多尺度注意力机制的改进型YOLO算法。通过引入尺度感知模块、自适应空间注意力和自适应通道注意力，该算法显著提高了检测精度，尤其是在检测小目标时。实验结果表明，在COCO数据集上，AMSA-YOLO的mAP@0.5:0.95指标比YOLOv8s提高了2.3个百分点，小目标检测的AP指标提高了3.6个百分点，同时推理速度仅降低了10.3%。在VisDrone和CrowdHuman等专用数据集上也取得了显著改进，证明了该算法的有效性和实用性。

引言

目标检测是计算机视觉中的基础任务之一，旨在识别图像中的目标对象并确定它们的位置。随着深度学习技术的发展，目标检测算法取得了显著进步，从早期的滑动窗口方法发展到当前的端到端深度学习方法。根据不同的检测流程，现代目标检测算法主要分为两阶段检测器（如R-CNN系列）和单阶段检测器（如YOLO和SSD系列）。

两阶段检测器通过两个步骤实现目标检测：候选区域生成和分类回归。尽管它们具有较高的精度，但计算复杂度较高，难以满足实时应用的需求。相比之下，单阶段检测器直接在特征图上进行目标分类和位置回归，计算效率更高，更适合实时应用场景。

YOLO作为单阶段检测器的代表，自2016年首次提出以来经历了多次迭代，每个版本都对其前身进行了重要改进。近年来，YOLO系列发展迅速。YOLOv5在工程实现和可用性方面做出了重要贡献。YOLOv6、YOLOv7和YOLOv8分别在网络架构、训练策略和推理效率方面进行了创新。最新的YOLOv9引入了可编程梯度信息，YOLOv10实现了端到端检测，YOLOv11在保持高精度的同时显著减少了参数数量。

尽管YOLO系列算法在目标检测领域取得了巨大成功，但在实际应用中仍面临一些挑战。首先，小目标检测仍然是一个难题。小目标在图像中占据的像素较少，特征信息有限，容易受到背景噪声的干扰。其次，在目标分布密集的场景中，YOLO容易发生漏检和误检。此外，如何在保持实时性能的同时进一步提高检测精度仍然是一个重要挑战。

注意力机制作为深度学习领域的重要技术，使模型能够自动关注重要特征区域，同时抑制无关信息的干扰。在目标检测任务中，注意力机制可以帮助模型更好地定位目标对象并提高检测精度。然而，现有的注意力机制大多是为通用任务设计的，并没有充分考虑目标检测任务的特性，特别是对多尺度特征的处理要求。

基于上述分析，我们提出了AMSA-YOLO（自适应多尺度注意力YOLO），这是一种基于自适应多尺度注意力机制的改进型YOLO算法。该算法的主要贡献包括：

尺度感知模块设计：提出了一种尺度感知模块，可以为不同尺度的特征图生成专门的尺度编码，指导后续注意力计算的调整。
自适应注意力机制：设计了自适应空间注意力和自适应通道注意力模块，可以根据特征图的尺度特性动态调整注意力策略，更关注小尺度特征中的局部细节和大规模特征中的全局信息。
高效特征融合：通过注意力引导的特征融合机制，减少了冗余信息的传输，增强了特征表示的区分能力。
全面实验验证：在包括COCO、PASCAL VOC、VisDrone、CrowdHuman等多个数据集上进行了全面实验验证，证明了该方法的有效性和泛化能力。

实验结果表明，AMSA-YOLO在保持YOLO实时优势的同时显著提高了检测精度，特别是在检测小目标和密集场景方面表现优异。这为实际应用提供了更好的解决方案，并具有重要的理论意义和实用价值。

目标检测算法的发展

目标检测算法的发展已经从基于手工特征的传统方法转变为基于深度学习的方法。深度学习模型大致分为两阶段检测器和单阶段检测器。两阶段检测器（如R-CNN系列）首先生成区域提案，然后进行分类，虽然精度较高，但计算成本较高。相比之下，单阶段检测器直接在特征图上进行目标分类和位置回归，计算效率更高，更适合实时应用场景。

YOLO作为单阶段检测器的代表，自2016年首次提出以来经历了多次迭代，每个版本都对其前身进行了重要改进。近年来，YOLO系列持续快速发展。YOLOv5在工程实现和可用性方面做出了重要贡献。YOLOv6、YOLOv7和YOLOv8分别在网络架构、训练策略和推理效率方面进行了创新。最新的YOLOv9引入了可编程梯度信息，YOLOv10实现了端到端检测，YOLOv11在保持高精度的同时显著减少了参数数量。

尽管YOLO系列算法在目标检测领域取得了巨大成功，但在实际应用中仍面临一些挑战。首先，小目标检测仍然是一个难题。小目标在图像中占据的像素较少，特征信息有限，容易受到背景噪声的干扰。其次，在目标分布密集的场景中，YOLO容易发生漏检和误检。此外，如何在保持实时性能的同时进一步提高检测精度仍然是一个重要挑战。

注意力机制作为深度学习领域的重要技术，使模型能够自动关注重要特征区域，同时抑制无关信息的干扰。在目标检测任务中，注意力机制可以帮助模型更好地定位目标对象并提高检测精度。然而，现有的注意力机制大多是为通用任务设计的，并没有充分考虑目标检测任务的特性，特别是对多尺度特征的处理要求。

基于以上分析，我们提出了AMSA-YOLO（自适应多尺度注意力YOLO），这是一种基于自适应多尺度注意力机制的改进型YOLO算法。该算法的主要贡献包括：

尺度感知模块设计：提出了一种尺度感知模块，可以为不同尺度的特征图生成专门的尺度编码，指导后续注意力计算的调整。
自适应注意力机制：设计了自适应空间注意力和自适应通道注意力模块，可以根据特征图的尺度特性动态调整注意力策略，更关注小尺度特征中的局部细节和大规模特征中的全局信息。
高效特征融合：通过注意力引导的特征融合机制，减少了冗余信息的传输，增强了特征表示的区分能力。
全面实验验证：在包括COCO、PASCAL VOC、VisDrone、CrowdHuman等多个数据集上进行了全面实验验证，证明了该方法的有效性和泛化能力。

实验结果表明，AMSA-YOLO在保持YOLO实时优势的同时显著提高了检测精度，特别是在检测小目标和密集场景方面表现优异。这为实际应用提供了更好的解决方案，并具有重要的理论意义和实用价值。

数据集

为了全面评估AMSA-YOLO的性能，我们在多个代表性数据集上进行了实验：(1) COCO 2017（Lin等人，2014年）：这是目标检测领域最权威的基准数据集，包含80个类别的对象。训练集包含118,287张图像，验证集包含5,000张图像。我们使用标准的COCO评估指标，包括mAP@0.5、mAP@0.5:0.95和不同大小对象的AP（AP_S、AP_M、AP_L）。

主要贡献总结

本文提出了AMSA-YOLO，这是一种基于自适应多尺度注意力机制的实时目标检测算法。这是首次提出专为多尺度特征设计的自适应注意力机制。与传统的固定注意力策略不同，AMSA可以根据特征图的尺度特性动态调整注意力计算方法，更关注小尺度特征中的局部细节和大规模特征中的全局语义信息。

结论

本文提出的AMSA-YOLO算法通过引入自适应多尺度注意力机制，成功解决了YOLO在检测小目标和密集场景方面的不足。实验结果表明，该算法在保持实时性能的同时显著提高了检测精度，为目标检测技术的发展做出了重要贡献。

AMSA-YOLO的成功验证了自适应注意力的有效性。

CRediT作者贡献声明

作者：王灿金：撰写——原始草案、软件、方法论、概念化。 孙鹏：资源获取、调查、资金筹措。 杨春辉：验证、软件、数据管理。 滕向龙：可视化、数据管理。 王瑞军：撰写——原始草案、软件、方法论、概念化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号