MDFE-Net：一种基于多尺度空洞特征增强的小目标检测网络及其在农业领域的应用验证

《Frontiers in Plant Science》：MDFE-Net: a multiscale dilated feature enhancement network for small object detection

【字体：大中小】 时间：2026年02月25日 来源：Frontiers in Plant Science 4.8

编辑推荐：

　　本文提出了一种创新的多尺度空洞特征增强网络（MDFE-Net），针对小目标检测中特征信息缺乏和背景复杂的挑战，设计了两个即插即用的增强模块。多尺度空洞特征聚合（MDFA）模块通过结合注意力机制与多速率空洞卷积，有效捕获多尺度上下文信息，增强底层特征表达。上下文特征增强（CFE）模块利用多分支卷积结构与空洞卷积扩展感受野，最大限度地保留和提取小目标的有效信息。该网络在YOLO11N基础上，额外引入P2层检测头以保留更多浅层细节。在VisDrone、GTSDB两个公开数据集及自建的植物幼苗节点（PSD-Node）数据集上的实验表明，MDFE-Net在多个评价指标上超越了基准模型及当前先进方法，为农业小目标检测提供了可靠的技术方案。

引言

在目标检测领域，小目标检测是一项重要但极具挑战性的任务。近年来，随着无人机航拍、交通监控和智慧农业等领域遥感技术的快速发展与探索，小目标检测研究取得了显著进展。然而，小目标检测主要面临两大难点：一是由目标尺寸小、像素数少导致的特征表示有限；二是复杂图像背景带来的频繁遮挡与混淆，这给模型检测小目标带来了额外的困难。因此，小目标检测一直是目标检测中最具挑战性的任务之一。

相关工作

小目标定义：小目标的定义通常分为相对大小和绝对大小两类。相对大小强调目标与图像尺寸的关系，一般指目标占图像面积的比例。绝对大小的定义则关注目标本身的像素值，例如COCO数据集提出小目标的像素应小于32×32像素。不同公共数据集对小目标的绝对大小也有不同定义。

小目标检测近期进展：近期研究提出了多种专门针对密集小目标检测的设计。例如，FBRT-YOLO通过针对小目标的特征表示和检测策略进行任务导向的改进，以增强在拥挤场景中的检测鲁棒性。EDSOD则提出了一种专用的小目标检测器，在具有挑战性的背景下改善了特征提取和定位质量。

多尺度特征融合：在目标检测任务中，物体常以各种尺寸出现，单一尺度的特征提取难以有效捕获所有物体的特征。因此，多尺度方法通过在不同尺度上提取特征，能更好地检测不同大小的物体。特征金字塔是一种处理多尺度特征信息的结构。通过使用多尺度特征，网络可以提取更全面的信息，从而提高网络模型对小目标的检测效果。特征金字塔网络（FPN）作为一种增强的特征架构，被提出来很好地改善多尺度问题。基于特征金字塔的目标检测方法和许多应用研究方法在后续的视觉任务中也取得了显著成果。

特征增强：在目标检测中，可以通过特征增强在特征融合之前进一步增强模型的语义表达能力。在此过程中，通过对不同尺度的特征图进行精细处理，提高特征的表现力和判别能力，从而为后续的特征融合提供更丰富、更准确的信息。特征增强可以通过注意力机制实现，此外，多分支卷积和Transformer编码器也是两种常见的特征增强方法。

方法

网络概览：本节介绍了两个即插即用模块和MDFE-Net的整体架构。具体来说，MDFA模块用于捕获多尺度上下文信息，CFE模块用于增强小目标的特征表示。我们将这两个模块与一个P2级别的额外检测头（EDH）一起集成到轻量级的YOLO11N基线中，从而构成了所提出的MDFE-Net。

MDFA模块：在目标检测中，分层特征负责检测相应大小的物体，而小目标通常尺寸小，缺乏足够的特征，难以准确定位和检测。底层特征包含丰富的位置和局部细节。有效利用底层特征信息可以提高较小物体的定位和检测能力。受Dilate Former的启发，我们提出了一种新的多尺度空洞特征聚合（MDFA）模块，其整体结构如图所示。该模块旨在通过整合注意力机制和空洞卷积的优势，同时捕获多尺度范围内丰富的上下文信息，来增强模型提取小目标特征的能力。此模块分为两个主要部分：卷积块注意力模块和多尺度空洞注意力模块，它们共同工作以提高特征表达能力和多尺度适应性。

首先，卷积块注意力模块的工作流程如下：输入特征首先经过通道注意力和空间注意力处理，生成两组注意力权重；然后，通过逐元素相乘，将注意力权重与输入特征结合，得到增强的特征表示。这个过程可以有效提高网络在处理小目标时的敏感性和表示能力，尤其是在复杂背景下能更好地捕获小目标的关键信息。

其次，我们设计了一个受多头注意力机制和空洞卷积启发的多尺度空洞注意力模块。其核心思想是结合多头注意力机制和空洞卷积的特点来捕获多尺度上下文信息。具体来说，该模块首先基于多头注意力机制的原理，将卷积注意力模块输出的特征通过线性投影映射到查询（Q）、键（K）和值（V）空间。然后，为了增强不同尺度下的特征表达能力，我们将特征通道分为四组，并输入到四个具有不同空洞率（r分别=1,2,3,4）的空洞卷积的Dilated Attention头中。每个Dilated Attention头利用空洞卷积在不增加参数的情况下扩展感受野的特性，从不同尺度和上下文范围提取特征。在经过Dilated Attention头处理后，所有特征输出通过多尺度聚合操作进行融合，以整合来自多尺度上下文的信息。

然而，仅依赖空洞卷积可能存在以下问题：一方面，空洞卷积的稀疏采样特性可能导致一些细粒度特征被忽略；另一方面，过大的空洞率可能导致感受野分布不均，导致对某些区域特征的关注不足。为了解决这些问题，我们设计了一个跳跃连接，将原始特征引入聚合过程，进一步补充细粒度信息和全局一致性。这种设计不仅避免了特征信息的丢失，还提高了原始特征的利用效率。空洞注意力机制通过空洞卷积扩大了感受野，从而展现出更强的捕获上下文信息的能力。此外，与传统的下采样操作相比，该机制可以在不降低输入图像分辨率的情况下保留更多的空间细节，这使得模型在小目标检测任务中表现更好。通过结合多头注意力机制的灵活性和空洞卷积的多尺度特性，MDFA模块实现了对多尺度特征的高效捕获和利用，大大提高了模型在处理小目标时的检测精度和鲁棒性。

CFE模块：小目标在图像中通常只由少数像素组成。当前主流的目标检测网络通常由骨干网络、颈部网络和检测头三部分组成。骨干网络对于中大型物体的检测表现较好，但对于纹理简单、尺寸小的检测目标，其特征提取能力有限。在特征提取过程中，骨干网络提取的特征往往包含较少的语义信息，并且受限于狭窄的感受野，这使得小目标的特征难以与背景中的遮挡物区分开来，从而影响检测精度。为了解决这个问题，受RFB-s和FFCA-YOLO的启发，我们提出了上下文特征增强（CFE）模块，其整体结构如图所示。

CFE模块从两个方面增强目标特征的表达能力：首先，它通过采用多分支卷积结构来提取更丰富的语义信息，从而增强特征饱和度，以提高小目标的特征表达能力。其次，通过引入空洞卷积来扩展特征的感受野，以获得更充分的局部上下文信息，从而增强对小目标的上下文感知能力。这种设计不仅可以显著提高小目标的特征表达能力，还能优化计算效率，在一定程度上减少网络的参数量。

在CFE模块中，我们使用多分支卷积和空洞卷积的组合来实现小目标特征的高效提取和多尺度增强。该模块的整体设计包含三个主要分支，它们承担不同的特征处理任务，最后通过特征聚合的方式最大限度地发挥特征的有效性。

第一分支的设计重点是使用多分支卷积结构提取丰富的语义信息，并在此过程中扩展感受野，以增强上下文信息的表达能力。我们对输入特征映射执行1×1卷积操作，初步调整通道数以进行后续处理，降低计算成本并为后续多分支处理奠定基础。然后，将处理后的输入特征输入到三个分支的卷积操作中。其中，一个分支仅包含一个卷积核为3×3的标准卷积。另外两个分支分别由一个大小为1×7和7×1的标准条状卷积与一个空洞率为7的3×3空洞卷积组成，通过条状卷积的长轴感受野扩展特性，有效捕获特征中的不对称和方向性信息。同时，空洞卷积通过引入稀疏感受野，在不增加参数数量的情况下扩展了感受野。这样，捕获了上下文信息与目标之间的长距离依赖关系，并将三个分支上的特征进行拼接（Concat）操作，再输入1×1卷积进行处理。通过第一主分支的特征不仅包含局部细节，还保留了全局上下文信息，并通过条状卷积和空洞卷积的结合有效提高了感受野。模块对小目标的多尺度特征表达能力得到显著增强。此外，与直接使用大卷积核的方法相比，多分支设计在保证感受野扩展效果的同时，可以显著降低计算复杂度和参数量，从而实现模块的轻量化。

第二分支是一个由1×1卷积组成的残差结构。残差结构形成了等效映射，其主要功能是通过等效映射机制直接保留输入特征，以避免小目标的关键特征在多分支卷积操作中丢失。残差结构的引入不仅保证了特征流的完整性，还使CFE模块能更好地适应不同尺度物体的特征表示需求。通过这种设计，小目标的细粒度特征得以保留，为后续的特征融合提供了准确的尺度信息。

第三分支是原始全局特征信息的输入，它在局部特征增强的基础上补充全局信息，从而提高网络对物体整体特征的感知。全局特征的保留对于小目标检测尤为重要，因为小目标的语义信息稀疏，容易受局部信息限制。全局特征的引入可以有效提高模型对小目标的上下文感知能力，并进一步增强检测的鲁棒性。

最后，将上下文信息、关键信息和全局信息进行逐元素相加，以最大限度地保留和提取小目标的有效信息。这种特征融合机制实现了上下文信息、关键特征信息和全局信息的有效整合，并从三个不同的尺度增强了目标特征。具体而言，上下文信息的增强显著提高了小目标的语义饱和度，关键特征信息的保留保证了小目标的细粒度描述，全局信息的添加增强了目标特征的总体一致性。

额外检测头：在特征提取过程中，目标检测模型通常将骨干网络获得的三种不同分辨率（P3、P4、P5）的特征图送入颈部进行特征融合。这是因为随着下采样或卷积操作的叠加，感受野逐渐扩大，高层特征图可以捕获更丰富的语义信息，这对于一般物体的目标检测是足够的。然而，对于大量待检测的小目标，由于其信息量少，其大小、位置等特征信息可能会随着模型层数的增加而逐渐丢失，这不利于准确的物体识别和定位，并且预测头无法从特征图中获得足够的特征信息，导致识别精度低。浅层特征图具有较小的感受野，更关注细节信息，具有更高的空间分辨率和准确的位置信息，适用于缺乏特征信息且难以精确定位的小目标检测任务。

为了保留更多的浅层特征和小目标位置信息，引入了分辨率最高的P2特征图。通过减少下采样次数并保留更多细节信息，将通过骨干网络提取的P2特征图与其他尺度的特征图融合，以提高融合特征的丰富度。此外，利用融合后的特征构建了一个额外的基于P2特征的小目标预测头，使模型拥有更多小目标的位置信息和特征信息，有效减少了特征下采样过程中的位置特征丢失，增强了小目标的上下文信息，提高了小目标的位置检测精度。并结合其他三个预测头，可以很好地缓解因物体尺度剧烈变化带来的负面影响。

MDFE-Net整体架构：为了有效解决小目标检测的挑战，将提出的创新模块MDFA和CFE引入YOLO系列方法的YOLO11N目标检测模型，并以轻量级版本模型YOLO11N作为基准网络框架。构建了一个创新模型——多尺度空洞特征增强网络（MDFE-Net），其整体框架如图所示。采用CSPDarkNet53作为骨干网络，从图像中高效提取分层的多尺度特征。颈部结构用于特征融合，结合多分辨率特征图以提高对小目标上下文信息的感知。检测头结构用于对物体进行分类和定位。CFE模块用于增强主干输出的四个不同分辨率的图像上下文特征信息，以提高对小目标的特征提取能力。同时，为了更好地利用底层特征的细节，使用MDFA模块对底层特征进行多尺度特征聚合，以增强底层特征的注意力表达能力。为了进一步提高小目标位置的检测精度，我们将底层特征图P2引入检测头，并基于此构建了额外的检测头，有效提高了模型对小目标的分类和定位性能。

实验

实验设置

数据集描述：我们选择了三种不同类型的小目标数据集，包括两个公共数据集和一个自建数据集。

VisDrone：这是一个现实场景中的大规模无人机视角数据集，包含大量小目标，数据分布多样，检测场景复杂，使得该数据集更具挑战性。该数据集包含来自14个城市不同区域的10,209张无人机拍摄的静态图像，涵盖了交通场景中的10个常见物体类别，包括约540,000个实例。

GTSDB：德国交通标志检测基准数据集是一个德国的交通标志检测基准数据集，总共包含900张1360×800像素的图像和4种类别的标签类型，并有大量的小型交通标志。

PSD-Node：植物幼苗节点数据集是一个用于植物幼苗节点检测的数据集，由我们在独立的幼苗图像数据采集室中收集和标注（如图所示）。总共收集了1350张原始幼苗图像，包括810张训练集、270张验证集和270张测试集，其中包含数万个幼苗节点的小目标标签。该数据集具有以下特点：（1）PSD-Node中幼苗节点的标签属于相对大小定义下的小目标。（2）PSD-Node中存在大量种子和幼苗节点，可以更有效地验证模型在低光照条件和叶片遮挡条件下检测小目标的性能。（3）PSD-Node属于农业领域的小目标数据集，对于提高模型在农业领域的小目标检测性能具有参考价值。

评估指标：我们使用精确率（P）、召回率（R）、F1分数、平均精度（AP，在IoU阈值从0.50到0.95，步长为0.05上取平均）和AP₅₀（IoU=0.50时的平均精度）作为模型的主要评估指标。除了AP和AP₅₀，我们还报告了尺度感知指标AP_S、AP_M和AP_L，以更好地评估不同物体大小下的性能。这些指标遵循标准检测评估中常用的小、中、大尺度划分。此外，我们在表中报告了GFLOPs和参数量，以在相同输入分辨率下提供与效率相关的参考。

其他细节：我们在1块GPU（NVIDIA GeForce RTX 2080）、Intel(R) Core(TM) i7-8700 CPU和Windows 10操作系统上进行训练，并选择最佳性能作为实验结果。我们选择随机梯度下降（SGD）作为网络优化器。训练周期和批量大小分别设置为300和4。在训练过程中，初始学习率设置为0.01，并使用余弦退火策略来降低学习率。动量设置为0.937，权重衰减设置为0.0005。为确保公平比较，我们排除了所有用于比较的方法使用预训练和自蒸馏策略。此外，考虑到输入图像大小对评估的潜在影响，我们将所有数据图像的输入分辨率统一归一化为640×640，这是目标检测领域的常见选择。为了可复现性，我们还报告了主要的软件环境：Python 3.8, PyTorch 2.0.1, CUDA 11.7, 和 cuDNN 8.5.0。除非另有说明，我们为Python、NumPy和PyTorch固定随机种子（例如42），并在适用的情况下启用确定性设置。

训练目标和损失：为避免歧义，MDFE-Net遵循与YOLO11N基线相同的训练目标。具体来说，我们保持默认的YOLO11N损失公式（分类、定位和目标性项）及其权重不变。此外，标签分配策略与基线相同，我们没有引入任何额外的损失项、自定义匹配规则或辅助监督。因此，性能提升主要来自提出的MDFA和CFE模块，而非训练目标的变化。

与先进算法的比较

为了评估MDFE-Net，我们选择了当前先进的单阶段目标检测方法进行对比实验，包括YOLOv5N、YOLOv6N、YOLOv8N、YOLOv9T、YOLOv10N、YOLO11N、Hyper-YOLO-N和YOLOv12N。同时，选择了基于端到端非CNN框架的RT-DETR-L进行对比实验。

PSD-Node数据集：如表所示，MDFE-Net在PSD-Node数据集上的F1、AP₅₀和AP指标上取得了最佳性能。与基线YOLO11N相比，MDFE-Net将F1、AP₅₀和AP分别提高了3.7%、4.8%和6.8%。与最新的SOTA模型Hyper-YOLO-N相比，MDFE-Net在F1、AP₅₀和AP上仍然分别实现了1.5%、1.4%和1.4%的持续增益。具体而言，MDFE-Net达到了84.8%的F1分数、89.5%的AP₅₀和47.6%的AP。尽管MDFE-Net的精确率略低于FBRT-YOLO-N，但在所有对比方法中仍位居第二，同时在F1、AP₅₀和AP上取得了最佳结果。此外，MDFE-Net的性能也优于表中包含的其他强检测器，如RT-DETR-L、YOLOv12N和FBRT-YOLO-N，证明了我们的方法在这个具有挑战性的数据集上的有效性。我们提供了可视化示例，在放大的区域中，YOLO11N和YOLOv12N产生了一个额外的假阳性（用红色突出显示），而MDFE-Net抑制了此误报，表明小目标检测的鲁棒性和准确性得到了提高。

VisDrone数据集：如表所示，MDFE-Net在VisDrone数据集上优于基线YOLO11N，将F1、AP₅₀和AP分别提高了3.2%、3.7%和2.3%。此外，MDFE-Net实现了AP_S/AP_M/AP_L为0.077/0.268/0.361，在不同物体尺度上显示出明显的增益，特别是对于小物体。与表中包含的最新先进轻量级检测器相比，在相同的评估设置下，MDFE-Net实现了最佳的整体性能。我们还报告了GFLOPs（在640×640输入下计算）和参数量，以表征计算成本，并提供对精度-效率权衡的更完整视图。为了进一步说明MDFE-Net在小目标检测上的有效性，我们提供了与两个强基线YOLO11N和YOLOv12N在VisDrone数据集上的定性比较。不同类别用不同颜色表示：紫色表示摩托车，青色表示汽车，蓝色表示货车。在这个具有密集小目标的挑战性场景中，YOLO11N和YOLOv12N表现出更多的漏检，尤其是摩托车，而MDFE-Net在放大区域检测到更多有效实例且漏检更少。这些观察结果与表中的定量结果一致，其中MDFE-Net在VisDrone上实现了最佳的整体性能。

GTSDB数据集：如表所示，MDFE-Net在GTSDB数据集上取得了一致的改进。与基线YOLO11N相比，MDFE-Net将F1、AP₅₀和AP分别提高了2.5%、2.6%和3.2%。此外，MDFE-Net获得了AP_S/AP_M/AP_L为0.593/0.828/0.910，展示了在不同物体尺度上的强大性能。我们进一步报告了GFLOPs（在640×640输入下计算）和参数量，以在相同评估设置下提供与效率相关的参考。尽管MDFE-Net的召回率略低于EDSOD，但在所有对比方法中仍位居第二，而MDFE-Net在其他主要指标（F1、AP₅₀、AP和AP_S/AP_M/AP_L）上取得了最佳结果，表明其强大的整体检测性能。我们通过提供GTSDB数据集的可视化示例进一步验证了所提方法在小目标检测任务中的有效性，将MDFE-Net与最先进的目标检测器YOLO11N和YOLOv12N进行比较。不难看出，所提方法能有效提高交通小目标检测模型的精度，并且比其他SOTA模型具有更好的小目标检测性能和更低的漏检率。

消融研究

对于MDFA模块，该模块的原始设计意图是通过多尺度空洞卷积的特性，在更大范围的感受野内提取更多的底层特征信息，以提高小目标的检测性能，因此我们将该模块置于YOLO11N的四条特征输出路径中进行消融研究，以验证模块在网络中的放置位置。根据实验结果，P2特征层是MDFA模块的最佳位置。主要原因是P2特征层作为网络的底层特征输出，具有最高的特征图分辨率，包含了最丰富的细节信息和纹理数据，这对于小目标检测至关重要。通过多尺度空洞卷积的设计，MDFA模块可以在保持高分辨率特征图完

热点排行

新闻专题