YOFOR：在航空图像中进行微小目标检测时，您只需关注目标区域

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：YOFOR: You Only Focus on Object Regions for Tiny Object Detection in Aerial Images

【字体：大中小】 时间：2026年01月12日 来源：Neural Networks 6.3

编辑推荐：

　　针对高分辨率遥感图像中目标分布不均和长尾类别问题，提出YOFOR模型，包含自适应局部感知、模糊增强和类别平衡模块，通过动态裁剪目标区域、抑制背景干扰和平衡类别样本实现检测性能提升，实验验证优于现有方法。

Heng Hu|Hao-Zhe Wang|Si-Bao Chen|Jin Tang

安徽大学计算机科学与技术学院，合肥，230601，中国

摘要

随着深度学习方法的发展，物体检测的性能得到了显著提升。然而，遥感图像的高分辨率、背景的复杂性、物体的不均匀分布以及物体数量的不均衡导致了现有检测器的检测结果不尽如人意。针对这些挑战，我们提出了YOFOR（You Only Focus on Object Regions），一种自适应的局部感知增强网络。该网络包含三个组成部分：自适应局部感知模块、模糊增强模块和类别平衡模块。其中，自适应局部感知模块能够动态地定位密集物体区域并裁剪出这些区域，有效解决了物体分布不均匀的问题；模糊增强模块通过减弱背景干扰进一步增强了物体区域，从而提高了检测性能；类别平衡模块通过分析数据集获取长尾类别的分布情况，考虑了长尾类别的方向和周围距离，并对特定范围内的长尾类别进行处理，以缓解长尾类别问题，进一步提高检测性能。这三个模块均采用无监督学习方式，可以轻松集成到现有网络中。在VisDrone、DOTA和AI-TOD数据集上的广泛实验验证了该方法的有效性和适应性。

引言

近年来，深度学习模型因其出色的学习和抽象能力而被广泛应用（Balderas等人，2024年），尤其是在计算机视觉领域取得了显著进展。作为图像处理中的基本任务之一，物体检测也得到了广泛研究，特别是在无人机（UAV）视频中的行人和车辆检测方面，这些应用在救援、监控、交通监控和行人跟踪等领域取得了巨大进展（Xie等人，2018年）。尽管使用深度卷积神经网络在物体检测任务上取得了显著进展，但大多数深度卷积神经网络是为自然场景图像设计的，其在遥感图像上的应用在准确性和效率方面仍存在局限。

使用遥感图像进行物体检测的主要挑战之一是物体在复杂背景环境中的分布较小且不均匀。如图1(a)所示，相对于整个图像，无物体的区域占据了大约75%的空间，而物体主要集中在仅占整个图像25%的空间内。如果直接将整个图像输入检测器，会导致检测效率低下，同时复杂的背景信息也会影响检测效果。这种现象在一般的物体检测基准测试中也很常见（例如PASCAL VOC（Lin等人，2014a）和MS COCO（Lin等人，2014b））。此外，遥感图像的分辨率远高于自然图像。尽管图像加速技术和深度学习方法发展迅速，许多基于CNN的先进检测器在许多研究现状中表现出良好性能（如Faster-RCNN（Ren等人，2015年）和YOLO系列（Jocher等人，2022年；Redmon等人，2016年；Redmon和Farhadi，2018年）），但这些检测器是为分辨率较低的自然图像设计的，因此在处理高分辨率的遥感图像时无法进行有效的卷积运算。为了解决这个问题，最常见的方法是将原始图像均匀裁剪成子图像，然后分别在每个子图像上进行检测。然而，没有必要对整个图像进行卷积处理，可以忽略那些对检测精度贡献较小的稀疏区域。类似的解决方案还包括Duan等人（2021年）和Li等人（2020a）的方法，它们通常采用从粗到细的流程：首先使用粗略的检测器定位包含密集物体的子区域，然后再对这些区域进行详细检测以找到小尺寸的物体。然而，粗略检测器提供的子区域相对粗糙，包含大量背景信息，这会抑制物体的检测性能，并导致误检和漏检。同时，这也导致了计算效率低下。尽管Deng等人（2020年）的文献对子区域进行了超分割处理，但在分割背景时也会分割物体，这种做法在某种程度上影响了物体检测性能。

此外，研究人员还忽略了无人机视角下的另一个关键问题：不同类别之间的物体样本数量不平衡。通过分析我们发现，公开数据集（如VisDrone（Zhu等人，2018年）、DOTA（Xu等人，2021a）和AI-TOD（Wang等人，2021b；Xu等人，2022a）存在长尾类别问题。如图1(b)所示，在VisDrone数据集中，行人、人和汽车占据了超过70%的物体样本（这些类别称为头部类别），而公交车、厢式货车和卡车等类别的样本数量较少（这些类别称为尾部类别）。长尾类别问题对检测性能有显著影响，因此解决这一问题是十分重要的。

因此，为了解决上述挑战，我们提出了一种名为YOFOR（You Only Focus on Object Regions）的自适应局部感知增强网络，该网络包含三个模块：自适应局部感知模块、模糊增强模块和类别平衡模块。具体来说，我们首先对下采样的图像进行全局粗略检测，以大致识别物体位置并提取物体的轮廓特征。为了准确定位物体区域，我们提出了一种高效的自适应局部感知算法，该算法可以动态应用于全局粗略检测结果，以定位并裁剪出物体区域作为子区域。选定的子区域随后被输入模糊增强模块和类别平衡模块。通过增强模块减弱背景干扰，进一步增强了物体特征。通过分析数据集获得长尾类别的分布情况，类别平衡模块考虑了物体周围的方向和距离，对特定范围内的长尾类别进行处理，以平衡长尾类别的数量差异，从而缓解长尾类别问题。最后，通过非最大值抑制（NMS）合并局部检测和全局粗略检测结果，得到最终检测结果。广泛的实验和全面评估表明，我们的新方法比现有的先进检测器具有更好的性能和更高的鲁棒性。

因此，本工作的主要贡献可以总结如下：

•

我们提出了一种名为YOFOR（You Only Focus on Object Regions）的有效自适应局部感知增强网络，用于解决高分辨率航空图像中密集微小物体的检测问题，并在三个代表性的航空图像数据集（VisDrone、AI-TOD和DOTA）上实现了最先进的检测性能。

•

我们提出了一种无监督的自适应局部感知模块，可以轻松集成到现有网络中，能够从高分辨率图像中动态裁剪出物体区域进行进一步细化，从而提高检测精度，解决了物体分布不均匀的问题，并减少了漏检现象。

•

我们提出了模糊增强模块，通过减弱背景干扰进一步增强了物体区域，减少了噪声干扰，提高了检测性能。

•

我们提出了类别平衡模块，首先分析数据集以获取长尾类别的分布情况，然后对特定范围内的长尾类别进行处理，从而平衡不同类别的样本数量差异，进一步提高了检测性能。

实验部分

通用物体检测器

近年来，随着CNN在人工智能领域的成功，特别是计算机视觉领域，通用物体检测技术得到了极大发展。当前的物体检测方法可以分为基于锚点的检测和无锚点检测。基于锚点的检测是在图像上预先定义不同大小的锚点，然后对这些锚点进行分类和回归以输出最终预测结果。基于锚点的检测器包括Faster R-CNN等。

方法论

为了解决复杂背景环境中物体分布不均匀和长尾类别的问题，我们提出了一种名为YOFOR（You Only Focus on Object Regions）的自适应局部感知增强网络。我们的方法主要采用了从粗到细的策略，如图2所示。具体来说，我们首先对下采样的低分辨率图像进行全局粗略检测，然后使用ALSM从全局粗略检测结果中动态找到物体子区域。

实验

我们在三个公开的航空图像数据集（VisDrone、DOTA和AI-TOD）上进行了大量实验，证明了该方法的有效性、适应性和实用性。

结论

本文提出了一种名为YOFOR的自适应局部感知增强网络，用于提高无人机视角下物体的检测性能。我们利用全局粗略检测结果自适应地聚焦于物体子区域，解决了遥感图像分布不均匀的问题，然后对子区域进行模糊增强以增强物体特征并抑制复杂背景的干扰。

CRediT作者贡献声明

Heng Hu：撰写——初稿。Hao-Zhe Wang：撰写——审稿与编辑。Si-Bao Chen：撰写——审稿与编辑。Jin Tang：撰写——审稿与编辑。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能影响本文的研究结果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号