用于现实场景中小目标检测的通信船舶探测网络
《Engineering Applications of Artificial Intelligence》:Communicating vessels detection network for small object detection in realistic scenario
【字体:
大
中
小
】
时间:2026年02月10日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
针对小物体检测中特征退化问题,提出CVDNet,通过通信静脉主干网络提升深层特征分辨率并融合浅层特征,结合全局信息编码模块自适应捕捉多维度上下文信息,显著提高小物体检测精度,并在多个复杂数据集上验证有效性。
潘文凯|谭志
南京理工大学微电子学院,中国南京,210014
摘要 目标检测是计算机视觉中的一个关键任务。尽管在通用目标检测方面取得了 recent 的进展,但由于神经网络中的特征退化,准确检测小物体仍然是一个重大挑战。虽然提高输入图像分辨率被广泛认为是对抗特征退化效应的最有效方法,但这种方法不可避免地会导致计算成本的显著增加。为此,我们提出了“通信血管检测网络”(Communicating Vessels Detection Network),该网络有两个主要贡献。首先,“通信血管主干网络”(Communicating Vessels Backbone)提高了深度特征图的分辨率,并将其与浅层特征融合,有效缓解了特征退化问题。此外,我们设计了“全局信息编码模块”(Global Information Coding Module),该模块能够自适应地捕获来自水平、垂直和全局方向的上下文依赖性,为小物体检测提供关键指导。在具有挑战性的“Vision Meets Drone: A Challenge 2019”数据集上,“通信血管检测网络”将平均精度(mean average precision)、小物体的平均精度以及中等物体的平均精度分别提高了1.5%、0.64%和1.02%。此外,与现有最先进方法相比,我们的模型在“交通信号检测数据集”(Traffic Signal Detection dataset)和两个“安全头盔佩戴检测数据集”(Safety Helmet Wearing Detection datasets)上也表现出更优的性能。
引言 得益于深度学习的 recent 进步,目标检测在性能上取得了显著提升,从手动特征工程过渡到了端到端的自主感知系统。这一演变促进了目标检测在关键下游行业的广泛应用,包括工业缺陷检测、自动驾驶车辆、智能安全系统、国防工业等领域。此外,大规模公开可访问的数据集(如Pascal VOC(Everingham等人,2007年,Everingham等人,2012年)、MS-COCO(Lin等人,2014年)和ImageNet(Jia等人,2009年)用于通用物体检测和分类;KITTI(Geiger等人,2012年)用于3D物体检测;Tsinghua–Tencent 100 K(Zhu等人,2016年)用于交通标志检测;SARDet-100K(Li等人,2024年)用于合成孔径雷达(SAR)检测;以及VisDrone2019(Zhu等人,2018年)、VisDrone2021(Zhu等人,2021年)、DOTA(Xia等人,2018年)、UAVDT(Du等人,2018年)用于航空图像中的小物体检测和跟踪)进一步推动了目标检测的发展。这些数据集有望在多种应用领域进一步推动目标检测技术的发展。与基于深度学习的方法相比,传统的目标检测方法严重依赖人工干预,导致效率低下和性能不稳定。这些限制使得它们无法满足现代应用对高精度、计算效率和操作简便性的要求。因此,基于深度学习的目标检测技术因其卓越的性能而在许多领域成为关键技术。
尽管基于深度学习的目标检测方法(如Region-CNN系列、You Only Look Once系列及其变体)在通用物体识别方面取得了显著成功,但它们在特定任务上的表现仍不尽如人意。医学成像、合成孔径雷达(SAR)成像和航空图像由于其独特特性而带来独特挑战。
特别是,航空图像与自然图像有显著不同,因为它们的分辨率高且物体在稀疏区域中密集分布,这使得通用检测器难以适应,如图1所示。目标检测的一个主要限制是小物体检测的挑战。例如,在Microsoft Common Objects in Context(COCO)数据集上,一些检测器对小物体的检测准确率仅为大物体的大约一半。这种性能差距由三个关键因素造成:(1)随着网络深度的增加,特征退化;(2)小物体中包含的信息有限,使得深度神经网络难以进行分类和决策;(3)定位挑战,即使是很小的位置误差也会导致交并比(Intersection-over-Union,IoU)偏差较大。第3.1节对这些问题进行了详细讨论。
为了解决小物体检测相关的挑战,研究人员引入了几种创新解决方案。Lee等人(2019年)引入了VoVNet来提高推理速度并降低能耗,解决了DenseNet(Huang等人,2017年)中的效率问题。Wang等人(2021年)提出了一种新的评估指标——标准化Wasserstein距离(Normalized Wasserstein Distance),以减轻交并比(IoU)对小物体位置偏差的敏感性。Yang等人(2022年)设计了一种查询机制,利用低分辨率特征来指导高分辨率特征的计算,从而实现高效的小物体检测。Jing等人(2024年)设计了一种新的特征编码方法,用于在低分辨率图像中检测小物体。Song等人(2024年)采用了一种增强型前景特征策略来减少背景信息的干扰。Tong和Wu(2024年)通过捕获多尺度语义和上下文信息,提高了海洋环境中小物体的分类和定位性能。
在重新评估小物体出现的原因后,我们确定了两个主要因素。首先,物体的固有大小决定了其感知尺寸;例如,网球明显比篮球小,Trichogaster trichopterus的体型明显比鲸鱼小,帆船比游轮小。其次,物体与相机之间的相对距离影响其外观大小;例如,从海上远处观察时,船只可能显得很小,就像在高空中飞机看起来很小一样。同样,物体在靠近相机时显得更大,在远处则显得更小,无论其实际大小如何。为了解决第一个因素,提高输入图像分辨率是最有效的方法。例如,将分辨率翻倍可以将32 × 32像素的小物体变为64 × 64像素的中等物体,将64 × 64像素的中等物体变为128 × 128像素的大物体。虽然这种方法提高了小物体检测的准确性,但也显著增加了计算复杂性,可能会影响实时应用的可行性。为了解决第二个因素,我们提出利用物体上下文信息来减少检测挑战。例如,船只通常出现在水面上而不是陆地上,汽车通常出现在道路上。然而,在复杂的上下文中,这种方法可能不太可靠,因为模糊的背景可能会妨碍准确的物体识别。
通过分析导致小物体产生的因素,我们设计了一种专门用于小物体检测的检测器——通信血管检测网络(CVDNet)。CVDNet由两个关键组件组成:通信血管主干网络(Communicating Vessels Backbone,CVBackbone)和全局信息编码模块(Global Information Coding Module,GICM)。由于小物体在图像中占用的像素空间很小,经过深度卷积神经网络处理后,它们的特征可能仅剩几个像素。这导致样本分布严重偏向负样本,增加了网络忽略关键特征的可能性,从而导致检测失败。为了解决这个问题,我们重新设计了主干网络:首先,为了对抗深度神经网络中的特征退化,我们提高了主干网络深层特征图的分辨率;其次,我们将浅层特征和深层特征融合,保留了小物体区域中的更丰富特征信息。此外,小物体本身包含的特征信息有限,这对准确分类构成了挑战。为了弥补这一点,我们引入了GICM模块,该模块从图像中提取上下文信息以帮助检测器做出准确预测。我们的主要贡献可以总结如下:
(1) 我们提出了一种新的通信血管主干网络(CVBackbone),通过提高深度特征图的空间分辨率并将其与浅层特征融合,减轻了深度特征退化问题。这种双流设计提高了高层次的语义表达和低层次细节的保留能力,这对于小物体检测至关重要。
(2) 我们设计了一个全局信息编码模块(GICM),该模块能够自适应地从三个结构化方向(水平、垂直和全局)提取上下文依赖性。这种设计有助于在杂乱背景下更好地区分物体,并帮助检测器做出最终检测决策。
(3) 我们在四个具有挑战性的基准数据集上验证了我们的方法,在VisDrone2019、TT100K、SHWD-1和SHWD-2数据集上取得了更好的性能。与最近的最先进模型相比,我们的检测器在准确性和复杂性之间取得了更好的平衡。
相关工作 相关工作 通用目标检测 通用目标检测是指在自然图像中识别物体,可以分为两阶段方法和单阶段方法。两阶段方法包括RCNN(Girshick等人,2014年)、Fast RCNN(Girshick,2015年)、Faster RCNN(Ren等人,2016年)、Mask RCNN(He等人,2017年)和Cascade RCNN(Cai和Vasconcelos,2018年)等模型,这些模型首先生成候选物体区域,然后再进行分类和定位。
方法 在本节中,我们首先分析了神经网络中特征退化的原因,然后提出了我们的模型CVDNet,并详细介绍了其架构组件。在整个工作中,我们使用了MS COCO数据集中定义的物体类型,即小物体 < 32 × 32像素,中等物体 < 96 × 96像素,以及大物体 > 96 × 96像素。
实验与分析 在本节中,我们进行了广泛的实验来评估我们提出的模型。首先,我们分析了数据集中小物体、中等物体和大物体的分布情况,以及每种物体类型的图像比例。其次,我们评估了我们的方法在VisDrone2019、Tsinghua–Tencent 100 K、SHWD-1和SHWD-2数据集上的性能。最后,我们进行了一系列消融实验并进行了详细分析。
消融实验 为了探索我们提出的CVBackbone和GICM对物体检测的影响,我们在SHWD-2数据集上进行了实验并进行了详细分析。在这些消融实验中,我们使用了416 × 416的输入尺寸,其他训练参数遵循第4.2节中设置的参数。
结论 目标检测是计算机视觉中的一个基本任务,但在小物体、尺寸变化和杂乱背景等具有挑战性的场景下,其性能仍然不够理想。具体来说,小物体的信息容量有限,导致在深度网络计算过程中特征退化,从而妨碍了检测器的准确识别。在本文中,我们提出了CVDNet来解决图像中小物体带来的挑战。首先,我们设计了一个
CRediT作者贡献声明 潘文凯: 撰写——原始草稿、可视化、方法论、数据整理、概念化。谭志: 撰写——审稿与编辑、监督。
利益冲突声明 作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号