DualSKNet:一种用于空中目标检测的双路径选择性核网络

《Digital Signal Processing》:DualSKNet: Dual-Path Selective Kernel Network for Aerial Object Detection

【字体: 时间:2026年02月27日 来源:Digital Signal Processing 3

编辑推荐:

  空中图像检测中,大尺度变化和小目标密集分布导致传统方法依赖固定卷积核的局限性凸显。本文提出DualSKNet架构,通过选择性大核卷积框架并行集成空间- aware(SASK)和通道- aware(CASK)模块,前者利用多尺度卷积分支和池化机制增强空间语义建模,后者采用轻量级Conv1D替代全连接层以捕捉通道局部依赖。实验表明,该架构在VisDrone2019、DIOR、MSCOCO和VOC0712四大数据集上mAP分别达到30.9%、57.1%、40.5%和61.2%,较主流方法提升显著,同时保持计算效率。

  
李超|徐慧英|谢刚|张晓蕾|朱新忠|李洪波
贵州师范大学大数据与计算机科学学院,贵阳,550025,中国

摘要

在航空影像中,大规模的变化和密集的小目标是一个常见的挑战,这对目标检测带来了显著的难度。大多数现有方法依赖于具有固定感受野的卷积主干网络,这使得有效捕捉跨尺度上下文信息变得困难。当处理小对象或大对象的结构细节时,这一限制尤为明显。为了解决这些问题,本文提出了DualSKNet,它在选择性大核卷积框架内整合了空间感知选择核(SASK)和通道感知选择核(CASK)的并行和解耦建模,以增强对不同尺度对象的感知。具体来说,CASK模块用轻量级的Conv1D操作替换了传统的全连接层,以模拟局部通道依赖性,提高了通道区分度,同时降低了参数复杂性。同时,SASK模块采用多尺度卷积分支结合池化机制来加强空间区域的语义建模。此外,为了减轻轻量级模型中特征压缩导致的信息损失,我们在DualSKNet-Tiny架构中引入了一个绕过注意力建模的剩余通道路径,从而增强了特征的完整性和鲁棒性。我们在四个公共基准测试集上对DualSKNet进行了广泛的评估:VisDrone2019、DIOR、MS COCO和VOC0712。实验结果表明,DualSKNet在不同模型尺度和任务场景中均表现出优越的性能,一致性地超越了各种主流方法,在检测准确性上没有显著增加计算成本,凸显了其强大的跨领域适应性和部署潜力。

引言

无人机和卫星技术的进步使得航空影像成为计算机视觉领域的研究热点。这些平台提供了广阔的视野,使得航空图像比自然图像包含更多的信息和复杂性。它们被广泛应用于城市规划[1]、环境监测[2]和灾害响应[3]等领域。航空目标检测旨在从鸟瞰图像中准确定位和分类感兴趣的对象。尽管基于深度学习的目标检测方法[4]、[5]、[6]、[7]、[8]、[9]在自然图像[10]、[11]上取得了显著进展,但航空目标检测面临独特的挑战,如大规模变化和密集的小目标,这限制了这些方法的直接应用。
近年来,研究人员从不同角度提出了创新解决方案来应对航空图像的特点,包括检测机制设计[12]、[13]、[14]、特征建模技术[15]和损失函数优化[16]。尽管这些方法在提高航空目标检测性能方面取得了进展,但它们通常依赖于具有固定感受野的卷积结构,这难以适应具有显著尺度变化的目标分布,从而限制了上下文信息的有效建模。
为了解决尺度变化的挑战,一些研究从感受野设计的角度探索了解决方案。例如,PKINet[17]引入了一种多尺度大核卷积结构,能够在不需要膨胀操作的情况下捕捉不同尺度的特征。它还结合了上下文锚注意力(CAA)模块来模拟长距离上下文。然而,其众多的并行分支导致训练时间较长且部署灵活性有限。相比之下,LSKNet[18]引入了空间核选择模块,该模块动态调整感受野大小,增强了模型对尺度变化的适应性,特别有利于小对象检测。然而,LSKNet中的注意力机制仅沿空间维度操作,忽略了通道维度的重要性,这限制了其完全捕捉跨维度特征之间互补关系的能力。
实际上,跨维度特征表示——即同时建模空间和通道注意力交互——被认为是提高上下文意识和改善检测性能的关键方法。诸如CBAM[19]、SENet[20]和CA[21]等方法试图结合空间和通道注意力,但它们通常以顺序方式建模这两个维度,这导致了对建模顺序的依赖性,并且难以有效地解耦空间和通道特征。此外,这些注意力机制通常作为独立模块添加,并没有与具有动态感受野优势的大核结构有机结合,限制了它们在复杂尺度和密集小对象场景中的建模能力。
总之,动态感受野调整能力不足和跨维度特征建模的局限性是当前航空目标检测性能的两个关键瓶颈。为了解决这些问题,本文提出了一种新颖的网络架构DualSKNet(双路径选择核网络),它首次在选择性大核框架下引入了并行的空间和通道注意力机制,同时提高了感受野调整的灵活性和跨维度上下文建模能力。我们将DualSKNet作为主干网络集成到YOLOv8检测框架中,并在四个典型的公共数据集上进行了广泛的实证研究,包括VisDrone2019、Dior、MSCOCO和VOC0712。实验结果表明,DualSKNet在这些数据集上的性能显著优于现有的主流检测模型:在VisDrone2019上达到30.9%的mAP,在Dior上达到57.1%,在MSCOCO上达到40.5%,在VOC0712上达到61.2%。这一结果充分验证了所提出机制在真实世界遥感检测任务中的有效性和应用潜力。
与现有方法相比,DualSKNet的新颖性体现在三个关键方面。首先,与之前仅建模空间适应性的大核网络(如LSKNet)不同,DualSKNet首次在统一的选择性核框架内解耦和并行化了空间和通道注意力,使得两个维度能够独立但互补地优化。其次,虽然传统的跨维度注意力模块(如CBAM、CA)采用顺序或加性融合,但我们的CASK和SASK模块本质上集成到大核卷积路径中,允许动态感受野选择直接受益于跨维度特征交互。第三,所提出的CASK用轻量级的Conv1D替换了全连接层,这不仅减少了参数数量,还保持了通道的结构顺序——这是大多数通道注意力机制所忽略的属性。这种解耦注意力和大核卷积的协同设计从根本上解决了固定感受野和航空目标检测中跨维度建模能力弱的限制。
总结来说,本工作的贡献包括:
1) 引入了通道感知选择核(CASK),它使用Conv1D卷积沿通道维度进行轻量级的局部交互建模,增强了通道注意力能力,同时降低了模型复杂性。
2) 引入了空间感知选择核(SASK)模块,该模块基于多尺度大核融合机制构建了空间响应增强路径。该模块嵌入在主干网络的信息流中,作为通道路径的并行注意力分支,改善了区域语义建模和上下文意识。
3)开发了DualSKNet框架,这是第一个在大核选择性网络中解耦和融合空间和通道注意力的框架,并将其作为主干集成到YOLOv8检测器中。我们在四个公共基准测试集上对其性能优势进行了广泛评估:VisDrone2019、Dior、MSCOCO和VOC0712。

部分摘录

航空图像中的目标检测

由于极端的尺度变化、密集的目标分布、任意的方向和复杂的背景,航空和遥感图像中的目标检测仍然是一个具有挑战性的任务。早期的工作主要集中在方向感知建模和小对象增强上。例如,Gliding Vertex [22]改进了水平边界框以更好地近似旋转目标。Oriented RepPoints [23] 使用自适应点集表示来处理任意方向的航空对象

DualSKNet概述

本文提出了一种新颖的选择性卷积网络架构DualSKNet,其核心思想是将大核卷积的自适应感受野调整能力与解耦的空间-通道注意力增强机制深度集成。该设计旨在提高跨尺度和维度的特征表示。如图1所示,DualSKNet的总体架构包括一个多尺度选择核(MSK)卷积模块和

数据集

VisDrone2019[38]数据集由天津大学机器学习与数据挖掘实验室的AIKYEYE团队发布,包含在14个不同的城市和农村环境中捕获的图像。这些环境涵盖了各种条件,包括不同的天气模式和光照场景。该数据集被分为十类航空目标检测:行人、人、自行车、汽车、货车、三轮车、带遮阳篷的三轮车、公交车和摩托车。

可视化

为了进一步验证模型之间的感知准确性差异,选择了四个典型图像来可视化同一层上的注意力热图。如图5所示,三列分别对应DualSKNet、LSKNet和PKINet的可视化结果。圈出的区域反映了模型对目标区域的响应强度和焦点。可以看出,DualSKNet在

结论

本文通过提出一种新颖的主干网络结构DualSKNet,解决了航空和遥感图像中的关键挑战,如严重的尺度变化、密集的小目标和复杂的上下文建模问题。这种方法基于可选的大核卷积,首次实现了空间注意力和通道注意力的解耦并行融合,有效增强了特征表示的维度适应性和结构感知能力。

CRediT作者贡献声明

李超:概念化、方法论、写作——原始草稿。徐慧英:概念化、方法论、写作——审阅与编辑、监督。谢刚:软件。张晓蕾:软件、验证。朱新忠:验证。李洪波:验证。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
李超获得了中国聊城的学士学位,目前在中国贵州师范大学攻读计算机科学与技术硕士学位。同时,她在浙江师范大学杭州人工智能研究所担任工程师。她的研究兴趣包括深度学习、计算机视觉和目标检测。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号