基于信道信息交互的辅助优化网络在伪装物体检测中的应用

《Exploratory Research in Clinical and Social Pharmacy》:Assisted Refinement Network Based on Channel Information Interaction for Camouflaged Object Detection

【字体: 时间:2026年03月21日 来源:Exploratory Research in Clinical and Social Pharmacy 1.8

编辑推荐:

  隐蔽数字图像检测中,提出ARNet模型通过CIIM模块增强跨通道信息交互,结合BE和RE模块协同建模边界与区域信息,采用混合注意力机制优化解码特征,并通过MSE模块增强多尺度特征表达。实验表明,该模型在COD数据集上达到SOTA性能,并成功迁移至SOD及多项下游应用任务。

  
Kuan Wang|Yanjun Qin|Mengge Lu|Liejun Wang|Xiaoming Tao
新疆大学计算机科学与技术学院,乌鲁木齐,830017,中国

摘要

伪装物体检测(COD)是计算机视觉中的一个重要挑战,旨在识别和分割与背景高度融合的物体。当前的主流方法在跨层特征融合方面取得了进展,但在解码阶段仍存在两个关键问题。首先是同一层特征内的跨通道信息交互不足,限制了特征的表现能力。其次是无法有效协同建模边界和区域信息,导致难以准确重建物体的完整区域和清晰边界。为了解决第一个问题,我们提出了通道信息交互模块(CIIM),该模块在通道维度引入了水平-垂直集成机制。该模块通过跨通道的特征重组和交互来有效捕获互补的跨通道信息。为了解决第二个问题,我们构建了一个基于先验知识的协作解码架构。该架构通过边界提取(BE)和区域提取(RE)模块生成边界先验和物体定位图,然后采用混合注意力机制协同校准解码后的特征,有效克服了语义歧义和边界不精确的问题。此外,多尺度增强(MSE)模块丰富了上下文特征表示。在四个COD基准数据集上的广泛实验验证了所提出模型的有效性和先进性能。我们进一步将模型应用于显著物体检测(SOD)任务,并展示了其在包括息肉分割、透明物体检测以及工业和道路缺陷检测在内的下游任务中的适应性。代码和结果可在以下链接公开获取:https://anonymous.4open.science/r/ARNet-eswa

引言

伪装物体检测(COD)是计算机视觉中一个关键且极具挑战性的任务,其目标是准确识别和定位与周围环境视觉上融为一体的物体(Fan, Ji, Sun, Cheng, Shen, Shao, 2020a, Stevens, Merilaita, 2009, Wang, Yang, Zhang, Wang, Zheng, 2024a)。除了学术意义外,COD在军事侦察(Stevens & Merilaita, 2009)、医学图像分割(例如息肉分割)(Fan et al., 2020b)、工业缺陷检测(Fan et al., 2023)以及农业害虫和疾病监测与控制(Wang et al., 2024a)中也具有重要的实际价值。与传统物体分割不同,COD特别困难,因为目标通常与背景的对比度极低,边界模糊,视觉结构不完整,这使得生物和人工视觉系统都难以进行精确分割。
当前主流的COD方法主要关注跨层特征融合,以从骨干网络的不同层次解码信息(Chen, Liu, Sun, Ji, Wu, Zhou, 2022a, Pang, Zhao, Xiang, Zhang, Lu, 2022, Sun, Wang, Chen, & Xiang, Wang, Yang, Zhang, Wang, Zheng, 2024a, Xing, Gao, Wang, Wei, Tang, Zhang, 2023)。尽管取得了显著进展,但这些方法在复杂场景中仍难以实现精确分割。我们认为这主要源于解码过程中的两个限制:(1)卷积神经网络(CNN)本质上生成多通道特征图,不同通道通常编码了纹理、边界、颜色和语义成分等互补线索(Qiu, Chen, Liu, Zhang, & Zeng, 2021)。然而,现有的COD解码器主要强调层间融合,而同一层内的跨通道显式交互仍然不足。在COD中,由于判别线索较弱且分散,这容易在解码过程中稀释微妙但重要的线索,导致物体区域不完整或细节结构缺失;(2)许多现有方法以相对分离或耦合较弱的方式对边界和区域信息进行建模。这是有问题的,因为准确的COD需要精确的轮廓定位和语义连贯的区域完成。如果没有有效的边界-区域协作,预测可能会受到边界渗漏、碎片化掩码或物体范围不一致的影响。为了进一步定性说明这些问题,图1展示了与MSCAF-Net(Liu, Li, Cheng, & Chen, 2023)和BGNet(Sun et al., 2022)的代表性比较,这两个最近的基线方法分别强调了区域定位和边界指导。在第一个例子中,尽管MSCAF-Net包含区域定位组件,但其单一的指导方案和简单的基于连接的跨层融合仍然导致物体范围不够连贯,而我们的方法产生了更完整且语义一致的区域预测。在第二个例子中,BGNet利用边界提取和指导,但在杂乱纹理下仍表现出边界渗漏,而我们的协作边界-区域建模恢复了更清晰的轮廓和更锐利的边界对齐。为了解决这些限制,一个有效的COD框架不仅应在每个解码阶段加强特征交互,还应在预测细化过程中明确协调边界和区域线索。因此,我们提出了一种新的辅助细化网络(ARNet),它在解码过程中完全捕获跨通道的互补信息,以生成具有完整物体和清晰边界的分割结果。具体来说,我们设计了一个通道信息交互模块(CIIM),采用跨层和跨通道维度的双维解码架构。如图2所示,跨通道子解码器嵌入在跨层解码器的每一层中,以更深入地挖掘跨通道的互补特征。与仅通过通道注意力重新加权主导通道的方法(如SENet(Hu, Shen, & Sun, 2018)不同,CIIM引入了一种结构重组范式。它沿通道维度分解特征,然后沿水平和垂直轴重新组织和压缩它们,从而明确建模跨通道依赖性。此外,我们设计了边界提取(BE)和区域提取(RE)模块来建模来自骨干特征的先验信息。BE模块专注于提取显著的边界特征以生成边界先验,而RE模块捕获粗略的空间定位以生成物体定位图。为了实现这些模块之间的高效协同,我们进一步提出了混合引导注意力(HGA)模块。在CIIM中,HGA通过自注意力机制动态融合边界和区域指导,为解码提供精确的边界和空间约束,同时保持语义一致性。最后,设计了一个多尺度增强(MSE)模块,以进一步增强CIIM融合特征的上下文表达能力。
我们在四个广泛使用的COD基准数据集上进行了全面评估。广泛的实验结果表明,ARNet在多个标准评估指标上显著优于许多最先进(SOTA)方法。为了严格评估所提出方法的多样性和跨域泛化能力,ARNet还被应用于密切相关的显著物体检测(SOD)任务(Borji, Cheng, Jiang, & Li, 2015),并展示了其强大的适应性。此外,其在包括医学图像分割(息肉)、透明物体检测、缺陷检测和道路裂缝检测在内的多种下游应用中的有效性也得到了验证。这些实验清楚地证明了该模型的鲁棒性、适应性和在多个视觉领域的广泛应用能力。
总结来说,本文的主要贡献有三个方面:
  • 我们提出了ARNet,在通道维度引入了子解码器,以实现双维信息交互,明确解决了COD解码中跨层内跨通道交互不足的问题。
  • 我们构建了一个基于先验知识的辅助解码架构,具有生成精确边界先验和物体定位图的专用模块。我们引入了混合自注意力机制来协同校准边界和空间定位。最后,采用多尺度卷积策略来丰富校准后的特征表示。
  • 我们在四个COD基准数据集上进行了广泛验证,并成功将我们的方法应用于SOD任务和各种下游应用,证明了其强大的泛化能力。
  • 部分摘录

    伪装物体检测

    COD旨在识别与周围环境视觉上融为一体的物体,这对视觉感知系统来说是一个固有的挑战。随着深度学习的快速发展,基于CNN(Fan et al., 2020a)和Transformer(Liu, Zhang, Tan, & Wu, 2022)的框架在COD任务中的整体性能显著提高。当前关于监督学习方法的研究主要集中在两个核心技术上:跨层特征融合和辅助信息指导。

    概述

    ARNet的总体架构如图3所示,主要包括三个关键组件:特征提取骨干网络、主解码网络和辅助子任务。特征提取骨干网络采用了尺度感知调制Transformer(SMT)(Lin, Wu, Chen, Huang, & Jin, 2023),在尺度感知调制机制、ConvNet和Transformer优势的有效融合以及整体性能方面优于PVTv2(Wang et al., 2022)。

    实验设置

    数据集。对于COD,使用了四个广泛使用的基准数据集:COD10K(Fan et al., 2020a)、CAMO(Le, Nguyen, Nie, Tran, & Sugimoto, 2019)、NC4K(Lv et al., 2021)和CHAMELEON(Skurowski et al., 2018)。COD10K包含3,040张训练图像和2,026张测试图像,是最大的基准数据集。CAMO包含1,250张COD图像,其中1,000张用于训练,250张用于测试。NC4K和CHAMELEON分别包含4,121张和76张测试图像,用于评估模型的

    结论

    考虑到现有COD方法的两个关键限制:(1)同一层特征内的跨通道信息交互不足;(2)边界和区域信息之间缺乏有效的协同建模。为了解决这些问题,本文提出了一种新的ARNet。该设计采用了双维解码架构,整合了CIIM、BE和RE模块,在层和通道维度上进行混合解码,同时提供精确的边界和

    CRediT作者贡献声明

    Kuan Wang:概念化、方法论、软件、验证、形式分析、可视化、撰写——原始草案。Yanjun Qin:方法论、验证、撰写——审阅与编辑。Mengge Lu:软件、数据管理、可视化。Liejun Wang:资源、监督、撰写——审阅与编辑。Xiaoming Tao:概念化、监督、项目管理、资金获取、撰写——审阅与编辑。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号