伪装物体检测(COD)是计算机视觉中一个关键且极具挑战性的任务,其目标是准确识别和定位与周围环境视觉上融为一体的物体(Fan, Ji, Sun, Cheng, Shen, Shao, 2020a, Stevens, Merilaita, 2009, Wang, Yang, Zhang, Wang, Zheng, 2024a)。除了学术意义外,COD在军事侦察(Stevens & Merilaita, 2009)、医学图像分割(例如息肉分割)(Fan et al., 2020b)、工业缺陷检测(Fan et al., 2023)以及农业害虫和疾病监测与控制(Wang et al., 2024a)中也具有重要的实际价值。与传统物体分割不同,COD特别困难,因为目标通常与背景的对比度极低,边界模糊,视觉结构不完整,这使得生物和人工视觉系统都难以进行精确分割。
当前主流的COD方法主要关注跨层特征融合,以从骨干网络的不同层次解码信息(Chen, Liu, Sun, Ji, Wu, Zhou, 2022a, Pang, Zhao, Xiang, Zhang, Lu, 2022, Sun, Wang, Chen, & Xiang, Wang, Yang, Zhang, Wang, Zheng, 2024a, Xing, Gao, Wang, Wei, Tang, Zhang, 2023)。尽管取得了显著进展,但这些方法在复杂场景中仍难以实现精确分割。我们认为这主要源于解码过程中的两个限制:(1)卷积神经网络(CNN)本质上生成多通道特征图,不同通道通常编码了纹理、边界、颜色和语义成分等互补线索(Qiu, Chen, Liu, Zhang, & Zeng, 2021)。然而,现有的COD解码器主要强调层间融合,而同一层内的跨通道显式交互仍然不足。在COD中,由于判别线索较弱且分散,这容易在解码过程中稀释微妙但重要的线索,导致物体区域不完整或细节结构缺失;(2)许多现有方法以相对分离或耦合较弱的方式对边界和区域信息进行建模。这是有问题的,因为准确的COD需要精确的轮廓定位和语义连贯的区域完成。如果没有有效的边界-区域协作,预测可能会受到边界渗漏、碎片化掩码或物体范围不一致的影响。为了进一步定性说明这些问题,图1展示了与MSCAF-Net(Liu, Li, Cheng, & Chen, 2023)和BGNet(Sun et al., 2022)的代表性比较,这两个最近的基线方法分别强调了区域定位和边界指导。在第一个例子中,尽管MSCAF-Net包含区域定位组件,但其单一的指导方案和简单的基于连接的跨层融合仍然导致物体范围不够连贯,而我们的方法产生了更完整且语义一致的区域预测。在第二个例子中,BGNet利用边界提取和指导,但在杂乱纹理下仍表现出边界渗漏,而我们的协作边界-区域建模恢复了更清晰的轮廓和更锐利的边界对齐。为了解决这些限制,一个有效的COD框架不仅应在每个解码阶段加强特征交互,还应在预测细化过程中明确协调边界和区域线索。因此,我们提出了一种新的辅助细化网络(ARNet),它在解码过程中完全捕获跨通道的互补信息,以生成具有完整物体和清晰边界的分割结果。具体来说,我们设计了一个通道信息交互模块(CIIM),采用跨层和跨通道维度的双维解码架构。如图2所示,跨通道子解码器嵌入在跨层解码器的每一层中,以更深入地挖掘跨通道的互补特征。与仅通过通道注意力重新加权主导通道的方法(如SENet(Hu, Shen, & Sun, 2018)不同,CIIM引入了一种结构重组范式。它沿通道维度分解特征,然后沿水平和垂直轴重新组织和压缩它们,从而明确建模跨通道依赖性。此外,我们设计了边界提取(BE)和区域提取(RE)模块来建模来自骨干特征的先验信息。BE模块专注于提取显著的边界特征以生成边界先验,而RE模块捕获粗略的空间定位以生成物体定位图。为了实现这些模块之间的高效协同,我们进一步提出了混合引导注意力(HGA)模块。在CIIM中,HGA通过自注意力机制动态融合边界和区域指导,为解码提供精确的边界和空间约束,同时保持语义一致性。最后,设计了一个多尺度增强(MSE)模块,以进一步增强CIIM融合特征的上下文表达能力。
我们在四个广泛使用的COD基准数据集上进行了全面评估。广泛的实验结果表明,ARNet在多个标准评估指标上显著优于许多最先进(SOTA)方法。为了严格评估所提出方法的多样性和跨域泛化能力,ARNet还被应用于密切相关的显著物体检测(SOD)任务(Borji, Cheng, Jiang, & Li, 2015),并展示了其强大的适应性。此外,其在包括医学图像分割(息肉)、透明物体检测、缺陷检测和道路裂缝检测在内的多种下游应用中的有效性也得到了验证。这些实验清楚地证明了该模型的鲁棒性、适应性和在多个视觉领域的广泛应用能力。
总结来说,本文的主要贡献有三个方面:
•我们提出了ARNet,在通道维度引入了子解码器,以实现双维信息交互,明确解决了COD解码中跨层内跨通道交互不足的问题。
•我们构建了一个基于先验知识的辅助解码架构,具有生成精确边界先验和物体定位图的专用模块。我们引入了混合自注意力机制来协同校准边界和空间定位。最后,采用多尺度卷积策略来丰富校准后的特征表示。
•我们在四个COD基准数据集上进行了广泛验证,并成功将我们的方法应用于SOD任务和各种下游应用,证明了其强大的泛化能力。