《Scientific Reports》:CGDFNet: a dual-branch real-time semantic segmentation network with context-guided detail fusion
编辑推荐:
本文聚焦实时语义分割中细节丢失与上下文信息利用不足的难题,研究团队提出CGDFNet。该网络通过语义精炼模块(SRM)捕获全局语义,并利用上下文引导细节模块(CGDM)强化高频细节,最后经傅里叶域自适应融合模块(FDAFM)高效融合双分支特征。实验证明,CGDFNet在Cityscapes和CamVid数据集上分别实现了77.8%/87.6 FPS与77.9%/128.7 FPS的优异性能,显著提升了分割质量与实时性间的平衡。
在自动驾驶、机器人视觉等领域,对周围环境的快速且精确理解至关重要,实时语义分割技术正是实现这一目标的核心。然而,追求速度往往意味着牺牲精度。现有方法在通过连续下采样提取特征时,容易丢失图像中的细微边缘和纹理等“细节”信息;同时,对于能够帮助理解整体场景的“上下文”信息利用也不够充分。传统在空间域直接拼接或相加的融合方式,难以将局部的细节与全局的语义信息完美结合,这限制了网络的表现能力。那么,能否设计一种网络,在保证高速推理的同时,更好地保留细节并利用上下文信息呢?这正是CGDFNet(Context-Guided Detail Fusion Network)所要攻克的关键问题。
为了回答上述问题,研究团队基于经典的双分支架构,提出了一种创新的上下文引导细节融合网络。该研究的主要结论是,通过专门设计的模块分别优化语义分支和细节分支,并在傅里叶域进行自适应融合,可以显著提升实时语义分割的性能,在速度与精度之间达到更优的平衡。这项具有重要意义的工作发表于《Scientific Reports》期刊。
作者开展此项研究主要依托几个关键技术方法:首先是构建了一个双分支主干网络,分别处理语义上下文和图像细节。其次,在语义分支中设计了语义精炼模块(SRM, Semantic Refinement Module),该模块采用自适应池化捕获全局语义,并对局部与全局特征进行并行处理以增强表征。在细节分支中,则引入了上下文引导细节模块(CGDM, Context-Guided Detail Module),它利用来自语义分支的信息来引导和增强高频细节特征,并采用了细节增强卷积操作。最后,最为核心的是提出了傅里叶域自适应融合模块(FDAFM, Fourier-Domain Adaptive Fusion Module),该模块通过傅里叶变换提取特征的全局频率信息,并利用自适应门控机制动态融合来自两个分支的特征,实现了双分支特征的高效整合。模型的训练与评估主要在Cityscapes和CamVid这两个自动驾驶场景的公开语义分割数据集上进行。
研究结果
网络架构设计与模块有效性
通过消融实验验证了各个提出模块(SRM、CGDM、FDAFM)的有效性。结果表明,逐步引入这些模块能持续提升模型在测试集上的平均交并比(mIoU),证明了每个模块对于提升网络性能的不可或缺的作用。
在基准数据集上的性能对比
在Cityscapes测试集上,CGDFNet取得了77.8%的mIoU,同时推理速度达到87.6 FPS(Frames Per Second, 帧每秒)。在CamVid测试集上,性能为77.9% mIoU,速度高达128.7 FPS。与其它先进的实时语义分割模型(如BiSeNet、SFNet等)相比,CGDFNet在精度和速度的综合指标上展现出竞争力,特别是在保持高速度的同时,获得了更高的分割精度。
特征可视化分析
通过对网络中间层特征图的可视化可以发现,CGDFNet的细节分支能够保留更清晰的物体边界信息,而语义分支则能捕获更准确的类别区域。经FDAFM融合后的特征,同时具备了清晰的边界和一致的语义区域,直观地证明了融合策略的成功。
结论与讨论
本研究成功开发了CGDFNet,一个用于实时语义分割的上下文引导细节融合网络。该网络的核心创新在于:1)通过SRM模块增强了语义分支对全局上下文信息的捕获与提炼能力;2)通过CGDM模块使得细节分支能够在外语境的引导下有针对性地增强高频细节;3)通过FDAFM模块在频率域实现了双分支特征的自适应、高效融合,克服了空间域融合的局限性。
这些设计使得CGDFNet能够有效地缓解实时分割中细节丢失与上下文利用不足的矛盾。实验数据充分证明,该模型在主流自动驾驶数据集(Cityscapes和CamVid)上实现了分割精度(mIoU)与推理速度(FPS)之间的优异平衡。这项工作表明,在傅里叶域进行特征融合是一种富有潜力的方向,为未来设计更高效的实时视觉感知模型提供了新的思路。其成果可直接应用于对实时性和准确性均有高要求的实际场景,如自动驾驶汽车的环境感知、视频监控系统的实时分析等,具有重要的实用价值和理论意义。