《Scientific Reports》:Real-time semantic segmentation of driving scenes via effective attention-based information fusion and hybrid encoder
编辑推荐:
本文针对自动驾驶等实时场景对语义分割模型高精度与高速度的平衡需求,提出了一种新颖的轻量级卷积神经网络RTSSNet。该模型通过优化编码器结构,仅在最后两个阶段集成空洞卷积模块以高效提取上下文信息,并设计了一种基于注意力机制的轻量级解码器(Bag模块)以恢复空间细节。在Cityscapes和CamVid数据集上的实验表明,RTSSNet在保持竞争力的分割精度(如RTSSNet-L在Cityscapes上达78.3% mIoU)的同时,实现了极高的推理速度(121.15 FPS),为边缘设备部署提供了高效解决方案。
在自动驾驶技术飞速发展的今天,车辆需要像人类驾驶员一样实时“看懂”周围环境:识别道路、车辆、行人、交通标志等。这项关键技术被称为语义分割,它能为图像中的每个像素分配一个类别标签,从而提供完整的场景理解。然而,现有的高性能语义分割模型往往结构复杂、计算量大,难以满足自动驾驶系统对实时响应的严苛要求。如何在资源受限的嵌入式设备上实现高精度、高速度的语义分割,成为制约高级辅助驾驶和自动驾驶落地的一大瓶颈。
为了解决这一挑战,来自罗马尼亚蒂米什瓦拉理工大学等单位的研究团队在《Scientific Reports》上发表了他们的最新研究成果。他们提出了一种名为RTSSNet的新型轻量化网络架构,旨在实现精度与速度的最佳平衡,推动语义分割技术在实时场景中的应用。
为开展研究,研究人员主要采用了以下关键技术方法:1) 构建了一个混合编码器,其前两阶段使用ResNet基本块,后两阶段引入具有较大空洞率(6, 18, 24)的空洞卷积块以扩大感受野;2) 设计了一个轻量级的注意力基解码器,核心是引入了来自PIDNet的边界注意力引导融合模块(Bag Module),用于有效融合编码器不同阶段的特征图;3) 使用OHEM Cross Entropy损失函数和多种数据增强技术进行模型训练与优化;4) 在Cityscapes和CamVid这两个主流的自动驾驶场景数据集上进行了广泛的性能评估与对比实验。
模型架构设计
RTSSNet采用经典的编码器-解码器结构。编码器包含5个阶段。第一阶段进行快速下采样,第二阶段和第三阶段使用ResNet基本块提取特征,第四阶段和第五阶段则集成了自定义的空洞卷积块,以捕获多尺度上下文信息,而无需引入额外的计算密集型上下文提取模块。解码器部分极为轻量,仅包含两个Bag模块。每个Bag模块接收来自编码器三个不同阶段的特征图,通过注意力权重自适应地融合高、中、低分辨率特征,从而在恢复图像细节的同时保持高效率。整个网络结构设计充分考虑了计算复杂度与性能的权衡。
实验结果与分析
在Cityscapes数据集上的实验结果表明,RTSSNet的三个变体(S、M、L)均取得了竞争力的性能。其中,RTSSNet-L在验证集上达到了78.3%的平均交并比(mIoU),同时推理速度高达121.15 FPS(帧每秒)。与同期其他先进模型相比,RTSSNet在速度与精度之间取得了更优的平衡。例如,RTSSNet-S的速度(257.30 FPS)远超SegFormer(140 FPS),而精度相当。在CamVid数据集上,RTSSNet同样表现优异,RTSSNet-S达到了76.40%的mIoU和244.60 FPS的速度,展现了其良好的泛化能力和实时处理潜力。可视化结果也显示,RTSSNet能够较好地处理大小物体,保留细节信息。
消融实验验证
研究人员通过系统的消融实验验证了其架构设计的有效性。编码器实验表明,仅在最后两个阶段使用空洞卷积块(E2模型)能在保证精度的前提下获得最高的推理速度,优于在所有阶段使用空洞卷积(E1模型)或全部使用ResNet块(E0模型)的方案。解码器实验证明,使用两个Bag模块(δ4模型)是实现准确图像重建和较高推理速度的最佳选择。此外,研究还确定了空洞率[6,18,24]和3x3卷积核是空洞卷积块的最优配置。
模型局限性与鲁棒性评估
尽管RTSSNet在速度和精度间取得了良好平衡,但其在Cityscapes数据集上的绝对精度(78.3% mIoU)与当前最先进的模型(如PIDNet-L的80.9% mIoU)相比仍存在差距。特别是在处理墙壁、栅栏和摩托车等类别时,分割精度较低。此外,在Cityscapes-Adverse基准测试上的评估显示,RTSSNet-L模型在面对季节、天气、光照等复杂多变的驾驶条件时,其鲁棒性面临挑战,尤其在雪天和阳光强烈的场景下性能下降明显。这表明CNN模型在应对分布外数据时的泛化能力仍有待提升。
该研究提出的RTSSNet通过精心设计的混合编码器和轻量级注意力解码器,成功实现了实时语义分割任务中精度与速度的有效平衡。其模型设计策略,特别是将上下文提取模块集成于编码器内部而非额外附加的思路,为轻量级网络结构设计提供了新视角。尽管在绝对精度和极端环境下的鲁棒性方面仍有提升空间,但RTSSNet的高效性使其在自动驾驶、视频监控等对实时性要求极高的应用场景中具有重要的实用价值和广阔的应用前景。未来工作可进一步探索如何在不显著增加计算开销的前提下,提升模型对复杂和动态环境的适应能力。