用于实时红-绿-蓝(RGB)和X模态语义分割的余弦相似度融合网络,适用于驾驶场景的分析

《Engineering Applications of Artificial Intelligence》:Cosine similarity fusion network for real-time Red-Green-Blue and X-modality semantic segmentation of driving scenes

【字体: 时间:2026年03月21日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  多模态语义分割模型CSFNet通过双分支与单分支架构结合Cosine相似性注意力模块实现高效实时推理,在Cityscapes等四个数据集上达到SOTA精度且速度最优。

  
Danial Qashqai|Emad Mousavian|Shahriar B. Shokouhi|Sattar Mirzakuchaki
伊朗科学技术大学电气工程系,德黑兰,伊朗

摘要

语义分割作为复杂视觉解释的关键组成部分,在自动驾驶车辆的视觉系统中起着基础性作用。近期研究通过利用互补信息和开发多模态方法显著提高了语义分割的准确性。尽管在准确性上有所提升,但多模态语义分割方法仍存在计算复杂度高和推理速度慢的问题。因此,在驾驶应用中实现多模态方法是一项具有挑战性的任务。为了解决这个问题,我们提出了一个余弦相似性融合网络(CSFNet)作为实时的红绿蓝(RGB)和X模态(RGB-X)语义分割模型。具体来说,我们设计了一个余弦相似性注意力融合模块(CS-AFM),该模块能够有效地校正和融合两种模态的特征。CS-AFM利用跨模态相似性来实现高泛化能力。通过在较低层次增强跨模态特征的融合,CS-AFM为在更高层次使用单分支网络铺平了道路。因此,我们在编码器中使用了双分支和单分支架构,并结合了一个高效的上下文模块和一个轻量级的解码器,以实现快速准确的预测。为了验证CSFNet的有效性,我们使用了Cityscapes、多光谱融合网络(MFNet)、浙江大学(ZJU)和全时多模态基准(FMB)数据集进行RGB-深度/热/偏振语义分割测试。根据测试结果,CSFNet在准确性上与最先进的方法相当,同时在多模态语义分割模型中具有最快的推理速度。由于其参数数量少和计算复杂度低,它还具有很高的效率。源代码和结果可在以下链接获取:https://github.com/Danial-Qashqai/CSFNet

引言

语义分割是计算机视觉中的一个基本任务,它通过像素级分类来分析和理解驾驶场景。由于高级驾驶辅助系统(ADAS)的敏感性极高,以及错误可能导致严重事故,因此提高语义分割模型的准确性至关重要。
传感器技术的最新进展以及深度(Cordts等人,2016年)、热成像(Ha等人,2017年)和偏振(Xiang等人,2021年)等互补数据的可用性,促进了用于驾驶场景的多模态语义分割模型的发展。多模态语义分割领域的研究(Chen等人,2020年;Zhang等人,2023a)增强了场景理解能力,并提供了比RGB模型(Chen等人,2018a;Xie等人,2021年)更高的准确性。这是通过将互补信息与RGB图像融合实现的。这种准确性的提升伴随着克服了一些挑战,如物体颜色或纹理相似、光照变化、能见度有限以及光滑表面的反光等问题。
在多模态语义分割的发展中,采用了四种方法——早期融合(Couprie等人,2013年)、中期融合(Wang等人,2016年)、晚期融合(Cheng等人,2017年)和多级交互融合(Sun等人,2019年;Hu等人,2019年;Zhang等人,2022年)来结合两种输入模态。早期融合是在特征提取之前融合输入数据;这种简单策略未能充分利用模态之间的互补信息(Zhang等人,2023b)。因此,提出了其他方法使用双分支网络进行跨模态融合。在这些方法中,多级交互融合作为多模态语义分割模型的领先方法,实现了更高的准确性。在这种方法中,分支提取的特征图在多个层次上进行融合。虽然双分支网络和多级融合可以提高准确性,但它们会增加计算复杂度并显著降低推理速度。因此,鉴于处理速度在驾驶应用中的重要性,在这种背景下部署多模态模型仍然是一个重大挑战。
执行融合操作的过程是多模态语义分割的关键方面。早期的工作(Sun等人,2019年;Hazirbas等人,2016年)通过逐元素相加的方式直接融合跨模态特征,忽略了特征的互补性。最近的工作(Deng等人,2021年;Zhang等人,2023c)通过使用基于注意力的融合模块改进了这一问题。这些模块通常直接使用全局信息(Seichter等人,2021年)或在可训练的方法中应用它们之间的交互(Liang等人,2023年)。尽管准确性有所提高,但全局信息并不能充分区分两种模态的特征。这些信息是通过全局平均池化(GAP)或全局最大池化(GMP)层获得的。
为了解决这些不足,我们提出了一个用于实时RGB-X语义分割的余弦相似性融合网络(CSFNet)。在该模型中,一个优化的编码器从RGB和X两种模态中提取特征。所提出的编码器在前三个层次使用双分支架构,在最后两个层次使用单分支架构。这种设计降低了计算复杂度并加快了处理速度。此外,我们首次在多模态语义分割模型中使用了短期密集连接(STDC)(Fan等人,2021年)作为骨干网络。为了更有效地结合两种模态的特征,我们设计了一个余弦相似性注意力融合模块(CS-AFM)。作为一种新颖的方法,该模块通过基于注意力的方法利用相应通道之间的余弦相似性来校正和融合模态。其主要思想是利用跨模态之间高度信息丰富的相似性模式。这些模式源于模态的互补性,使网络能够专注于相互增强的特征。与依赖于全局特征的先前方法不同,CS-AFM更有效地利用了局部特征。具体来说,它通过计算每个相应通道的向量化表示之间的余弦相似性来比较两种输入模态。由此产生的相似性向量使得对跨模态特征的关注更加准确。这个模块具有很高的灵活性,被用于CSFNet模型中,既用于编码器中的RGB-X特征融合,也用于解码器中的跳过连接特征融合。最后,所提出的编码器与一个高效的上下文模块和一个轻量级的解码器结合使用,以实现快速准确的预测。
我们在三种类型的多模态语义分割任务上评估了所提出的CSFNet模型,包括RGB-深度、RGB-热成像和RGB-偏振。鉴于我们的研究重点是驾驶场景,我们使用了Cityscapes(Cordts等人,2016年)、多光谱融合网络(MFNet)(Ha等人,2017年)、浙江大学(ZJU)(Xiang等人,2021年)和全时多模态基准(FMB)(Liu等人,2023年)数据集进行评估。总体而言,CSFNet在准确性上与最先进的多模态语义分割模型相当;它还具有最快的推理速度,并且由于其低复杂性,可以部署在嵌入式硬件上。
本研究的主要贡献总结如下:
  • 我们利用双分支和单分支架构设计了一个优化的编码器网络。此外,所提出的编码器首次在多模态语义分割任务中使用了STDC骨干网络。
  • 我们提出了一个余弦相似性注意力融合模块(CS-AFM),该模块基于跨模态相似性校正和融合输入特征。
  • 我们提出了一个余弦相似性融合网络(CSFNet)作为实时的RGB-X语义分割模型。
  • CSFNet在Cityscapes(半分辨率)、MFNet、ZJU和FMB数据集上取得了具有竞争力的准确性。它的复杂性低,并且在多模态语义分割模型中具有最快的推理速度。
  • 相关研究

    相关工作

    在本节中,我们简要回顾了之前的单模态和多模态语义分割方法,因为它们的方法和技术之间存在很高的重叠。

    提出的方法

    在本节中,我们首先描述了所提出的余弦相似性融合网络(CSFNet)的架构,然后详细介绍了余弦相似性注意力融合模块(CS-AFM)和高效上下文模块。

    实验与结果

    在本节中,我们首先描述了用于驾驶场景的RGB-D/T/P语义分割任务的四个基准数据集。然后,我们解释了CSFNet的实现细节,并将其与最先进的方法进行了比较。最后,我们进行了消融实验以证明我们提出方法的有效性。

    讨论

    在本节中,我们总结了我们的主要发现和贡献。我们还讨论了所提出的CSFNet模型的主要优势和局限性,并概述了基于我们发现的一些有前景的未来研究方向。这些努力旨在进一步提高模型在现实世界自动驾驶场景中的性能和适用性。

    结论

    考虑到驾驶应用中实时处理的关键需求以及克服现有多模态语义分割方法的速度限制,我们设计了CSFNet,一个实时的RGB-X语义分割模型。这项工作的核心创新在于提出的CS-AFM。之前的融合策略通常依赖于全局特征或计算密集型机制,如基于变压器的融合。相比之下,CS-AFM使用余弦相似性来校正和融合输入模态。

    CRediT作者贡献声明

    Danial Qashqai:撰写——原始草案、软件、方法论、调查、概念化。Emad Mousavian:撰写——审阅与编辑、可视化、验证、调查。Shahriar B. Shokouhi:撰写——审阅与编辑、验证、监督、项目管理。Sattar Mirzakuchaki:验证、监督。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号