基于多模态差异融合的RGB-T分割网络,用于机器人场景感知
《Pattern Recognition Letters》:A Multi-Modal Discrepancy Fusion-Based RGB-T Segmentation Network for Robotic Scene Perception
【字体:
大
中
小
】
时间:2026年02月20日
来源:Pattern Recognition Letters 3.3
编辑推荐:
自主机器人系统在复杂环境中依赖RGB-T语义分割实现可靠场景感知。MCDNet创新性地通过交互式坐标注意力增强(ICAE)模块同步捕捉通道关系与长程空间依赖,提升多模态特征表达;随后采用差异驱动互补融合(DDCF)模块,基于RGB与红外特征元素的绝对差异计算注意力权重,有效挖掘互补差异信息。实验表明该网络在MFNet、PST900和FMB数据集上显著优于现有方法,尤其在光照变化和低可见度场景表现优异。
胡一欣|张志伟|吕军|庄岩
大连理工大学控制科学与工程学院,中国大连,116024
摘要
在复杂、非结构化环境中运行的自主机器人系统,鲁棒且可靠的场景感知是基本前提。RGB-T语义分割通过利用RGB传感器和热传感器的互补信息来应对这一挑战。然而,现有方法主要关注RGB图像和热图像的共同特征融合,而忽视了多模态差异信息的挖掘。为了解决这一局限性并增强机器人对环境的理解,我们提出了一种新的RGB-T语义分割网络MCDNet,该网络通过挖掘模态差异中的互补信息来指导特征融合,实现了特征融合机制的范式创新。为了促进跨模态信息交互并增强每种模态的特征表示,我们引入了交互式坐标注意力增强(ICAE)模块,该模块采用坐标注意力机制同时捕获方向感知和位置敏感的信息。随后,增强的RGB和热特征被输入到差异驱动的互补性融合(DDCF)模块中,该模块通过显式挖掘和利用多模态差异来实现更鲁棒和全面的融合。我们进行了消融研究来验证所提出模块的各自有效性。在MFNet、PST900和FMB数据集上的比较实验结果进一步证实,我们的MCDNet在具有挑战性的场景中优于现有方法。
引言
语义分割算法旨在在像素级别解析图像,为实现详细和可靠的机器人场景感知提供基础[1]、[2]。然而,仅依赖RGB信息的传统算法对光照条件敏感,在黑暗环境中的鲁棒性较差[3]、[4]。为了克服单一传感器性能的局限性,研究人员引入了热图像作为补充数据源,使分割算法在多样化的场景中表现更好。
现有的RGB-T语义分割方法通常通过强调模态之间的共同特征来指导RGB和热特征的融合[5]、[6]。这种传统的共同特征融合关注多模态图像的共享、相关或结构相似的特征,如共同的对象轮廓和空间位置。在融合过程中,从两种模态都获得关注的特征被增强并传递给下游的分割任务。然而,共同特征融合难以保留多模态差异,而这些差异包含在复杂场景中实现可靠机器人感知所需的重要互补信息。
为了解决这些问题,MDRNet[7]将多样化的差异计算策略引入了RGB-T语义分割。C4Net[8]提出了一个上下文互补信息聚合模块,通过测量不同模态数据之间的上下文依赖性差异来显式挖掘跨模态的上下文互补性。该模块有助于提高对象的完整性,从而增强融合特征的可区分性。此外,WSRT网络[9]通过使用对称差异计算来有效分离和提取模态特定信息,解决了权重共享编码器的局限性。
为了更好地利用多模态信息之间的差异来提升分割性能,本文提出了一种新的通过差异挖掘互补性的网络(MCDNet),该网络通过挖掘多模态互补差异来超越传统的共同特征融合。具体来说,设计了交互式坐标注意力增强(ICAE)模块来细化多模态显著特征。通过将通道注意力分解为并行的一维特征编码过程,ICAE捕获了长距离依赖性,同时保留了精确的位置信息,从而促进了跨模态的协同作用。随后,ICAE增强的特征被输入到差异驱动的互补性融合(DDCF)模块中。该模块通过计算RGB和红外特征图之间的逐元素绝对差异来生成基于多模态差异的注意力权重。这有效地突出了互补信息,实现了更高效和全面的融合。最后,通过整合来自多个特征流的信息,MCDNet实现了更全面的融合,保留了模态共享和差异信息。
我们的关键创新可以总结如下:
•我们提出了一个端到端的MCDNet用于RGB-T语义分割。与传统的共同特征融合不同,MCDNet首先通过跨模态交互进行特征增强,然后从多模态信息中挖掘互补差异。
•我们引入了交互式坐标注意力增强模块,该模块利用坐标注意力机制同时增强两种模态的关键特征,从而实现自适应特征增强。
•差异驱动的互补性融合模块通过计算增强特征之间的差异来显式提取互补信息,从而实现有效融合。
部分摘录
RGB语义分割
近年来,基于深度学习的RGB图像语义分割取得了显著进展。全卷积网络(FCN)[10]是将深度学习技术引入语义分割领域的开创性工作。SegNet[11]引入了用于语义分割的编码器-解码器架构。后续的发展是由多尺度和基于注意力的策略推动的。例如,DeepLab V3+ [12]使用了ASPP模型来捕获多尺度信息
框架概述
所提出的MCDNet采用端到端的编码器-解码器网络进行RGB-T语义分割,如图1所示。我们使用ConvNeXt V2 [30]的基础版本作为骨干,高效地提取RGB和热图像的特征信息,为每种模态生成四个阶段的输出。我们引入了ICAE模块来促进模态之间的交互,并增强RGB和热图像的特征表示。ICAE采用坐标注意力
数据集
MFNet [17]是多模态语义分割的基础基准,专为城市驾驶场景设计。它包含1569对由InfraRec R500相机系统捕获的注册RGB和热图像对。标注了八个对驾驶安全至关重要的类别,包括动态障碍物(如汽车、行人)和静态道路设施(如护栏、弯道)。
PST900 [26]包含894对空间对齐的RGB-Thermal(RGB-T)图像对,每对的分辨率为
结论
在本文中,我们提出了MCDNet用于RGB-T语义分割,该网络明确捕获RGB和热图像之间的差异信息,利用两种模态的互补性在语义分割任务中表现出色。在我们的ICAE模块中,坐标注意力机制同时捕获通道关系和长距离空间依赖性。这一过程增强了多模态输入的显著特征。此外,
CRediT作者贡献声明
胡一欣:撰写——原始草稿。张志伟:撰写——审阅与编辑。吕军:撰写——审阅与编辑。庄岩:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作部分得到了国家自然科学基金的支持,资助编号为U22B2041。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号