一种基于可见光、热红外和雷达数据的弱对齐多传感器融合方法,用于目标检测
《Engineering Applications of Artificial Intelligence》:A weak-alignment multi-sensor fusion method for object detection using visible, thermal infrared, and radar data
【字体:
大
中
小
】
时间:2026年03月04日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
弱对齐多模态目标检测框架WA-M3RTR通过可训练的红外边缘增强机制、雷达RA图嵌入的图注意力网络以及语义引导的跨注意策略,有效融合RGB、红外与雷达数据,无需精确几何对齐。在MMAUD-Tri和PoLaRIS数据集上验证,检测精度显著提升。
梁晓园|支瑞聪|贾璐
北京科技大学,中国北京市海淀区学园路100083
摘要
在现实世界场景中,异构传感器之间的弱对齐仍然是多模态目标检测面临的一个重大挑战。可见光相机、热红外传感器和毫米波雷达在时间同步、空间分辨率和传感器视角上的差异,常常会降低那些依赖精确跨模态对齐的方法的性能。
为了解决这个问题,我们提出了弱对齐多模态可见光–热红外–雷达网络(WA-M3RTR),这是一个无需显式几何对齐即可整合可见光、热红外和雷达数据的弱对齐多模态目标检测框架。从方法论的角度来看,该框架引入了三个关键组件:(i)一个可训练的红外边缘增强机制,用于突出热红外图像中的小目标结构;(ii)一个基于图的雷达编码模块,称为雷达–方位图嵌入(RA-GraphEmbed),它通过图注意力网络对距离–方位图进行建模;(iii)一种语义引导的跨注意力策略,将全局热红外和雷达线索注入到多个尺度上的可见光特征图中。
从应用的角度来看,所提出的框架适用于在弱对齐条件下的地面到空中目标检测。我们引入了多模态空中未对齐检测三模态(MMAUD-Tri)数据集,这是一个具有模拟空间错位的空中目标检测数据集,并在具有自然跨模态错位的实际海洋环境中的浦项运河目标检测与跟踪数据集(PoLaRIS)上进一步评估了该方法。在两个数据集上的实验结果表明,WA3RTR的性能始终优于仅使用可见光或双模态的基线方法。
引言
多模态目标检测因其能够整合来自异构传感器(如RGB相机、热红外(TIR)成像仪和毫米波雷达)的互补信息而受到越来越多的关注(Almujally等人,2024年;Qiu等人,2024年;Li等人,2023年;Zhang等人,2026年)。通过利用模态多样性,检测系统可以在夜间、雾天或遮挡等具有挑战性的条件下实现更高的鲁棒性。然而,现有研究通常假设多模态输入是对齐良好的,而这在现实世界部署中很少能够保证(Liu等人,2025年;Wang等人,2025年;Xue等人,2025年)。传感器放置、分辨率和同步精度的变化往往会导致显著的空间和语义错位,严重降低基于对齐的融合策略的性能。尽管基于深度学习的检测器在受控工业环境和特定任务(如缺陷检测)中取得了显著的成功(Xu等人,2024年;Xu等人,2025年;Gu等人,2026年),但它们直接应用于未经校准的异构多模态场景仍然存在问题。
尽管在RGB–TIR和雷达–视觉融合方面已经取得了实质性进展,但以往的研究主要集中在双模态设置(例如RGB–TIR或相机–雷达)上,并且通常假设模态对齐具有精确的几何/时间校准(Song等人,2023年;Yao等人,2023年;Wang等人,2025年)。据我们所知,尚未系统地探索涉及RGB、TIR和雷达的弱对齐三模态融合(Wang等人,2022年;Li等人,2025年)。这一差距对于在海洋监控、无人机监控和自动驾驶等实际场景中部署多模态感知系统构成了一个关键障碍,在这些场景中严格对齐本质上是不切实际的(Yan等人,2025年;Li等人,2026b年;Li等人,2026a年;Zhuang等人,2024年;Jia等人,2025年)。
为了解决这一挑战,我们提出了WA3RTR(用于RGB、TIR和雷达融合的弱对齐多模态表示聚合),这是一种无需依赖精确对齐即可明确建模三模态融合的目标检测模型。为了全面评估WA3RTR,我们引入了两个数据集:PoLaRIS,这是为数不多的公开可用的具有由传感器不同步和平台运动引起的自然错位的真实世界RGB、TIR和雷达数据集之一;以及MMAUD-Tri,这是一个由我们构建的新三模态无人机检测数据集,用于在弱对齐条件下进行受控评估。MMAUD-Tri通过(i)通过RGB到TIR的风格转换合成伪TIR图像,(ii)从LiDAR点云生成雷达距离–方位(RA)图,以及(iii)注入受控的随机错位来模拟真实的弱对齐场景,扩展了原始数据集。PoLaRIS为海洋环境中的弱对齐提供了一个真实的基准,而MMAUD-Tri则为评估在弱对齐条件下的无人机检测提供了受控环境。
本文的主要贡献可以总结如下:
WA3RTR用于弱对齐三模态目标检测。我们提出了一个新颖的弱对齐融合框架,用于RGB–TIR–雷达目标检测。该设计强调语义引导的聚合,并避免了对严格几何配准的依赖,使其适用于现实世界的异构传感器系统。
TIR边缘增强用于小目标定位。在TIR分支中引入了一个轻量级的残差边缘增强模块,该模块具有通道注意力机制,可以增强边界线索并改善小尺度或低光照目标的表示。
RA-GraphEmbed:基于图的RA表示和编码。我们将雷达表示为距离–方位(RA)图,并将这些图转换为图结构形式;然后应用图注意力来捕获稀疏的空间结构,生成适合在弱对齐下融合的雷达特征。
语义引导的空间跨注意力。我们设计了一种语义引导的跨注意力机制,利用TIR和雷达的高级先验来指导RGB特征提取。通过将RGB视为参考模态,并将融合与像素级对齐解耦,所提出的模块可以选择性地注入其他模态的互补线索,同时容忍空间错位,从而实现稳健的三模态集成。
MMAUD-Tri:用于无人机检测的三模态弱对齐数据集。我们通过(i)通过RGB到TIR的风格转换合成伪TIR图像,(ii)从LiDAR点云生成雷达RA图,以及(iii)应用随机空间偏移来模拟弱对齐,引入了MMAUD-Tri,这是一个新的三模态无人机检测数据集。MMAUD-Tri提供了更丰富的模态覆盖范围和灵活的条件,用于评估在弱对齐下的三模态融合。
相关工作
相关研究
多模态目标检测的研究可以大致分为RGB–TIR融合和雷达–视觉融合。本节回顾了这两个领域的代表性工作,并强调了弱对齐多模态检测的最新趋势。PoLaRIS数据集
PoLaRIS是第一个专为海洋环境中弱对齐多模态检测和跟踪任务设计的公开可用数据集,特别针对波浪对移动船只、浮标和其他物体造成的空间和时间错位(Choi等人,2025年)。其主要特点如下:
- •
弱对齐多模态数据:由于难以确保移动海洋平台上传感器的严格同步和校准,因此存在显著的空间和
硬件和环境
所有实验都在单个NVIDIA RTX 3090 GPU(24 GB)上进行,运行Ubuntu 24.04操作系统,使用PyTorch 2.6和Detectron2作为实现框架。
训练设置
实验在MMAUD-Tri数据集和PoLaRIS数据集上进行。对于这两个数据集,样本被随机分为训练集和测试集,比例为8:2。我们使用AdamW优化器,初始学习率为1×10
-4,权重衰减为1×10
-2。在前2000步中应用线性热身过程,逐渐增加学习率。
结论
在这项工作中,我们提出了WA3RTR,这是一个通用的弱对齐RGB–TIR–雷达三模态数据目标检测框架。通过引入红外边缘增强模块、基于图的雷达编码模块和语义引导的空间跨注意力机制,WA3RTR有效缓解了异构传感器之间的空间错位。在PoLaRIS数据集上,它将单模态RGB的AP从71.6%提高到了81.1%;在MMAUD-Tri数据集上,从89.7%提高到了90.5%。
CRediT作者贡献声明
梁晓园:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,软件,项目管理,方法论,调查,形式分析,数据管理,概念化。支瑞聪:撰写 – 审稿与编辑,概念化。贾璐:数据管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号