SWG-Fusion：一种结合软环境引导和多模态融合技术的算法，在恶劣天气条件下利用视觉学习模型（VLM）辅助纯电动车辆（BEV）目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：SWG-Fusion: Soft Weather-Guided Multimodal Fusion with VLM-Assistance for BEV Object Detection under Harsh Weather

【字体：大中小】 时间：2026年03月01日 来源：Pattern Recognition 7.6

编辑推荐：

　　自主驾驶恶劣天气下BEV检测的多模态融合框架，提出VLM辅助的软天气引导机制和BEV对齐模块，通过语义天气描述动态调整多传感器权重，结合双流跨模注意力实现高效特征融合，在RADIATE数据集上验证有效性。

王伟民|聂瑞峰|刘颖琪|马龙|徐成培|贾琪|刘宇|雷娜

大连工业大学软件学院，中国大连 116000

摘要

可靠的感知能力是自动驾驶的关键要求，然而雨、雾和雪等恶劣天气条件会严重降低系统的可靠性。虽然雷达、激光雷达和摄像头的多模态融合可以提高系统的鲁棒性，但现有方法通常依赖于静态融合策略，这些策略无法适应不同的天气环境。为了解决这一限制，我们提出了SWG-Fusion，这是一个基于视觉语言模型（VLM）的辅助多模态融合框架，用于恶劣天气条件下的鸟眼视图（BEV）目标检测。我们的工作引入了一种软性天气适应引导机制，该机制利用VLM从视觉输入中提取语义天气描述，并将其作为模态权重的自适应引导特征。此外，还应用了一个BEV对齐模块，将视角图像特征投影到BEV空间中，从而实现与激光雷达和雷达表示的统一和空间一致性的融合。进一步地，我们开发了一种双流融合结构，共同细化模态特定特征和跨模态交互，从而提高检测的鲁棒性。在真实世界的RADIATE数据集上的广泛实验表明，我们的方法在雨、雾、雪和夜间场景中均取得了最先进的性能。消融研究进一步证明了每个模块都提供了明确且一致的改进，验证了整体设计在鲁棒感知方面的有效性。

引言

准确且鲁棒的感知能力对自动驾驶的安全至关重要。然而，在雨、雾、雪和低光照等恶劣环境条件下，感知性能往往会大幅下降[1]。这些条件会导致传感器噪声、视觉遮挡和信号衰减，从而使得不同感知模态之间的可靠性不一致。在这种情况下，单一模态系统常常会受到特定模态的影响；例如，由于照明不均，摄像头在夜间可能会出现低光照和过曝问题，而激光雷达可能会受到雪或雾的干扰。传感器特性的多样性促使人们需要多模态融合，不仅是为了信息冗余，也是为了提取更丰富的语义和几何上下文。为了在这种变化性条件下实现鲁棒的感知，最近的研究越来越多地关注毫米波雷达、激光雷达、RGB摄像头甚至高级语义上下文线索等多模态传感器。通过利用这些传感器模态的互补性，系统可以更好地弥补单个传感器在恶劣条件下的弱点。这在诸如大雪或混合光照等复杂场景中尤为重要，因为适应性对于安全性至关重要。

尽管最近在传感器数据融合方面取得了显著进展（如图1（a）所示），但大多数现有方法主要关注直线融合。这些方法在正常驾驶条件下表现良好，但在复杂天气场景中却表现出有限的鲁棒性。例如，BEVFusion [2] 在鸟眼视图（BEV）空间中生成了统一的表示，并在晴朗天气下取得了良好的结果，但它缺乏专门用于有效缓解恶劣环境干扰导致性能下降的组件。此外，许多方法假设不同模态的可靠性相似，这忽略了不同天气条件下传感器置信度的显著差异。这可能导致过度依赖降级的传感器数据流（如被雾遮挡的摄像头或被雪损坏的激光雷达），从而在整个感知过程中传播不确定性和错误。尽管最近的研究探索了动态融合策略，但只有少数方法利用外部环境线索（如图1（b）中的天气上下文）以原则性和可解释的方式指导融合过程。然而，现有的融合方法仍然没有充分利用不同天气条件对模态可靠性的细微影响，限制了它们通过动态和天气感知指导来适应性放大或抑制模态特定特征的能力。在这些极端情况下，如混合降水、夜间能见度低或天气条件快速变化时，这种局限性尤为明显。因此，一个更加灵活、具有上下文感知能力和天气适应性的融合框架对于确保在各种环境条件下的鲁棒和可靠感知至关重要。

为了解决这些挑战，我们提出了一种软性天气引导方法（如图1（c）所示），该方法将动态天气上下文提取到多模态数据的融合中。我们没有使用预定义的天气类别或手动置信度加权，而是利用视觉语言模型（VLM）获取描述性天气文本，然后将这些文本转换为连续的语义天气标记，作为融合的动态引导[3]。这使得系统能够连续且平滑地调整不同模态之间的特征交互，从而在各种条件下提高融合性能。

总结来说，我们的工作做出了以下关键贡献：

•

我们提出了一种新颖的软性天气引导融合机制，用于BEV感知，该机制利用文本天气线索进行天气适应的多模态融合。

•

为了与激光雷达和毫米波雷达传感器的扫描特性相匹配，我们引入了一个用于图像的BEV转换模块。

•

为了更好地融合天气上下文特征和其他模态，我们设计了一个高效的双流交叉注意力模块和多尺度方案。

•

在真实世界的全天气RADIATE数据集上的广泛实验和消融研究证明了我们提出的方法在恶劣环境下的BEV感知有效性。

概述

整个框架如图2所示。给定输入的RGB图像，我们首先使用预训练的视觉-语言模型提取当前场景的自然语言天气描述，然后将这些描述编码为天气标记以提供语义引导。同时，原始雷达扫描数据、激光雷达点云和摄像头图像由特定于模态的编码器处理，摄像头特征进一步转换为BEV空间[26]、[27]、[28]，以实现与

数据集

尽管有许多关于恶劣天气条件下的多模态数据集[1]，但大多数数据集要么是完全模拟的（例如MUSES [40]、AdverseOp3D [22]），要么是在清晰数据中部分注入噪声以模拟恶劣天气（例如Foggy-ORR [20]）。此外，其中一些数据集缺乏用于BVE目标检测的雷达模态或注释。nuScenes [41] 是一个用于自动驾驶的真实世界数据集，但它仅包含雨天数据，且使用的雷达传感器与360°雷达不同

结论

在本文中，我们提出了SWG-Fusion，这是一个基于视觉语言模型（VLM）的辅助多模态融合框架，用于在各种恶劣天气条件下实现可靠的BEV目标检测。通过结合视觉、激光雷达和雷达模态以及由视觉语言模型提取的语义天气线索，我们的方法能够更自适应地融合多模态特征。所提出的软性天气适应引导和BEV对齐模块共同实现了上下文感知的特征权重和空间一致性的跨模态融合

CRediT作者贡献声明

王伟民：撰写 – 审稿与编辑，撰写 – 原稿，可视化，监督，方法论，调查，概念化。聂瑞峰：撰写 – 原稿，验证，软件，调查。刘颖琪：可视化，验证，方法论，调查。马龙：撰写 – 审稿与编辑，监督，方法论，调查，概念化。徐成培：撰写 – 审稿与编辑，验证，监督，方法论。贾琪：撰写 – 审稿与编辑，

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62306059和62506060）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

概述

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行