RVFormer：基于关键点的4D雷达与视觉融合技术，用于自动驾驶中的3D物体检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：RVFormer: Keypoint-Based Fusion of 4D Radar and Vision for 3D Object Detection in Autonomous Driving

【字体：大中小】 时间：2026年02月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态融合提升自动驾驶感知性能，研究提出RVFormer框架，通过双分支Transformer实现雷达与视觉特征高效融合，采用聚类关键点初始化和动态融合模块解决稀疏点云与模态差异问题，在保持高精度的同时实现15.2帧/秒的实时检测速度。

Xin Bi|Caien Weng|Panpan Tong|Arno Eichberger|Lu Xiong

同济大学汽车学院，上海，201804，中华人民共和国

摘要

多模态融合在自动驾驶感知中至关重要，它提高了感知系统的可靠性、完整性和准确性，从而扩展了感知系统的性能极限。特别是，通过4D雷达和视觉融合进行的大规模感知已成为一项关键研究重点，旨在提高驾驶安全性、增强对复杂场景的理解，并支持细粒度的局部规划和控制。然而，现有的3D物体检测方法通常依赖于固定体素表示来保持检测精度。随着感知范围的增加，这些方法会产生相当大的计算开销。虽然基于变换器的查询方法在图像域任务中捕获大接受域的依赖性方面显示出强大的潜力，但由于雷达点云的稀疏性和跨模态对齐挑战，其在雷达-视觉融合中的应用受到限制。为了解决这些限制，我们提出了RVFormer，这是一个双分支特征级融合网络，它使用基于稀疏关键点的查询策略来整合两种模态的特征，从而减轻了大规模场景对推理速度的影响。此外，我们引入了聚类体素查询初始化（CVQI）来加速收敛并提高物体定位精度。通过结合雷达体素绘制器（RVP）、雷达-图像交叉注意力（RICA）和门控自适应融合（GAF）模块，我们的框架能够实现雷达和视觉特征的深度和自适应融合，有效缓解了点云稀疏性和模态不一致性引起的问题。与现有的雷达-视觉融合模型相比，RVFormer表现出竞争力的性能，推理速度约为每秒15.2帧。它在精度方面与基于CNN的方法相当，同时在3D平均精度上至少优于基线方法4.72%，在鸟瞰图平均精度上至少优于5.82%。

引言

环境感知在自动驾驶中起着基础性作用，它使车辆能够实时解释周围环境并做出决策。在各种感知任务中，3D物体检测尤为重要，因为它提供了关于物体位置、形状和运动的重要信息，这些都是路径规划和避碰的关键因素（Qian, Lai, & Li (2022)）。然而，在复杂环境中，尤其是在恶劣天气、能见度低和光照变化等条件下，3D物体检测仍然面临重大挑战，这些条件往往会降低传统传感器（如摄像头和LiDAR）的性能（Zhang, Wang, Cai, Chen, & Li (2024)）。这些挑战突显了需要一种能够在不同环境条件下保持高精度的鲁棒解决方案。在这方面，4D雷达为自动驾驶系统提供了显著的优势。与传统雷达相比，4D雷达提供了更丰富的 elevations 信息、更密集的点云和更高的分辨率，从而提高了障碍物检测的精度（Fan et al. (2024)）。此外，与LiDAR不同，4D雷达可以通过多普勒效应准确估计物体速度，而无需时间数据，并且在恶劣天气条件下仍能保持可靠的性能，这对于确保驾驶安全至关重要。因此，4D雷达成为现有传感器的可靠补充，提供了更好的环境适应性和可靠性。

如图1所示，不同天气条件下的传感器感知性能表明，尽管4D雷达在恶劣天气下的性能优异，但其3D物体检测能力不如LiDAR在晴朗天气下的性能。这主要是由于4D雷达点云的稀疏性和有限的几何清晰度，导致在理想条件下的数据表示不如LiDAR。此外，雷达极易受到多径效应的影响，这可能导致误报点云（Han et al. (2024)）。为了解决这些缺点，视觉和4D雷达的融合成为理想的解决方案。与4D雷达不同，视觉传感器无法准确估计距离或速度，并且容易受到环境干扰，但它们提供高分辨率的图像和丰富的几何细节，有效弥补了雷达点云的局限性（Yu, Wan, Ren, Zheng, & Fang (2024)）。成功的雷达-视觉融合方法不仅可以利用两种传感器的优势，还可以克服它们各自的局限性。这种方法有助于实现全天候的鲁棒感知，并提供具有成本效益的解决方案。因此，雷达-视觉融合方法在学术界和工业界都受到了广泛关注。这主要是由于4D雷达点云的稀疏性和有限的几何清晰度，导致在理想条件下的数据表示不如LiDAR。

基于鸟瞰图（BEV）的物体检测方法通常分为两类：一类是依赖传统卷积神经网络（CNN）的密集检测器（Lang et al. (2019a); Li, Luo, & Yang (2023)；另一类是利用变换器架构的稀疏关键点检测器（Mao et al. (2021); Vaswani et al. (2017); Zhou, Zhao, Wang, Wang, & Foroosh (2022)）。与密集检测器相比，基于关键点的方法侧重于从BEV地图中提取更可能对应于目标的判别性特征，从而提高定位和检测精度。稀疏关键点检测器有两个主要优势。首先，它们在检测精度和推理速度之间取得了更好的平衡。例如，在4D雷达数据集View-of-Delft（VoD）（Palffy, Pool, Baratam, Kooij, & Gavrila (2022a)中，由于注释限制和特定驾驶场景，感知范围通常限制在[0 m, 51.2 m]之间。然而，在实践中，4D雷达可以检测到250米以外的物体。在大规模场景中，保持高BEV网格分辨率——这对于检测各种大小的物体至关重要——需要更大的特征图，从而增加计算成本，尤其是对于密集检测方法。其次，基于关键点的方法受益于更大的接受域，这有助于更有效的全球上下文交互。尽管现有的雷达-视觉融合方法已经改进了多模态感知，但它们往往无法充分利用两种模态的互补特征，导致特征模糊和融合性能不佳。

基于变换器的4D雷达和视觉融合算法目前面临三个关键挑战。第一个挑战是选择适当的特征尺度，以确保结果特征图能够准确捕获物体信息。这不仅需要优化网格分辨率，还需要平衡计算复杂性，以防止过大的特征图导致过高的开销。第二个挑战是有效地利用4D雷达和视觉的信息来生成高效的查询，这对于加速模型收敛和提高训练效率至关重要。最后，为了充分利用两种模态的优势，需要自信地融合两种模态的关键点特征，同时保留它们各自的特征结构。这有助于确保即使在不利条件导致特征退化的情况下，融合特征仍然有效。这种精细的融合策略能够生成更准确和鲁棒的特征，最终提高检测性能。应对这些挑战需要具有强大特征提取能力和处理现实世界场景中不一致性和模态差距的算法。

为了解决这些挑战，我们提出了一个基于变换器的双分支融合框架，用于多模态特征集成。我们的主要目标是将基于变换器的关键点特征提取机制引入4D雷达-视觉融合框架，以解决基于CNN的方法在感知范围扩大时通常观察到的计算效率显著下降的问题。为了更好地适应雷达-视觉融合的特点，我们进一步优化了这一机制以适应4D雷达的数据结构。在此基础上，我们的主要贡献集中在充分利用多模态信息来生成有效的关键点查询，并提出了一种针对关键点级特征融合的新型多模态3D检测范式。具体贡献如下：

•
据我们所知，这是第一个基于变换器的3D物体检测框架，用于融合4D雷达和视觉数据。所提出的方法在基准数据集上表现出竞争力，突显了变换器架构在多模态感知方面的潜力。
•
我们提出了雷达体素绘制器（RVP），这是一种基于体素的特征提取器，它通过聚合每个体素内雷达点位置采样的图像特征来丰富体素表示。这有助于通过中心头进行更准确的关键点预测，这对于生成可靠的变换器查询至关重要。
•
为了提高RVFormer中查询生成的稳定性和收敛速度，我们使用聚类体素的中心作为关键点，并将它们纳入变换器查询的初始化中。此外，我们提出了关键点采样融合（KSF）模块，该模块根据查询位置及其特征动态生成自适应高度和融合权重。该模块使得多模态特征的精确融合成为可能，从而为最终的3D检测生成高质量的关键点查询特征。

部分摘录

基于视觉的3D物体检测

变换器架构最初是为自然语言处理（NLP）开发的，由于其强大的序列建模能力而取得了显著的成功。视觉变换器（ViT）（Dosovitskiy et al. (2021)）的引入，在图像分类中表现出色，进一步验证了变换器在视觉表示学习中的潜力。因此，变换器已成为当代计算机视觉研究的核心焦点。

提出的方法

所提出的RVFormer的总体架构如图2所示。该模型以单张图像和单个4D雷达点云以及相应的内禀和外禀校准矩阵作为输入。RVFormer采用基于变换器的双分支融合框架，执行雷达和视觉特征之间的两个阶段的深度融合。在这个框架中，大多数组件遵循已建立的设计：视觉分支提取多尺度特征，而雷达

数据集和指标

我们在多模态View-of-Delft（VoD）数据集（Palffy et al. (2022a)上评估我们的方法，该数据集包含同步的基于视觉的摄像头和4D雷达数据。我们遵循官方的分割和评估协议，使用5139个样本进行训练，1296个样本进行验证。评估在整个标注区域（摄像头视野范围高达50米）和驾驶走廊中进行。驾驶走廊定义为

? 4 m < x < 4 m

和z?

结论

现有的基于CNN的融合方法在大规模3D物体检测任务中，随着感知范围的扩大，推理速度往往会显著下降，这限制了它们在实时应用中的潜力。为了解决这个问题，我们提出了一种基于聚类和关键点融合的新颖变换器架构，构建了一个高效的雷达-视觉融合框架用于3D物体检测。这种方法为提高大规模

CRediT作者贡献声明

Xin Bi：资金获取、方法论、项目管理。Caien Weng：概念化、形式分析、调查、方法论、软件、验证、可视化、撰写——原始草稿、撰写——审阅与编辑。Panpan Tong：验证。Arno Eichberger：验证。Lu Xiong：资源、监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言