环境感知在自动驾驶中起着基础性作用,它使车辆能够实时解释周围环境并做出决策。在各种感知任务中,3D物体检测尤为重要,因为它提供了关于物体位置、形状和运动的重要信息,这些都是路径规划和避碰的关键因素(Qian, Lai, & Li (2022))。然而,在复杂环境中,尤其是在恶劣天气、能见度低和光照变化等条件下,3D物体检测仍然面临重大挑战,这些条件往往会降低传统传感器(如摄像头和LiDAR)的性能(Zhang, Wang, Cai, Chen, & Li (2024))。这些挑战突显了需要一种能够在不同环境条件下保持高精度的鲁棒解决方案。在这方面,4D雷达为自动驾驶系统提供了显著的优势。与传统雷达相比,4D雷达提供了更丰富的 elevations 信息、更密集的点云和更高的分辨率,从而提高了障碍物检测的精度(Fan et al. (2024))。此外,与LiDAR不同,4D雷达可以通过多普勒效应准确估计物体速度,而无需时间数据,并且在恶劣天气条件下仍能保持可靠的性能,这对于确保驾驶安全至关重要。因此,4D雷达成为现有传感器的可靠补充,提供了更好的环境适应性和可靠性。
如图1所示,不同天气条件下的传感器感知性能表明,尽管4D雷达在恶劣天气下的性能优异,但其3D物体检测能力不如LiDAR在晴朗天气下的性能。这主要是由于4D雷达点云的稀疏性和有限的几何清晰度,导致在理想条件下的数据表示不如LiDAR。此外,雷达极易受到多径效应的影响,这可能导致误报点云(Han et al. (2024))。为了解决这些缺点,视觉和4D雷达的融合成为理想的解决方案。与4D雷达不同,视觉传感器无法准确估计距离或速度,并且容易受到环境干扰,但它们提供高分辨率的图像和丰富的几何细节,有效弥补了雷达点云的局限性(Yu, Wan, Ren, Zheng, & Fang (2024))。成功的雷达-视觉融合方法不仅可以利用两种传感器的优势,还可以克服它们各自的局限性。这种方法有助于实现全天候的鲁棒感知,并提供具有成本效益的解决方案。因此,雷达-视觉融合方法在学术界和工业界都受到了广泛关注。这主要是由于4D雷达点云的稀疏性和有限的几何清晰度,导致在理想条件下的数据表示不如LiDAR。
基于鸟瞰图(BEV)的物体检测方法通常分为两类:一类是依赖传统卷积神经网络(CNN)的密集检测器(Lang et al. (2019a); Li, Luo, & Yang (2023);另一类是利用变换器架构的稀疏关键点检测器(Mao et al. (2021); Vaswani et al. (2017); Zhou, Zhao, Wang, Wang, & Foroosh (2022))。与密集检测器相比,基于关键点的方法侧重于从BEV地图中提取更可能对应于目标的判别性特征,从而提高定位和检测精度。稀疏关键点检测器有两个主要优势。首先,它们在检测精度和推理速度之间取得了更好的平衡。例如,在4D雷达数据集View-of-Delft(VoD)(Palffy, Pool, Baratam, Kooij, & Gavrila (2022a)中,由于注释限制和特定驾驶场景,感知范围通常限制在[0 m, 51.2 m]之间。然而,在实践中,4D雷达可以检测到250米以外的物体。在大规模场景中,保持高BEV网格分辨率——这对于检测各种大小的物体至关重要——需要更大的特征图,从而增加计算成本,尤其是对于密集检测方法。其次,基于关键点的方法受益于更大的接受域,这有助于更有效的全球上下文交互。尽管现有的雷达-视觉融合方法已经改进了多模态感知,但它们往往无法充分利用两种模态的互补特征,导致特征模糊和融合性能不佳。
基于变换器的4D雷达和视觉融合算法目前面临三个关键挑战。第一个挑战是选择适当的特征尺度,以确保结果特征图能够准确捕获物体信息。这不仅需要优化网格分辨率,还需要平衡计算复杂性,以防止过大的特征图导致过高的开销。第二个挑战是有效地利用4D雷达和视觉的信息来生成高效的查询,这对于加速模型收敛和提高训练效率至关重要。最后,为了充分利用两种模态的优势,需要自信地融合两种模态的关键点特征,同时保留它们各自的特征结构。这有助于确保即使在不利条件导致特征退化的情况下,融合特征仍然有效。这种精细的融合策略能够生成更准确和鲁棒的特征,最终提高检测性能。应对这些挑战需要具有强大特征提取能力和处理现实世界场景中不一致性和模态差距的算法。
为了解决这些挑战,我们提出了一个基于变换器的双分支融合框架,用于多模态特征集成。我们的主要目标是将基于变换器的关键点特征提取机制引入4D雷达-视觉融合框架,以解决基于CNN的方法在感知范围扩大时通常观察到的计算效率显著下降的问题。为了更好地适应雷达-视觉融合的特点,我们进一步优化了这一机制以适应4D雷达的数据结构。在此基础上,我们的主要贡献集中在充分利用多模态信息来生成有效的关键点查询,并提出了一种针对关键点级特征融合的新型多模态3D检测范式。具体贡献如下:
- •
据我们所知,这是第一个基于变换器的3D物体检测框架,用于融合4D雷达和视觉数据。所提出的方法在基准数据集上表现出竞争力,突显了变换器架构在多模态感知方面的潜力。
- •
我们提出了雷达体素绘制器(RVP),这是一种基于体素的特征提取器,它通过聚合每个体素内雷达点位置采样的图像特征来丰富体素表示。这有助于通过中心头进行更准确的关键点预测,这对于生成可靠的变换器查询至关重要。
- •
为了提高RVFormer中查询生成的稳定性和收敛速度,我们使用聚类体素的中心作为关键点,并将它们纳入变换器查询的初始化中。此外,我们提出了关键点采样融合(KSF)模块,该模块根据查询位置及其特征动态生成自适应高度和融合权重。该模块使得多模态特征的精确融合成为可能,从而为最终的3D检测生成高质量的关键点查询特征。