编辑推荐:
3D点云检测中提出水平切片结合切片交互网络的方法,在保持高精度的同时提升推理速度,在Waymo、nuScenes等数据集上验证有效。
刘启峰|赵大伟|董亚波|肖亮|王娟|陈敏|李福阳|蒋伟中|卢东明|聂一鸣
中国浙江省杭州市,浙江大学计算机科学与技术学院,310058
摘要
从点云中进行3D物体检测在自动驾驶中起着关键作用。目前,点云处理的主要方法基于体素(voxel)和基于柱状结构(pillar)的方法。基于体素的方法通过细粒度的空间分割提供了高精度,但推理速度较慢。基于柱状结构的方法提高了推理速度,但在检测精度上通常不如基于体素的方法。为了解决这一权衡问题,我们提出了一种新的点云处理方法——PointSlice,该方法沿水平平面切割点云,并结合了一个专用的检测网络。PointSlice的主要贡献包括:(1)一种新颖的切片表示方法,将3D点云转换为多组2D(x-y)数据切片;模型通过将3D点云视为独立的2D数据批次来显式学习2D数据分布,这显著减少了参数数量并提高了推理速度;(2)引入了切片交互网络(Slice Interaction Network,SIN),以保持切片之间的垂直几何关系,从而提升了模型的3D感知能力。大量实验表明,PointSlice在检测精度和效率之间取得了更好的平衡。在Waymo Open数据集上,PointSlice的推理速度提高了1.13倍,参数数量仅为最先进的基于体素的方法(SAFDNet)的0.79倍,同时检测精度仅下降了1.2 mAP。在nuScenes数据集上,我们达到了66.7 mAP的先进水平。在Argoverse 2数据集上,PointSlice的推理速度提高了1.10倍,参数数量仅为SAFDNet的0.66倍,检测精度仅下降了1.0 mAP。源代码可在以下链接获取:
https://github.com/qifeng22/PointSlice2引言
基于LiDAR的3D物体检测因其在中自动驾驶和机器人技术中的关键应用而受到广泛研究[1]。最近,在各个研究方向上取得了显著进展。例如,[2]提出了一种半监督框架,利用高效的教师数据来减少对大量注释的依赖;[3]探索了用于生成具有物体识别的数据的扩散模型。此外,检测范围已扩展到车辆与基础设施的协作[4]以及时空视频处理[5]。尽管在学习和应用场景方面取得了这些进展,但在骨干架构中检测精度与推理速度之间的基本权衡仍然是一个关键瓶颈。
点云固有的稀疏性和不均匀的空间分布使得直接将2D图像网络架构应用于点云数据变得具有挑战性。为了解决这些问题,处理点云的主流方法是体素化。两种主要的体素化方法是基于体素的方法和基于柱状结构的方法(见图1)。基于体素的方法将点云空间划分为3D体素网格;如HEDNet [6]和SAFDNet [7]这样的模型利用分层编码器-解码器架构和稀疏检测头结构,实现了出色的检测性能。然而,基于体素的方法需要在x、y和z三个维度上进行学习,这导致其推理速度较慢。基于柱状结构的方法将点云数据压缩到x-y平面,从而降低了输入维度,提高了推理效率。例如,PillarNet [8]采用空间特征语义融合来进一步提高检测精度。鉴于基于柱状结构方法的效率优势,一个自然的问题是:是否可以直接将基于体素的网络结构应用于以柱状格式初始化的点云?我们在Waymo Open数据集上进行了实验来探讨这个问题。如表1所示,虽然使用柱状格式的点云(SAFD-Pillar)的推理速度比SAFDNet快1.17倍,但其检测精度仅为69.3 mAP。
为了解决效率提高但检测精度降低的问题,我们提出了PointSlice,该方法将3D点云数据转换为多个(x-y)切片,使模型能够保持接近基于体素方法的检测精度。PointSlice引入了一种新的编码方法:我们水平分割点云,将3D数据转换为一系列2D切片,神经网络在这些切片之间不区分高度(z位置)。这组2D切片被视为一个批次。通过这种编码方式,PointSlice可以使用2D卷积网络作为特征提取的骨干,从而克服了基于体素的方法需要3D CNN进行推理的效率低下问题。
然而,由于同一点云不同切片之间的关系,仅从单个2D切片进行学习可能会影响模型的最终检测性能,如消融研究所示。为了解决这个问题,我们进一步引入了切片交互网络(SIN),在2D骨干网络中加入了稀疏的3D卷积,以实现切片间的信息交换。由于SIN由3D卷积组成,过度使用会增加模型参数并降低推理效率。因此,我们仅在必要时添加SIN以保持检测精度。实验结果验证了SIN网络的重要性。
为了验证我们模型的有效性,我们在Waymo和nuScenes数据集上进行了实验。在Waymo数据集上,我们的模型推理速度比最先进的基于体素的方法(SAFDNet)快1.13倍,参数数量减少了0.79倍。在nuScenes数据集上,我们的模型参数数量比SAFDNet减少了0.45倍,同时实现了66.74 mAP的先进检测结果。
总体而言,本文的贡献如下:
(1)我们提出了一种将3D点云转换为2D切片的新表示方法;
(2)我们设计了一个专用的网络结构PointSlice,其中创新性地结合了切片交互网络(SIN);
(3)我们在Waymo、nuScenes和Argoverse 2数据集上展示了模型的效率和高度精度。
部分内容摘录
基于体素的3D检测器
基于体素的检测网络将点云数据划分为3D体素网格,并利用神经网络进行3D物体检测。VoxelNet [9]将点云划分为均匀分布的3D体素,并通过体素特征编码(VFE)层将每个体素内的点簇转换为统一的特征表示。Voxel R-CNN [10]通过两阶段方法充分利用体素特征实现了精确的物体定位。TransFusion [11]引入了Transformer
背景
稀疏卷积。稀疏卷积是一种专门为稀疏数据开发的卷积操作,仅在数据存在的位置进行操作。这种方法提高了计算效率并减少了内存使用。稀疏卷积主要分为两种类型:子流形稀疏卷积(subm spconv)[22],它在输入和输出特征图之间保持特征稀疏性;以及规则稀疏卷积[23],通过扩展来增加特征图密度
数据集和指标
在这项工作中,我们在三个大规模自动驾驶数据集上评估了我们提出的方法:Waymo Open数据集[37]、nuScenes [38]和Argoverse 2 [39]。这些数据集的详细信息如下:Waymo Open数据集(WOD): WOD以其高密度的点云和复杂的城市交通场景而闻名。该数据集包含1,150个序列(798个训练集、202个验证集、150个测试集),收集自旧金山、凤凰城和Mountain View等不同地区
讨论与结论
总之,为了解决基于体素模型的低推理效率和基于柱状结构模型的检测精度降低的问题,我们开发了一种用于3D点云数据的水平切片方法。该方法有效减轻了基于体素模型的计算负担。此外,我们引入了切片交互网络(SIN)以促进切片间的特征交互,从而形成了PointSlice模型。在Waymo数据集上的广泛评估表明
CRediT作者贡献声明
刘启峰:撰写——审稿与编辑、原始草稿撰写、可视化、验证、软件开发、资源管理、方法论设计、调查、形式分析、数据整理、概念构建。赵大伟:撰写——审稿与编辑、监督、方法论设计、调查、资金获取、概念构建。董亚波:撰写——审稿与编辑、监督、方法论设计、调查、资金获取、概念构建。肖亮:撰写——审稿与编辑
利益冲突声明
作者声明他们没有已知的可能会影响本文所报告工作的财务利益或个人关系。