尽管端到端自动驾驶(Chen等人,2024年)受到了越来越多的关注,但在许多端到端和混合框架中,显式的3D感知仍然至关重要,因为它是一种可解释且对安全性至关重要的表示方式。特别是基于LiDAR的感知(Mao, Shi, Wang, & Li, 2023年)在现实世界的自主系统中继续发挥着重要作用,因为它在各种操作条件下的鲁棒性很强。基于LiDAR的3D检测(Wu, Guang, Wu, & Chen, 2025a)和语义分割(Betsas, Georgopoulos, Doulamis, & Grussenmeyer, 2025)是自动驾驶车辆(Li等人,2024b)和移动机器人(Guang, Cao, Song, & Liu, 2025a)的基本感知任务。高精度的3D检测有助于定位交通参与者(Wang等人,2025年),而细粒度的点级语义支持下游任务,如可行区域提取(Park, Kim, Kim, & Jo, 2023年)。随着大规模数据集(例如SemanticKITTI(Behley等人,2019年)的出现,提高LiDAR感知的准确性对于推进安全和完全自主的导航至关重要。特别是在夜间等具有挑战性的全天气条件下,LiDAR对于鲁棒的自主操作至关重要,因为它提供了准确的度量深度和光照不变的几何信息。
尽管取得了快速进展,基于LiDAR的3D感知仍然面临几个内在挑战。如图1所示,点云本质上是稀疏的,尤其是在远距离时,因为每个物体的LiDAR返回点数随着距离的增加而显著减少。例如,行人3的点数远少于较近的行人2。这种稀疏性使得准确的定位和分类特别困难。此外,行人之间存在较大的类别内姿态变化;例如,行人1是坐着的,而行人2是在行走,导致3D形状有显著不同。同样,如图2所示,LiDAR语义分割需要为原始3D扫描中的每个点分配语义标签(例如,道路、汽车、人、植被、杆子、建筑物)。由于采样不均匀、严重遮挡、数据缺失以及物体规模和形状的巨大变化(从细长的杆子到宽阔的建筑物立面),这项任务具有挑战性。此外,细粒度的类别边界(例如,道路与停车场或人行道)往往模棱两可,严重的类别不平衡使得学习小型或远距离类别特别困难。
早期的LiDAR感知流程主要使用基于体素的CNN(Yan, Mao, & Li, 2018)或2D投影(Xu等人,2020),这会导致立方体内存增长和量化误差或深度线索的丢失。基于点的方法(Shi, Wang, & Li, 2019)直接在原始坐标上操作以保留精细的几何信息,但在大规模应用时成本较高,这促使人们开发了如PV-RCNN(Shi等人,2020)这样的混合框架,以平衡效率和准确性。除了框架设计之外,注意力驱动的重新校准也提升了性能,从轻量级的挤压和激励通道注意力(Hu, Shen, & Sun, 2018)到模拟长距离依赖性的Transformer风格自注意力(Wu等人,2024a)。最近,像Mamba(Gu & Dao, 2024)这样的选择性状态空间模型作为自注意力的可扩展替代方案出现,并开始在3D应用中得到应用(Lu等人,2025)。受这些趋势的启发,我们旨在结合卷积、注意力和Mamba(Gu & Dao, 2024)来共同捕获局部几何特征、通道间依赖性和长距离上下文关系。
为了解决这个问题,我们提出了一种混合Transformer-Mamba网络(HTMNet),它基于U形编码器-解码器架构,并通过跳跃连接连接相应的分辨率级别。具体来说,HTMNet协同结合了来自稀疏3D卷积的局部几何线索、通过全局通道注意力(GCA)模块的全局通道上下文以及通过Mamba的长距离序列建模,从而产生更丰富和更具区分性的特征。实验结果表明,我们的HTMNet在3D物体检测和语义分割基准测试中达到了最先进(SOTA)性能,同时保持了实时吞吐量。我们的贡献如下:
- 1)
我们提出了全局通道注意力(GCA)模块,它利用Transformer风格的Q-K-V操作来捕获LiDAR点云中的全局通道上下文。
- 2)
我们提出了混合Transformer-Mamba(HTM)模块,它利用Mamba状态空间模块来捕获长距离的点对点依赖性并增强全局上下文建模。
- 3)
实验结果表明,我们的HTMNet在大型JRDB数据集上的3D检测任务中达到了最先进(SOTA)性能。同样,在SemanticKITTI数据集上的3D语义分割任务中也取得了有竞争力的结果。