《Neural Networks》:L2G-Net: Local-to-Global Feature Enhancement via Cluster Tokens for 3D Place Recognition
编辑推荐:
点云场景识别中,针对传统CNN方法存在的几何细节丢失和计算复杂度高问题,提出L2G-Net网络架构。通过Point Feature Enhancement(PFE)模块增强局部几何特征,Cluster Tokens Mamba(CTM)模块利用Mamba状态空间模型高效建模聚类特征,并设计Cluster Tokens Cross Attention(CTCA)模块实现局部与全局特征的跨注意力交互。实验表明该方法在多个公开数据集上显著优于现有SOTA方法。
Ming Liao|Xiaoguang Di|Shaoxun Ye|Maozhen Liu
哈尔滨工业大学控制与仿真中心,哈尔滨,150080,中国
摘要
基于3D点云的地点识别是实现长期同时定位与地图构建(SLAM)和在GPS无法覆盖的环境中自主定位的关键技术。尽管深度学习的快速发展促进了基于3D点云的地点识别的广泛应用,但现有方法主要集中在端到端的全局描述符生成上,未能利用局部特征的一致性信息来增强全局描述符的表示能力。为了解决这些问题,我们提出了一种名为L2G-Net的新网络。具体来说,我们首先设计了一个点特征增强(PFE)模块来提取点级特征,以补偿体素特征中丢失的细粒度信息并提高局部表示的区分能力。其次,我们提出了一个集群令牌Mamba(CTM)模块,该模块对点云特征进行聚类,使用状态空间模型对获得的集群令牌进行建模,并将过滤后的集群特征重新分配回原始点云特征空间,从而有效地捕获点云内的上下文信息。最后,我们开发了一个集群令牌交叉注意力(CTCA)模块,该模块基于集群令牌构建了局部-全局交互结构。该模块通过集群令牌将局部特征的一致性信息传递到全局描述符中,从而提高全局描述符的区分能力。在多个公共3D点云地点识别数据集上的实验结果表明,我们的方法在地点识别性能上优于现有的最先进方法。
引言
地点识别是自主机器人技术和自动驾驶系统中的关键技术。它使机器人或车辆能够从数据库中检索查询扫描数据,用于长期SLAM中的循环闭合或在GPS无法覆盖的环境中重新定位。随着激光雷达传感器的快速发展,基于点云的地点识别方法受到了越来越多的关注。随着深度学习的进步,出现了许多端到端的3D地点识别方法。其中大多数方法依赖于卷积神经网络(CNN)从点云中提取特征。
在使用CNN从稀疏且无序的点云中提取局部特征时,Fan等人(2022年)、Kamil等人(2021年)和Komorowski等人(2021年、2022年)通常将3D空间划分为网格,以离散化点坐标,并使用稀疏3D卷积操作处理点云数据。然而,这种离散化常常导致几何细节的丢失,尤其是在表示远距离区域的低分辨率体素中。为了解决这个问题,我们提出了一个点特征增强(PFE)模块,该模块将极坐标与多层感知器(MLP)结合使用,以重建每个点的细粒度几何结构,从而提高点云特征的细节感知能力。
此外,在使用稀疏卷积操作提取点云特征时,只有非空的体素才能被固定大小的卷积核聚合,这导致感受野的扩展相对较慢,难以捕捉远距离区域之间的长距离依赖性。为了解决稀疏卷积中感受野受限的问题,许多研究在网络的不同阶段引入了注意力机制来模拟点云内的长距离依赖性(Liao等人,2025年;Ma等人,2022年;Xia、Gladkova、Wang、Li、Stilla、Henriques、Cremers,2023年;Xia、Shi、Ding、Henriques、Cremers,2024b年;Xiang等人,2024年;Xu等人,2021a年;Zhou等人,2021年)。然而,将注意力机制引入3D点云面临两个挑战。首先,注意力机制需要计算所有查询-关键向量之间的成对关系,这会导致O(N^2)的计算复杂度。在2D视觉任务中,这个问题通过在应用注意力之前将特征图划分为块来解决。相比之下,大多数点云方法直接在稀疏3D卷积的输出上计算注意力权重。这种方法计算成本高且效率低。其次,激光雷达获取的点云高度不均匀。与点云的稀疏区域相比,密集区域在特征提取过程中被更频繁地聚合,导致注意力机制主要关注这些密集区域。然而,这些区域并不总是包含场景中最有信息量的线索。为了克服这些问题,受到“下采样 → 分块注意力 → 上采样”图像处理流程的启发,我们提出了一个集群令牌Mamba(CTM)模块,以高效且公平地聚合3D点云不同区域的上下文信息。我们首先使用NetVLAD(Arandjelovic等人,2016年)获得能够有效表示3D点云局部结构特征的集群令牌。这些令牌捕获了不同场景区域的独特信息。接下来,我们将集群令牌视为场景的序列嵌入,并使用Mamba(Gu和Dao,2024年)对它们进行建模。Mamba动态捕获序列中的关键信息,并为不同的集群令牌分配有意义的权重。它可以通过并行状态扫描提取更具区分性的特征,并避免O(N^2)的复杂度。因此,它大大提高了集群特征建模的效率。最后,在获得上下文丰富的集群令牌特征后,我们使用软分配将特征重新分配回原始点特征空间,从而实现对3D点云的有效注意力建模。
大多数现有的地点识别方法采用端到端架构。它们将整个场景压缩成一个全局描述符,而没有充分探索全局匹配中局部一致性的约束,这导致具有相似整体结构但在局部细节上不同的场景之间出现错误匹配。一些方法(Cattaneo等人,2022年;Hao等人,2024a年;Komorowski等人,2021年;Vidanapathirana等人,2022年;Xu等人,2021b年)在训练过程中引入了局部一致性损失,以增强点对之间的特征相似性。然而,这些方法仅在骨干网络层面改进了局部特征;因此,在将局部特征压缩成全局描述符的过程中仍可能发生信息丢失。为了解决这个问题,我们提出了一个集群令牌交叉注意力(CTCA)模块,用于实现局部-全局双分支交互。在这种设计中,局部分支专注于优化局部一致性,而全局分支执行场景级匹配。两个分支都结合了CTM模块来捕获全局和局部分支中的重叠特征,而交叉注意力机制促进了分支之间集群特征的交互,使网络能够适应性地学习匹配点的局部一致性如何约束全局匹配过程,如图1所示。
总结来说,主要贡献如下:
•我们提出了一个点特征增强(PFE)模块,该模块将细粒度几何特征集成到体素级表示中,以减轻3D点云离散化过程中的信息丢失,并提高局部特征的详细表达能力。
•我们引入了一个新颖的集群令牌Mamba(CTM)模块,该模块将原始点特征聚类为令牌,使用状态空间模型(SSM)对所有令牌进行建模,并将选定的令牌重新分配回原始特征空间。这种设计实现了3D点云上的高效自注意力,并增强了点云特征的上下文表示能力。
•我们设计了一个集群令牌交叉注意力(CTCA)模块,该模块使用交叉注意力机制通过集群令牌将局部分支的一致性信息传递到全局分支。该模块提高了全局分支生成的全局描述符的区分能力,从而提高了地点识别的准确性。
•我们提出了一种名为L2G-Net的新网络,该网络首先增强点云特征的局部细节表示,然后基于集群令牌高效捕获场景级上下文信息,最终利用局部一致性提高全局检索性能。在多个公共数据集上的广泛评估表明,我们的方法优于现有的最先进的地点识别方法。
相关工作
相关工作
根据从3D点云数据中提取特征的方法不同,地点识别方法可以分为基于单一特征的方法和基于融合的方法。
方法论
所提出网络的流程如图2所示。首先,将固定数量的点输入PFE模块以提取几何特征并增强详细信息(见第3.1节)。接下来,集群令牌与Mamba结合,在局部和全局分支中生成自注意力特征(见第3.2节)。然后这些分支被输入到CTCA模块中,其中基于集群令牌的交叉注意力融合了局部和全局特征(见第3.3节)。最后,全局
实验
我们的网络在多个大规模激光雷达定位基准测试序列上进行了评估,包括Mulran数据集的Sejong、DCC、KAIST和Riverside(Kim等人,2020年),以及HeLiPR数据集的DCC、KAIST和Riverside(Jung等人,2024年)。
限制与讨论
我们的方法引入了一个局部分支来增强特征一致性。这一改进提高了检索性能,但也增加了模型复杂性和推理时间。因此,硬件要求可能会提高。此外,该方法的有效性依赖于输入点云中是否存在独特的结构特征。当这些特征稀缺时(例如,在HeLiPR数据集的Riverside序列中),性能提升会减弱。使用集群令牌提供了一种有效的
结论
本文提出了一种基于3D点云的新型端到端地点识别网络。该网络将局部几何一致性与全局描述符学习相结合。我们的网络引入了三个关键组件。首先,点特征增强(PFE)模块在体素化后恢复细粒度几何结构。其次,集群令牌Mamba(CTM)模块通过可学习的令牌和高效的序列建模捕获全局结构。第三,集群令牌交叉注意力(CTCA)
CRediT作者贡献声明
Ming Liao:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,方法论,调查,数据管理,概念化。Xiaoguang Di:撰写 – 审稿与编辑,监督,资源管理,项目管理,方法论,调查,资金获取。Shaoxun Ye:数据管理。Maozhen Liu:资源管理。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作部分得到了中国航空科学基金会 [资助编号:2022Z0710-77002];中国黑龙江省自然科学基金 [资助编号:LH2021F026];中央高校基本科研业务费 [资助编号:HIT.NSRIF202243]的支持。