《Expert Systems with Applications》:A Deep Learning-Based Multi-Modal Approach to Robust Place Recognition in Challenging Orchard Environments
编辑推荐:
多模态融合的机器人定位方法研究,结合RGB图像、LiDAR点云和强度数据,提出改进的CNN-GEM池化架构,在KITTI等四组数据集上验证SOTA性能,果园场景中LiDAR强度特征使AR@1提升16%。
Dilshan Ranasinghe | Chao Chen
澳大利亚维多利亚州克莱顿莫纳什大学机械与航空航天工程系
摘要
位置识别旨在利用之前探索过的所有地点的知识,来识别再次访问时的当前位置。在探索地点的过程中,可以使用处理过的单一或多种感官输入生成这些地点的抽象表示。随后,可以将当前的环境抽象与之前收集的信息进行比较,以检测是否为重复访问。同时定位与地图构建(SLAM)中的循环闭合组件利用这些技术来识别重复访问,从而帮助SLAM系统减少长期漂移。RGB图像、LiDAR点云和LiDAR强度是位置识别文献中最常用的三种感官输入。然而,当它们作为单一模态输入时,各自都存在一定的缺点。此外,近年来,基于深度神经网络(DNN)的方法在文献中越来越受到关注,用于解决位置识别问题。因此,在本研究中,我们介绍了一种新的多模态方法,该方法结合了上述三种模态提供的丰富互补信息以及DNN来进行位置识别。该方法在多个公开可用的数据集上进行了评估,同时也在我们团队收集的高度重复的果园数据集上进行了测试。结果表明,该方法甚至可以在果园等具有挑战性的环境中发挥作用。
引言
机器人要实现真正的自主性,就必须能够感知其在操作环境中的当前位置。SLAM是一种流行的算法,它通过生成之前未探索区域的地图来同时估计机器人的位置,从而解决自主导航问题。这个问题已经经过了数十年的广泛研究。Kazerouni、Fitzgerald、Dooly和Toal(2022年)、Qu等人(2025年)以及Khan等人(2021年)等综合调查回顾了基于视觉和LiDAR模态的SLAM方法。SLAM中的定位可以通过两个主要组件来实现:一个是高频组件,它使用相对较短的数据窗口实时预测机器人的位置,但容易随时间产生漂移;另一个是低频组件,称为循环闭合,用于纠正长期漂移。
循环闭合组件使用最新的传感器输入来构建当前环境的抽象表示,然后将当前的环境与之前保存的地点信息进行对比。找到匹配项后,循环闭合组件会相应地调整机器人的当前位置估计。动态环境、重复性环境、季节变化以及传感器和执行器的噪声使得循环闭合问题变得尤为复杂。此外,Cerrato、Mazzia、Salvetti和Chiaberge(2021年)指出,在城市景观和果园中,全球导航卫星系统(GNSS)的可靠性较低,这进一步增加了循环闭合的必要性。
位置识别(PR)是循环闭合中的一个关键模块,它允许创建和比较抽象表示。这些解决方案根据所使用的不同感官输入分为多个方向,如视觉位置识别(VPR)、LiDAR位置识别(LPR)和混合视觉-LiDAR位置识别(HVL-PR)。VPR使用相机图像提取关键特征用于位置识别,但它容易受到光照、比例和视角变化的影响。同样,LDR使用LiDAR点云来识别地点,但在几何特征较少的环境中(如走廊)表现不佳(Komorowski、Wysoczańska和Trzcinski,2021年)。
相机和LiDAR作为互补传感器,有助于HVL-PR提高准确性。此外,深度学习技术在位置识别中的大规模应用显著提升了其性能(Lai、Yin和Scherer,2022年;Komorowski等人,2021年)。
此外,大多数现代LiDAR传感器除了生成点云外,还提供强度或反射率读数。这些LiDAR强度读数能够感知物体的表面特征,并且对极端光照变化具有不变性,使其成为位置识别的理想候选者。有关LiDAR强度的更多细节,请参见第3.5节。
在本研究中,我们探索了结合使用RGB图像、LiDAR点云和LiDAR强度值这三种传感器模态来生成全局位置描述符的潜力。我们采用了一种包含CNN块的神经网络架构(Woo、Park和Kweon,2018年)进行特征提取,并使用GEM池化(Radenovi?、Tolias和Chum,2019年)进行特征聚合。在公开可用数据集上的评估结果表明,结合这三种模态可以使该方法达到最佳性能。此外,该方法还在真实的果园环境中进行了测试,以评估其在高度重复环境中的适用性。
本工作的贡献总结如下:
- •
一种新的多模态全局描述符,用于位置识别,该方法结合了RGB图像、LiDAR点云(鸟瞰视图BEV_L)和LiDAR强度(鸟瞰视图BEV_I)。与仅融合两种模态的先前混合视觉-LiDAR PR方法不同,我们的方法整合了三种互补线索,利用精心设计的深度学习架构捕捉几何、语义和表面反射信息,通过空间注意力和广义均值池化结合2D卷积来提高特征选择性和聚合效果,使该方法适用于实际的农业机器人。
- •
在包括KITTI、Oxford RobotCar、Oxford RobotCar-Intensity以及我们团队收集的新高度重复果园数据集在内的四个基准测试上的广泛评估表明,所提出的方法在平均召回率@1和平均召回率@1%方面达到了最佳性能,并且通过跨领域准确性评估展示了强大的泛化能力。
- •
在果园环境中展示了LiDAR强度BEV的有效性,在这种环境中,纹理重复会导致RGB特征和几何特征不可靠。实验表明,BEV_I将重复农业行中的检索准确率(AR@1)提高了16%。
本文的其余部分结构如下:第2节讨论了相关工作。第3节介绍了我们提出的HVL-PR方法,包括BEV生成、DNN架构、损失函数和池化方法。第4节详细描述了评估方法、结果和分析。第5节总结了本文的结论。
相关研究
相关研究
作为循环闭合算法的一部分,位置识别在文献中得到了广泛研究。使用传感器输入生成全局特征描述符,然后使用欧几里得距离等距离度量来衡量两个地点之间的相似性,这是位置识别算法的一般框架。根据主要使用的传感器输入,相关研究可以分为三类。
方法论
本节描述了所提出的方法论,该方法使用单目相机的图像以及来自3D LiDAR传感器的点云和强度数据作为输入。
结果
本节描述了使用的数据集、训练-验证-测试集划分、评估方法以及所提出方法的结果。
结论
位置识别旨在通过将当前传感器数据抽象与之前收集的传感器数据抽象进行比较,来识别之前访问过的地点。RGB图像和LiDAR数据经常被用作位置识别的输入。然而,单独使用它们时各自都有局限性。此外,在位置识别文献中,LiDAR强度的利用频率不如前述输入高。然而,
CRediT作者贡献声明
Dilshan Ranasinghe:概念化、方法论设计、初稿撰写、数据整理、验证、审稿与编辑、软件开发。Chao Chen:指导、方法论设计、验证、审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。