CMHANet:一种用于点云配准的跨模态混合注意力网络
【字体:
大
中
小
】
时间:2026年03月13日
来源:Neurocomputing 6.5
编辑推荐:
点云配准是三维计算机视觉的核心问题,CMHANet通过跨模态融合和混合注意力机制提升鲁棒性,在几何一致性和语义连贯性优化中引入对比学习目标函数,实验表明在多个数据集上显著优于现有方法。
张东旭|王英森|孙一丁|徐浩然|范佩琳|朱继华
西安交通大学软件学院,中国西安西安西路28号
摘要
鲁棒点云配准是3D计算机视觉和几何深度学习中的基本任务,对于大规模3D重建、增强现实和场景理解等应用至关重要。然而,在数据不完整、传感器噪声和重叠区域较小的复杂现实世界场景中,现有基于学习的方法性能往往会下降。为了解决这些限制,我们提出了CMHANet,一种新颖的跨模态混合注意力网络。我们的方法将2D图像中的丰富上下文信息与3D点云的几何细节相结合,从而产生全面且具有鲁棒性的特征表示。此外,我们引入了一种基于对比学习的创新优化函数,该函数强制实现几何一致性,并显著提高了模型对噪声和部分观测的鲁棒性。我们在3DMatch和具有挑战性的3DLoMatch数据集上评估了CMHANet的性能。此外,在TUM RGB-D SLAM数据集上的零样本评估验证了模型对未见领域的泛化能力。实验结果表明,我们的方法在配准精度和整体鲁棒性方面都取得了显著改进,优于当前技术。我们还在
https://github.com/DongXu-Zhang/CMHANet中发布了我们的代码。
引言
点云配准,即将两个或多个3D点集对齐到统一坐标系的过程,是3D计算机视觉和几何深度学习中的一个基本问题[1],[2]。这项任务对于包括3D场景重建[3],[4]、增强现实和物体形状分析[5],[6]在内的广泛应用至关重要。尽管其重要性不言而喻,但在处理受传感器噪声、稀疏性和不规则采样影响的真实世界数据时,实现鲁棒配准仍然是一个重大挑战[7]。传统方法[8],[9],[10]虽然基础扎实,但主要依赖于几何属性,常常忽略了2D图像中可用的有价值的上下文信息,如纹理和语义线索。
深度学习的发展为点云分析带来了新的范式[11],使得端到端神经网络能够直接从原始数据[12],[13]中学习强大的特征表示。在神经计算领域,网络架构已经发展到能够更好地捕捉点云中固有的复杂结构。虽然卷积神经网络(CNN)在提取局部特征方面很有效,但它们受限的感受野可能会限制它们模拟长距离依赖关系的能力。相比之下,基于Transformer的架构[14],[15],[16],[17]在捕捉全局上下文方面表现出很强的能力,这对于理解场景的整体结构至关重要。此外,来自相关领域(如可变形图像配准)的见解强调了结合分层和注意力机制来建模多尺度关系的优势[18],[19]。
推进这些基于学习的方法的一个关键机会在于利用多模态数据。现在常见的传感器套件将深度传感器与RGB相机配对,提供互补的数据流[20]。虽然点云编码了精确的3D几何信息,但它们通常缺乏描述性纹理。相反,2D图像提供了密集的、富含纹理的、语义丰富的上下文,但缺乏明确的3D信息[19]。如图1所示,融合这些互补的数据源可以实现对场景的更全面理解,从而提高对应匹配和配准的鲁棒性。
受这些见解的启发,我们提出了CMHANet:一种用于点云配准的跨模态混合注意力网络。我们的方法旨在有效融合这些不同的数据模态。它为点云和图像数据使用单独的特征编码器,然后通过多阶段跨模态注意力流程进行处理。这种设计使CMHANet能够构建更丰富的联合特征空间,并引入了一种混合注意力机制,以细化几何特征和视觉特征之间的交互,从而实现更准确的超点匹配。
本文的贡献总结如下:
•我们提出了一种新颖的网络架构,该架构无缝集成3D几何信息和2D纹理信息,为点云配准生成更具区分性的特征表示。
•我们开发了一种混合注意力机制,旨在智能地模拟2D和3D特征之间的相互作用,实现精确和适应性的多模态对应匹配。
•我们制定了一个详细的优化目标,共同促进不同数据流之间的几何保真度和语义一致性。
我们在要求严格的3DMatch [20]和3DLoMatch [12]基准测试中验证了CMHANet的性能。我们的实证发现表明,CMHANet在各种重叠条件下始终优于现有方法,如其领先的配准召回率指标所示(图2)。
部分内容
基于对应关系的点云配准方法
点云配准(PCR)旨在通过估计刚性变换[21]将多个3D点集对齐到共同的坐标系中,这是3D计算机视觉中的一个基本挑战。其成功执行是包括大规模3D重建和增强现实[7],[22]在内的众多应用的前提条件。PCR方法论可以分为两大主要范式:以优化为中心的和基于对应关系的。
方法
如图3所示,我们的方法通过一个多阶段架构执行多模态点云配准,该架构旨在融合3D几何数据和2D视觉信息。该流程包括以下相互连接的模块。
首先,特征提取和下采样模块处理原始输入。它使用两个并行编码器:一个点云编码器和一个图像编码器。点云编码器从3D数据中提取关键几何特征,同时
实验
在本节中,我们进行了相关实验以验证我们模型的有效性。
结论
在这项工作中,我们提出了CMHANet,一种利用从粗到细的两阶段对应过程的点云配准方法。我们方法的核心是多模态信息的有效融合,其中3D点云的几何细节通过增强的注意力机制与2D图像的上下文特征相结合。虽然这种跨模态融合需要比单模态方法稍大的推理时间和内存占用,但我们的
CRediT作者贡献声明
张东旭:写作 – 审稿与编辑,撰写原始草稿,可视化,验证,软件,资源,项目管理,方法论,调查,形式分析,数据策划,概念化
王英森:写作 – 审稿与编辑
孙一丁:写作 – 审稿与编辑,调查
徐浩然:写作 – 审稿与编辑
范佩琳:写作 – 审稿与编辑
朱继华:写作 – 审稿与编辑
利益冲突声明
作者声明他们没有已知的可能会影响本文所报告工作的竞争财务利益或个人关系。
致谢
本工作部分得到了国家自然科学基金(NSFC)项目编号2025JC-JCQN-091、62125305、陕西省自然科学基础研究计划项目编号2025JC-JCQN-091以及陕西省技术创新引领计划(项目编号2024QY-SZX-23)的支持。
张东旭于2024年获得中国太原理工大学的计算机科学与技术学士学位。目前,他正在西安交通大学软件学院攻读硕士学位。他的研究兴趣包括计算机视觉和模式识别。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号