点云特征提取和旋转矩阵预测是3D计算机视觉和机器人感知的基础任务[1],[2],在机器人应用(如识别[3]、物体姿态估计[4]、操作和导航)以及自主系统(如机器人探索和自动驾驶[5])中发挥着关键作用。点云数据本质上是无序且不规则的[6],这与2D图像不同,这使得从点云中提取特征变得更加具有挑战性。尽管使用深度学习技术在点云处理方面取得了显著进展,但如何有效处理点云的旋转变化仍然是机器人感知任务中的一个未解决的问题。
大多数现有的点云特征提取方法[7],[8]侧重于捕获几何信息,许多方法强调旋转不变性[9],[10],[11],[12]。这些方法旨在确保点云特征在旋转后仍然保持一致[1],[13],[14]。虽然这种任务分离可以实现有效的旋转不变性,但它限制了捕捉对姿态估计等应用至关重要的细微特征差异的能力。在这种情况下,旋转前后的点云特征必须有所不同,因为准确的姿态估计依赖于理解这些差异。这提出了一个挑战:我们如何同时处理旋转不变性和由旋转引起的特征变化?我们认为,虽然点云特征会随着旋转而变化,但这些变化遵循一个可学习的分布。我们提出在特征提取过程中预测旋转矩阵可以使特征对齐,从而提高鲁棒性,得到更可靠的点云表示。
为了解决这一挑战,我们提出了一个创新的学习框架,该框架同时优化了旋转不变性和旋转矩阵预测,从而增强了点云的整体特征提取。现有方法[10],[11],[12],[13],[14],[15]通常将旋转不变性和旋转矩阵预测视为独立任务,未能利用两者之间的内在联系。为了克服这一限制,我们设计了一个双分支网络,用于同时处理旋转前后点云的特征提取。具体来说,一个分支专门用于通过学习多样化的特征表示来预测旋转矩阵,而另一个分支从旋转后的点和原始点云中提取全局特征。
我们的框架同时优化了旋转不变性和旋转矩阵预测。通过学习旋转变换下的特征对齐,它确保了特征分布在旋转前后保持一致。这种统一的方法使网络能够同时建模旋转不变性和旋转引起的特征变化。与传统的独立处理这些任务的方法不同,我们的集成框架利用了它们之间的内在联系,使网络能够有效捕捉特征变化和不变性。这显著提高了分类和分割等下游任务的准确性、鲁棒性和泛化能力。
为了进一步增强特征提取,我们引入了两个关键组件:多尺度特征提取(MSFE)模块和基于注意力的全局特征聚合(AGFA)方法。MSFE模块通过在多个尺度上提取点云信息来捕捉多级局部特征,使网络能够更好地理解细粒度几何细节。与传统的单尺度方法[16],[17],[18],[19],[20]不同,这些方法难以捕捉变化的结构细节,MSFE模块通过结合不同分辨率的特征提供了全面的表示。这种多尺度方法提高了网络的鲁棒性及其处理具有不同密度和复杂性的多样化真实世界3D数据的能力。
作为MSFE模块的补充,AGFA方法利用注意力机制在整个点云中聚合全局特征。通过融合最大池化、平均池化及其组合,AGFA使网络能够关注最相关的特征,确保保留了关键的结构和语义信息。这种基于注意力的聚合增强了网络提取全面全局特征的能力,从而提高了整体性能。
这两个组件——MSFE和AGFA——协同工作,增强了网络提取局部和全局特征的能力。MSFE确保了对局部点云结构的详细和可扩展的理解,而AGFA促进了全局信息的全面聚合,从而使网络能够创建点云的丰富多维表示。这种结合的方法提高了模型的鲁棒性,提高了特征提取的准确性,并显著提升了其在下游任务中的性能。
本文的主要贡献如下:(1)我们提出了一种新的点云特征提取网络,该网络结合了旋转不变性和旋转矩阵预测,显著增强了特征提取能力,特别是在旋转情况下。(2)我们设计了一个多尺度特征提取(MSFE)模块,使网络能够提取局部多级特征,提高了其处理各种形状点云的能力。(3)我们引入了基于注意力的全局特征聚合(AGFA)方法,该方法使用注意力机制有效地聚合了全局点云特征。(4)我们的方法在几个下游3D任务中取得了最佳结果,展示了其在3D视觉应用中提升机器人感知的潜力。