提升点云特征提取能力以实现更高效的机器人感知

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：Enhancing point cloud feature extraction for effective robot perception

【字体：大中小】 时间：2026年02月10日 来源：Displays 3.4

编辑推荐：

　　点云特征提取与旋转矩阵预测联合优化框架显著提升机器人感知性能，通过双分支同步建模旋转不变性与矩阵预测，结合MSFE多尺度特征提取和AGFA注意力全局聚合，实现动态非结构环境下的高精度鲁棒特征表征，模型轻量化适合移动部署。

李启辉|杜启良|田连芳|卢国宇

华南理工大学自动化科学与工程学院，中国广州

摘要

点云特征提取和旋转矩阵预测是机器人感知和3D计算机视觉中的基本任务，在基于LiDAR、RGB-D或常规RGB相机的机器人姿态估计、物体识别和操作中具有关键应用。然而，现有方法通常分别处理这两个问题，往往忽略了它们之间的内在联系。在本文中，我们提出了一个创新的学习框架，该框架同时考虑了旋转不变性和旋转矩阵预测，以增强点云特征提取。具体来说，我们使用两个并行分支从点云中提取特征。一个分支基于不同的特征表示来预测旋转矩阵；另一个分支确保旋转后点云之间的全局特征一致性，以便于后续任务。通过平衡特征的多样性和不变性，我们的方法进一步提高了后续任务的鲁棒性和准确性。此外，我们引入了一个多尺度特征提取模块（MSFE），该模块能够更好地捕捉点云的局部特征。我们还引入了一个基于注意力的全局特征聚合（AGFA）模块，该模块增强了全局特征的捕获能力，从而提高了整体性能。我们的方法不仅有效，而且轻量级，参数较少，计算要求低，非常适合在移动设备上部署。它有潜力显著提升机器人在物体识别、感知和导航任务中的能力，尤其是在动态和非结构化环境中。

引言

点云特征提取和旋转矩阵预测是3D计算机视觉和机器人感知的基础任务[1]，[2]，在机器人应用（如识别[3]、物体姿态估计[4]、操作和导航）以及自主系统（如机器人探索和自动驾驶[5]）中发挥着关键作用。点云数据本质上是无序且不规则的[6]，这与2D图像不同，这使得从点云中提取特征变得更加具有挑战性。尽管使用深度学习技术在点云处理方面取得了显著进展，但如何有效处理点云的旋转变化仍然是机器人感知任务中的一个未解决的问题。

大多数现有的点云特征提取方法[7]，[8]侧重于捕获几何信息，许多方法强调旋转不变性[9]，[10]，[11]，[12]。这些方法旨在确保点云特征在旋转后仍然保持一致[1]，[13]，[14]。虽然这种任务分离可以实现有效的旋转不变性，但它限制了捕捉对姿态估计等应用至关重要的细微特征差异的能力。在这种情况下，旋转前后的点云特征必须有所不同，因为准确的姿态估计依赖于理解这些差异。这提出了一个挑战：我们如何同时处理旋转不变性和由旋转引起的特征变化？我们认为，虽然点云特征会随着旋转而变化，但这些变化遵循一个可学习的分布。我们提出在特征提取过程中预测旋转矩阵可以使特征对齐，从而提高鲁棒性，得到更可靠的点云表示。

为了解决这一挑战，我们提出了一个创新的学习框架，该框架同时优化了旋转不变性和旋转矩阵预测，从而增强了点云的整体特征提取。现有方法[10]，[11]，[12]，[13]，[14]，[15]通常将旋转不变性和旋转矩阵预测视为独立任务，未能利用两者之间的内在联系。为了克服这一限制，我们设计了一个双分支网络，用于同时处理旋转前后点云的特征提取。具体来说，一个分支专门用于通过学习多样化的特征表示来预测旋转矩阵，而另一个分支从旋转后的点和原始点云中提取全局特征。

我们的框架同时优化了旋转不变性和旋转矩阵预测。通过学习旋转变换下的特征对齐，它确保了特征分布在旋转前后保持一致。这种统一的方法使网络能够同时建模旋转不变性和旋转引起的特征变化。与传统的独立处理这些任务的方法不同，我们的集成框架利用了它们之间的内在联系，使网络能够有效捕捉特征变化和不变性。这显著提高了分类和分割等下游任务的准确性、鲁棒性和泛化能力。

为了进一步增强特征提取，我们引入了两个关键组件：多尺度特征提取（MSFE）模块和基于注意力的全局特征聚合（AGFA）方法。MSFE模块通过在多个尺度上提取点云信息来捕捉多级局部特征，使网络能够更好地理解细粒度几何细节。与传统的单尺度方法[16]，[17]，[18]，[19]，[20]不同，这些方法难以捕捉变化的结构细节，MSFE模块通过结合不同分辨率的特征提供了全面的表示。这种多尺度方法提高了网络的鲁棒性及其处理具有不同密度和复杂性的多样化真实世界3D数据的能力。

作为MSFE模块的补充，AGFA方法利用注意力机制在整个点云中聚合全局特征。通过融合最大池化、平均池化及其组合，AGFA使网络能够关注最相关的特征，确保保留了关键的结构和语义信息。这种基于注意力的聚合增强了网络提取全面全局特征的能力，从而提高了整体性能。

这两个组件——MSFE和AGFA——协同工作，增强了网络提取局部和全局特征的能力。MSFE确保了对局部点云结构的详细和可扩展的理解，而AGFA促进了全局信息的全面聚合，从而使网络能够创建点云的丰富多维表示。这种结合的方法提高了模型的鲁棒性，提高了特征提取的准确性，并显著提升了其在下游任务中的性能。

本文的主要贡献如下：（1）我们提出了一种新的点云特征提取网络，该网络结合了旋转不变性和旋转矩阵预测，显著增强了特征提取能力，特别是在旋转情况下。（2）我们设计了一个多尺度特征提取（MSFE）模块，使网络能够提取局部多级特征，提高了其处理各种形状点云的能力。（3）我们引入了基于注意力的全局特征聚合（AGFA）方法，该方法使用注意力机制有效地聚合了全局点云特征。（4）我们的方法在几个下游3D任务中取得了最佳结果，展示了其在3D视觉应用中提升机器人感知的潜力。

章节摘录

点云中的旋转不变性

近年来，提出了几种方法来解决点云处理中的旋转不变性挑战，每种方法都提供了在旋转变换下保持一致性的独特方法。Yu等人[12]引入了一种基于变换器的点云匹配架构，利用注意力机制实现旋转不变性并有效对齐点云，特别是在3D点云配准的背景下。You等人[10]专注于使用

方法

一个点云

P

由多个3D点组成，每个点都编码了丰富的局部几何信息。在点云特征提取过程中，现有方法通常构建局部图来捕获局部特征[1, 2, 3]。这些方法通常假设点云的局部区域表现出相似的几何模式，因此使用固定规模的局部图进行特征提取。然而，在实际应用中，点云的不同区域表现出显著的

数据集。

ModelNet40数据集[31]是3D形状识别的一个流行基准，包含40个类别的3D CAD模型。这些类别包括椅子、桌子、飞机和汽车等对象。该数据集共有12,311个模型，其中9843个用于训练，2468个用于测试。每个模型表示为一个3D点云，使其适用于分类、分割和物体识别等任务。这40个类别涵盖了广泛的物体

不同模块对网络性能的影响

为了系统评估每个模块对网络性能的贡献，我们通过依次移除不同模块并分析其对分类准确性的影响进行了消融研究。实验在ModelNet40数据集上进行，确保结果具有代表性和泛化性。具体来说，我们研究了以下关键模块的影响：旋转不变性损失（RI Loss）、旋转矩阵预测损失（RMP Loss）、多尺度

局部点云特征提取策略的设计选择

对于MSFE的设计，我们采用了基于k-NN的特征提取方法，而不是依赖于PointNet++的[17]基于半径的策略，从而平衡了计算效率和鲁棒性。传统的基于半径的方法需要仔细调整，并且在应用于分布不均匀的数据时表现出根本性的限制：在密集区域，固定半径会导致过多的点和特征冗余；在稀疏区域，点的稀缺会导致

结论

在本文中，我们提出了一个新颖的点云特征提取框架，该框架共同学习旋转不变的表示并预测旋转矩阵，有效弥合了3D空间变换中的不变性和变化性之间的差距。这种联合设计增强了点云在任意旋转下的鲁棒性和准确性，这是现实世界机器人场景中的一个关键挑战。为了进一步提高几何感知能力，我们集成了多尺度特征

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

我们衷心感谢国家重点研发计划（2023YFB4704900）、国家自然科学基金（NSFC，授权号62476094）和珠海产学研合作项目（授权号2220004002460）的支持。这些资金来源在我们研究的成功完成中发挥了重要作用。

联系信箱：

粤ICP备09063491号

摘要

引言