ProtoSeg：一种基于原型的点云实例分割方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Signal Processing: Image Communication》：ProtoSeg: A prototype-based point cloud instance segmentation method

【字体：大中小】 时间：2026年02月27日 来源：Signal Processing: Image Communication 3.4

编辑推荐：

　　3D点云实例分割研究提出聚类-free方法，通过Dilated Point Inception模块联合学习系数和原型，利用非极大值抑制替代传统聚类，实现28%加速且稳定性显著提升，在S3DIS和PartNet数据集上mRec和mAP分别优于基线4.9%和2.0%。

作者：Remco Royen、Leon Denis、Adrian Munteanu

所属机构：布鲁塞尔自由大学电子与信息学系，比利时布鲁塞尔1050

摘要

3D实例分割对于理解点云场景至关重要。本文提出了一种新颖的神经网络架构，用于对3D点云进行实例分割。我们提出同时并行学习系数和原型，然后将它们组合起来得到实例预测结果。系数是通过使用一组过完备的采样点，并结合一种称为“膨胀点插入（Dilated Point Inception）”的新多尺度模块计算得出的。由于得到的实例掩码预测结果是过完备的，我们采用了非最大值抑制算法来获取最终预测。这种方法省去了耗时的聚类步骤，从而提高了推理的稳定性。与现有技术相比，该方法的速度提高了28%，并且标准差最低。实验表明，我们的方法推理时间的标准差仅为总时间的1.0%，而现有方法的标准差在10.8%到53.1%之间。此外，我们的方法在S3DIS-blocks（mRec测试中提高了4.9%）和PartNet（mAP测试中平均提高了2.0%）上的表现也优于现有技术。

引言

3D技术领域因经济型3D传感器的普及和深度学习的兴起而吸引了大量学术界和工业界的关注。3D场景理解在许多应用领域中都具有重要意义，例如虚拟现实[1]、自动驾驶[2][3]、无人机探索[4]和机器人技术[5]。其中，3D实例分割是一个基础但具有挑战性的子领域。虽然语义分割仅尝试为每个点分配一个语义标签[6][7][8]，但实例分割需要更高级的场景理解能力，以便区分属于同一语义类别的对象。

2D实例分割在文献中已经得到了充分研究[9][10][11][12][13][14][15][16][17][18][19][20][21]。然而，点云实例分割由于点云的非结构化特性、实例大小和输入坐标尺度的大变化以及可能的输入点数量众多而面临额外的挑战。

现有的最先进方法[22][23][24][25]采用自下而上的方法，首先计算判别特征、语义标签和中心偏移向量，然后使用聚类算法筛选出实例候选对象并保留最佳结果。尽管这些方法表现良好，但由于聚类步骤耗时较长，推理速度相对较慢。此外，所需的推理时间变化较大，因为聚类和候选对象选择过程受到场景的强烈影响，这限制了它们的在线应用。

为了解决这些问题，本文提出了一种无需聚类的新方法，该方法同时学习原型和系数。通过将两者线性组合，可以使用简单快速的非最大值抑制（NMS）算法筛选出最佳的实例掩码候选对象。虽然我们的方法在技术上属于基于提议的方法，但与传统方法不同，我们不需要精确的提议预测，而是通过最近点采样（FPS）来采样点子集。这样可以避免误差累积和耗时的提议预测过程。新颖的膨胀点插入（DPI）模块可以为每个提议获取多尺度系数。值得注意的是，提议集是过完备的且数量固定。这种方法使得推理时间对底层场景的依赖性降低，因此更加可预测。我们在室内场景和物体部分上的实验表明，测试集上的推理时间标准差仅为总时间的1.0%，而现有方法的标准差在10.8%到53.1%之间。此外，我们的方法在S3DIS-blocks（mRec测试中提高了4.9%）和PartNet（mAP测试中平均提高了2.0%）上的表现也优于现有技术。图1中的箱形图可视化了与现有方法的性能和速度对比。

总结来说，我们的主要贡献如下：

我们提出了一种新颖的端到端基于原型的3D实例分割网络架构。系数和原型并行学习并结合在一起得到实例预测结果。为此专门设计了一种互易损失函数。
一种名为“膨胀点插入（DPI）”的新模块，可实现多尺度系数提取并提升性能。
所提出的方法在S3DIS-blocks和PartNet上的表现显著优于现有技术。此外，我们的无聚类方法不仅实现了最快的推理速度，还降低了推理时间的变化幅度。

点云上的深度学习

PointNet[26]是该领域的开创性工作，它是第一个能够直接处理点云的深度学习网络。为了应对点云的非结构化特性，PointNet采用了排列不变的运算符。在PointNet++[27]中，这些想法被应用于局部组而不是整个点云。DGCNN[28]和PointWeb[29]首先构建图结构，然后再应用图网络技术。

提出方法概述

所提出方法的架构如图2所示，包括4个主要部分。首先，输入数据

X \in R^{N I}

（其中

N

表示输入点的数量，

I

表示通道数），通过特征提取器处理这些数据以获得每个点的特征

F \in R^{N F}

（其中

F

表示特征维度）。这些特征作为输入，进入两个并行分支来计算系数和原型。前者是通过采样

K

个点（详见第3.2节）得到的。

实验

为了验证ProtoSeg的性能，我们在两个广泛使用的参考数据集S3DIS[49]和PartNet[50]上进行了定量和定性实验。在这两个数据集上，我们的方法都达到了最先进的性能水平。

结论

本文提出了一种用于3D实例分割的新型深度神经网络。该架构生成原型并同时学习与之相关的系数，通过线性组合这些系数得到实例掩码。接下来，使用非最大值抑制算法得到最终预测结果。为了使用一组过完备的确定性采样点获取多尺度系数，我们引入了膨胀点插入模块。

CRediT作者贡献声明

Remco Royen：概念构思、资金获取、研究设计、方法论、软件开发、验证、可视化、初稿撰写、审稿与编辑。

Leon Denis：研究设计、监督、验证、可视化、初稿撰写、审稿与编辑。 Adrian Munteanu：概念构思、资金获取、项目管理、监督、初稿撰写、审稿与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

第一作者是FWO-SB博士研究员，由佛兰德斯研究基金会（FWO）资助，项目编号为1S89420N。本工作还得到了佛兰德斯研究基金会（FWO）在研究项目G094122N下的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

点云上的深度学习

提出方法概述

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行