GS-CL：一种生成式光谱对比学习方法，用于实现稳健的3D点云表示

《Pattern Recognition Letters》：GS-CL: Generative Spectral-Contrastive Learning for Robust 3D point cloud representation

【字体：大中小】 时间：2026年05月10日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　王一楠|张浩|史嘉旭|刘阳阳|赵丰军|曹欣中国西安西北大学计算机科学学院摘要掩码点建模（MPM）是一种强大的自监督3D表示学习范式。然而，它对空间坐标重建的依赖使得编码器倾向于高频率的传感器噪声，从而影响了在现实世界环境中的泛化能力。现有的对比学习方法还受到独立增强采样产生的平凡

王一楠|张浩|史嘉旭|刘阳阳|赵丰军|曹欣

中国西安西北大学计算机科学学院

摘要

掩码点建模（MPM）是一种强大的自监督3D表示学习范式。然而，它对空间坐标重建的依赖使得编码器倾向于高频率的传感器噪声，从而影响了在现实世界环境中的泛化能力。现有的对比学习方法还受到独立增强采样产生的平凡正样本对的影响，削弱了整体语义的一致性。为了解决这些挑战，我们提出了生成性光谱对比学习（GS-CL），这是一个用于稳健3D表示学习的统一框架。GS-CL将预训练任务从欧几里得回归重新定义为图信号处理（GSP）范式下的光谱分析。通过从图拉普拉斯特征分解重建光谱系数，模型被鼓励强调与拓扑相关的结构信息，而非高频扰动。同时，联合分布对齐策略模拟增强参数的联合概率，以生成具有挑战性但语义连贯的视图对。大量实验表明，GS-CL在整体性能上表现出色，在ScanObjectNN PB_T50_RS上达到了85.8%的准确率，并在ShapeNetPart部件分割任务中取得了有竞争力的结果。

引言

点云分析在现代计算机视觉系统中起着核心作用[1]。与基于规则网格的2D图像不同，3D点云本质上是稀疏的、无序的和不规则的，这带来了独特的几何挑战。虽然早期架构如PointNet++ [2]和DGCNN [3]直接处理点，但基于Transformer的骨干网络（如Point Transformer V2 [4]）在模拟长距离依赖性方面显示出了更强的能力。然而，在3D空间中获得逐点注释仍然是一个 labor-intensive 且成本高昂的过程[5]。因此，自监督学习（SSL）已成为从大规模未标记点云中学习稳健表示的有效范式[6]。这些表示也为包括点云配准和其他对几何敏感的应用提供了重要的基础[7]。

近年来，掩码点建模（MPM）受到了相当多的关注[8],[9]。Point-BERT [10]和PointMAE [11]等方法通过重建掩码点信息来训练编码器，而后续的变体如Point-M2AE [12]和Inter-MAE [13]进一步完善了这一范式。尽管取得了成功，但大多数现有的MPM方法仍然依赖于空间重建目标，例如Chamfer Distance [14]。我们发现了这种设计的一个关键限制：原始空间坐标可能会将有意义的拓扑结构与高频率的传感器噪声混合在一起。如图1所示，强制编码器重建精确坐标可能会使模型适应那些提供有限语义信息的高频率扰动[15]。因此，通过空间回归学到的表示通常在诸如ScanObjectNN [16]这样的嘈杂真实世界场景中泛化能力较差。

与生成建模互补的是，对比学习（CL）已成为另一种主导的SSL范式[17],[18]。标准策略通常将数据增强视为独立的随机过程，这往往导致产生平凡的正样本对。受到“盲人摸象”[19]哲学的启发，稳健的表示学习应该鼓励那些在语义上互补同时在结构上也对齐的视图。

为了解决这些挑战，我们提出了一个称为生成性光谱对比学习（GS-CL）的统一框架。首先，为了克服坐标回归的噪声敏感性，我们将重建目标从欧几里得空间转移到光谱域[20]。基于图信号处理（GSP）[21]，我们执行图拉普拉斯特征分解并重建光谱系数而不是原始坐标。由于3D形状的结构能量集中在低频光谱分量中，因此

L_{2}

L_{2}

的光谱损失主要由这些分量主导，这隐性地减少了模型对高频噪声的关注[22]。其次，我们引入了联合分布对齐策略。我们不是独立采样增强，而是显式地模拟增强参数的联合概率，以生成具有挑战性但语义连贯的视图对。我们的主要贡献总结如下：

1.
我们提出了GS-CL，这是一个将生成性光谱建模与判别性对比对齐相结合的统一自监督框架。
2.
我们引入了基于GSP的光谱重建目标，有效地将结构拓扑与高频率传感器噪声分离。
3.
我们设计了一个联合分布对齐模块，用于生成语义互补的视图对。
4.
大量实验表明，GS-CL在多个基准测试中取得了强劲且具有竞争力的性能，包括在ScanObjectNN OBJ-BG和OBJ-ONLY分割中的顶级结果，以及在具有挑战性的PB-T50-RS分割中的良好表现。

章节片段

点云上的自监督学习

生成性掩码建模。 受BERT [8]和MAE [9]的启发，掩码点建模（MPM）已成为点云自监督学习的主流方向。Point-BERT [10]引入了点拼块的标注器，而PointMAE [11]使用非对称自动编码器简化了预训练流程。后续的变体进一步探索了多尺度层次结构[12]、跨模态蒸馏[13]和局部-全局掩码[24]。尽管这些方法多种多样，

框架概述

我们提出了生成性光谱对比学习（GS-CL），这是一个用于点云表示学习的双分支自监督框架。如图2所示，给定一个输入点云，GS-CL首先通过一个在原始点空间运行的联合分布对齐模块生成两个语义互补的视图。每个视图随后通过最远点采样（FPS）和k最近邻（k-NN）分组被分割成局部拼块，并作为潜在家标记进行编码

实验

为了严格验证所提出的GS-CL框架的有效性和泛化能力，我们在四个标准基准测试上进行了 comprehensive experiments：ModelNet40 [33]、ScanObjectNN [16]、ShapeNetPart [5]和S3DIS [34]。

结论

本文提出了生成性光谱对比学习（GS-CL），这是一个用于稳健3D点云表示的自监督框架。通过将掩码重建从欧几里得域转移到图谱域，GS-CL鼓励模型优先考虑与拓扑相关的低频结构，而非高频扰动。结合提出的联合分布对齐策略，该框架学习到的表示在结构上既稳健又

CRediT作者贡献声明

王一楠：方法论、研究、形式分析、概念化。张浩：写作 – 审稿与编辑、原始草稿撰写、可视化。史嘉旭：可视化、软件、数据管理。刘阳阳：监督、项目管理、资金获取。赵丰军：写作 – 审稿与编辑、可视化、形式分析。曹欣：验证、监督、资源。

资助

本工作部分得到了以下项目的支持：中国国家重点研发计划编号 2024YFF0907604、国家自然科学基金编号 62572394、陕西省重点研发计划编号 2024SF-YBXM-681。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

摘要

引言

章节片段

点云上的自监督学习

框架概述

实验

结论

CRediT作者贡献声明

资助

利益冲突声明

热点排行