PAT-Net：用于点云分类的点代理变换网络（Point Agent Transformer Network）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：PAT-Net: Point Agent Transformer Network for Point Cloud Classification

【字体：大中小】 时间：2026年03月25日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　点云分类中，针对Transformer全局自注意力计算复杂度高的问题，提出OAT块通过少量代理点聚合全局信息，同时设计DNFA模块和FEF模块分别处理高低频特征并融合，构建PAT-Net，在ScanObjectNN、ModelNet40等数据集上达到最优性能。

wenhao tang|zhenyu liu|guifang duan|jianrong tan

浙江大学CAD&CG国家重点实验室，中国杭州，310027

摘要

作为3D视觉的基石，点云分类仍然是一项具有挑战性的任务。为了解决自注意力在点数上的二次方计算成本问题，大多数现有的基于Transformer的方法仅在点云的个别区域或簇内计算自注意力，但这不可避免地限制了模型对全局上下文的理解能力。此外，这些方法无法有效地同时从输入点云中学习高频率和低频率的特征。为了解决上述问题，本文提出了一种新的点云分类网络——Point Agent Transformer Network（PAT-Net）。具体来说，我们首先提出了一个Offset-Agent Transformer（OAT）模块，该模块使用一小部分代理点作为中介来聚合和广播全局信息，从而在保持全局上下文建模能力的同时降低计算复杂度。此外，我们还设计了一个双频率邻域特征聚合（DNFA）模块和一个特征增强融合（FEF）模块，这两个模块协同工作，以有效地学习点云中的高频率和低频率特征。通过DNFA模块和FEF模块作为基本组件，我们构建了用于3D点云分类的PAT-Net。广泛的实验表明，我们的方法在ScanObjectNN、ModelNet40和ModelNet-O数据集上取得了最先进的性能。

引言

点云分类是理解和分析3D场景的基础，适用于许多视觉任务，包括机器人技术、自动驾驶和物体检测[1]、[2]、[3]、[4]。然而，由于点云结构不规则且缺乏特定的排列顺序，传统的卷积神经网络（CNN）无法直接应用于点云处理。因此，开发准确的深度学习网络来进行3D点云分类仍然是一个具有挑战性的研究课题，特别是对于涉及遮挡、噪声和非均匀点密度的复杂现实世界数据。

为了有效地进行点云分类，已经开发了许多基于深度学习的方法。早期方法[5]、[6]、[7]、[8]、[9]的一个常见策略是将原始点云转换为结构化形式（例如体素或多视图投影），以便利用现有的CNN架构进行特征提取。尽管这些方法初见成效，但它们在转换过程中会遇到几何失真问题，并且由于冗余的投影操作而产生高昂的计算成本。相反，PointNet[10]开创了一种新方法，直接使用多层感知器（MLP）和对称函数（例如最大池化）来提取全局特征。随后，一些研究[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]提出了设计良好的特征提取器来建模局部点内的细粒度几何细节。然而，这些方法无法提取长距离的上下文依赖性，这限制了模型的泛化能力。

得益于自注意力机制[21]在建模长距离依赖性方面的优势，Transformer架构被广泛用于点云分类[22]、[23]、[24]、[25]。然而，这些方法面临两个常见限制：

1) 自注意力相对于点数的二次方计算复杂度严重限制了模型的可扩展性。为了减轻计算负担，一些研究[26]、[27]、[28]、[29]、[30]首先将输入点划分为不同的区域或簇，然后仅在各个区域或簇内计算自注意力。尽管这些方法在一定程度上减轻了计算负担，但它们不可避免地削弱了模型对全局上下文建模的能力。

2) 在大多数这些模型中，通过最大池化函数聚合的局部特征直接输入到Transformer层。然而，这种模式在单个学习阶段同时有效学习高频率和低频率特征时面临挑战。这是因为最近的研究[31]、[32]表明最大池化增强了高频率特征，而Transformer具有低通滤波特性，会降低这些高频率特征。第5.5.8节的实验结果进一步验证了这一理论。因此，这种将聚合的局部特征整合到全局上下文建模中的顺序结构不可避免地削弱了高频率特征。PointConT[30]首次采用了并行特征聚合器来同时学习点的高频率和低频率特征。然而，它采用的基于内容的Transformer模块无法建模不同簇之间点的依赖性，导致全局上下文建模能力有限。此外，其特征聚合不够精细。总体而言，用于复杂点云特征学习的并行双频率学习方法仍处于初级阶段，因此设计更先进的双频率学习架构变得十分必要。

为了解决第一个问题，我们提出了一个新颖的Offset-Agent Transformer（OAT）模块，该模块受到了Agent Transformer[33]在2D任务中有效建模长距离上下文依赖性成功的启发。具体来说，如图1所示，我们利用自定位点（SP Points）[34]构建了代理点，作为查询的“代理”。这些代理点捕获了所有特征的各种语义，并将其广播给每个查询。在这项工作中，我们将代理点的数量配置为16个，有效地降低了全局自注意力的计算复杂度，同时保持了其在建模长距离上下文依赖性方面的优势。此外，我们还引入了偏移注意力机制[22]以及基于坐标的位置编码，以进一步提高性能。

为了解决第二个问题，我们提出了一个双频率邻域特征聚合（DNFA）模块来聚合局部邻域内的高频率和低频率特征，并通过特征增强融合（FEF）模块进一步增强这些聚合特征，从而获得综合特征。DNFA模块包括一个几何仿射（GA）模块[35]和一个新颖的双频率解耦特征聚合（DDFA）模块。GA模块将邻域特征映射到正态分布，以减轻噪声和密度的影响，而DDFA模块基于解耦特征聚合（DFA）模块[36]扩展了一个低频率解耦聚合分支，以有效聚合双频率特征。随后，FEF模块使用残差点MLP模块[35]和OAT模块分别增强高频率和低频率特征，然后通过单层MLP进行融合。

最后，我们构建了一个简单而强大的Transformer架构，称为Point Agent Transformer Network（PAT-Net），用于3D点云分类。其核心组件是我们提出的DNFA模块和FEF模块，它们协同作用，实现了分层特征学习。

简要总结本工作的主要贡献如下：1.

我们设计了一个Offset-Agent Transformer，可以在保持建模全局上下文依赖性能力的同时降低计算复杂度。

2.

我们提出了DNFA模块，该模块包括一个几何仿射（GA）模块和一个双频率解耦特征聚合（DDFA）模块，用于在局部邻域内精细聚合高频率和低频率特征。

3.

我们提出了一种新的PAT-Net用于3D点云分类，可以从非结构化点云中有效学习全局上下文依赖性和双频率特征。

4.

在ScanObjectNN [37]、ModelNet40 [38]和ModelNet-O [39]基准测试上的广泛实验证明了我们方法的最先进性能。此外，还进行了一系列消融实验，系统地验证了每个提出组件的贡献。

章节片段

基于点的点云分类方法

当前的基于深度学习的3D点云分类方法主要分为两类：1) 间接方法将原始点云转换为结构化表示（如多视图图像[5]、[6]或体素[7]、[8]、[9]），然后使用2D或3D卷积操作提取更高层次的特征；2) 基于点的方法直接处理原始点云以提取特征，无需任何数据转换。本工作专注于基于点的

初步：Agent Attention

Agent Attention[33]最初是为了解决2D视觉任务中标准Softmax自注意力[21]的二次方计算复杂性而提出的。Agent Attention的核心原理是在查询（Q）、键（K）和值（V）矩阵之间引入一小组代理令牌A作为中介，取代了Softmax注意力中所有查询-键对的直接配对交互。如图2所示，Agent Attention分两步进行注意力计算：

方法

在本节中，我们介绍了用于3D点云分类的Point Agent Transformer Network（PAT-Net）。首先介绍了所提出的PAT-Net框架，然后设计了Offset-Agent Transformer（OAT）模块，接着介绍了双频率邻域特征聚合（DNFA）模块和特征增强融合（FEF）模块。最后，提供了PAT-Net的架构细节。

实现细节

我们使用PyTorch框架实现PAT-Net，所有实验都在NVIDIA GeForce RTX 2080Ti GPU上进行。基本训练策略包括带标签平滑的交叉熵损失、SGD优化器（动量和权重衰减分别设置为0.9和0.0001）、初始学习率lr = 0.1并采用余弦衰减、热身步骤设置为10，以及批量大小为32。训练和测试时仅使用1024个均匀采样的点作为输入。对于ScanObjectNN [37]数据集，我们

结论

在本文中，我们提出了一种名为Point Agent Transformer Network（PAT-Net）的Transformer架构，用于3D点云分类。具体来说，我们首先提出了一个Offset-Agent Transformer（OAT）模块，以在计算效率和表示能力之间保持良好的平衡。OAT引入了一小部分代理点作为中介，在传统的自注意力中聚合和广播全局信息，从而降低了计算

CRediT作者贡献声明

wenhao tang：写作 – 审稿与编辑，撰写原始草稿，验证，方法论，概念化。zhenyu liu：监督，方法论，资金获取。guifang duan：写作 – 审稿与编辑，监督，方法论，概念化。jianrong tan：监督，资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作部分得到了中国国家自然科学基金（项目编号U22A6001和52075480）、浙江省重点研发计划（项目编号2022C01064）以及国家电网科技项目（项目编号SGZINB00JJJS2501079）的支持。

Wenhao Tang毕业于中国重庆的重庆大学，获得机械设计学士学位。他目前正在中国杭州的浙江大学攻读机械工程博士学位。他的研究兴趣包括计算机视觉、机器学习和点云处理。

联系信箱：

粤ICP备09063491号

摘要

引言