《Digital Signal Processing》:Quaternion-Enhanced Dual-Branch Network for Robust 3D Point Cloud Analysis
编辑推荐:
基于四元数表示的点云分析网络DQRNet通过双分支卷积模块和四元数Kolmogorov-Arnold网络,有效建模局部几何关系与全局非线性特征,在ModelNet40、ShapeNetPart、S3DIS上实现分类与分割精度提升。
Kai Zhang|Qin Ma|Xiaochen Shi
中国农业大学信息与电气工程学院,北京市海淀区清华东路17号,北京100083,中国
摘要
传统的实值神经表示方法通过独立的标量通道对点云进行建模,这使得编码耦合的几何关系变得复杂。在本文中,我们提出了一种双分支四元数表示网络(DQRNet)用于点云分析。DQRNet将点云从欧几里得空间映射到四元数空间,实现了空间几何和属性信息的统一表示。通过引入四元数KAN(QKAN)模块,该模型能够明确捕捉通道间的高阶非线性交互,并模拟长距离依赖关系。此外,双分支四元数卷积(DQC)模块进一步增强了局部空间结构建模,从而促进了多模态点云信息的有效融合和全面分析。在三个公共点云基准测试上的广泛实验表明,DQRNet的表现始终优于现有的先进方法。具体来说,该模型在ModelNet40上的准确率达到94.83%,在ShapeNetPart和S3DIS数据集上的mIoU得分分别为86.71%和91.25%,显示出其在点云表示和理解方面的强大能力。DQRNet在保持竞争性参数规模和计算成本的同时,提供了卓越的性能。
引言
近年来,3D视觉传感器(如激光雷达和深度相机)的快速发展显著提高了获取3D场景数据的效率和便捷性。这些进步极大地扩展了其在自动驾驶[1]、虚拟现实[2]、增强现实[3]和机器人技术[4]等领域的应用范围。作为3D场景的表示方法,点云保留了空间坐标和法向量等几何属性,为准确描述场景几何提供了基础。然而,点云的无序、稀疏和不规则特性给鲁棒的语义和几何理解带来了根本性挑战[5]。
深度学习(DL)因其强大的特征提取能力而被广泛应用于3D点云分析。方法通常分为三类:基于投影的方法[6]、基于体素的方法[7]和基于点的方法[8]。基于投影的方法将3D数据转换为2D视图,以利用成熟的图像架构和可扩展的训练策略,但重新投影不可避免地会降低深度精度,并可能在融合过程中引入视点依赖的语义歧义[9]。LMNet通过结合残差图像来提高移动物体分割的性能[10]。基于体素的方法通过施加规则网格来实现3D卷积和时空融合,从而在场景层面表现出色。PVCFormer通过融合多分辨率点和体素特征,有效提升了大规模室外点云场景中的语义分割性能[11]。然而,低分辨率网格会丢失细小结构和边界细节,而高分辨率网格由于内存消耗和延迟限制难以实现[12]。基于点的方法直接对原始点进行处理,已成为点云分析的主流方法。L2MLP采用双分支MLP架构,同时捕捉局部点内的通道间交互和点间交互,从而增强了局部特征表示[13]。Point MLP-Transformer(PointMT)通过引入线性复杂度的局部注意力机制、无参数的通道温度适应模块和混合MLP-Transformer架构,解决了点云Transformer中的高计算复杂性和收敛速度慢的关键问题[14]。尽管MLP编码器和自注意力方面取得了显著进展,但大多数方法仍然依赖于实值坐标特征和欧几里得邻域,这限制了它们以旋转一致的方式模拟跨通道耦合和嵌套多尺度结构的能力[15]、[16]。
DL方法依赖于基于欧几里得距离和实值域中定义的坐标特征构建的局部邻域。因此,当前的点云模型在特征表示和空间结构建模方面存在双重限制。第一个限制在于无法在不同特征通道(如坐标、法线和颜色)之间建立有效的关联。这种缺乏结构化关系建模的方式阻碍了网络全面捕捉多样化点属性之间的空间相关性[17]、[18]。在边界和接缝等过渡区域,这种问题尤为明显,因为缺乏联合的、几何感知的表示会显著降低对细微几何细节和渐进式属性变化的感知能力。第二个限制在于对多尺度嵌套特征的建模不足,这限制了全局形状语义与细粒度表面纹理之间的层次关系的整合。因此,实值表示在处理复杂拓扑结构(如薄壳或孔洞)时往往会导致语义歧义,这是由于特征尺度的碎片化[19]。这些挑战从根本上源于实值表示在编码高阶几何交互和保持特征通道间几何一致性方面的表达能力有限[20]。
从表示角度来看,实值表示将点云属性建模为独立的标量通道,这限制了它们捕捉耦合的几何关系和异构特征之间的方向依赖性。相比之下,四元数表示将多个相关组件嵌入到一个统一的代数结构中,其内在的组件间交互由哈密顿代数控制[21]。这种形式使得几何感知和方向敏感的特征建模成为可能,其中空间关系和属性变化是共同编码的,而不是独立处理的。先前的研究表明,四元数值表示在视觉和几何学习任务中能够更好地保持几何一致性和通道间相关性,从而提高了鲁棒性和表达能力[22]、[23]。
我们引入了DQRNet,这是一个将四元数几何与Kolmogorov-Arnold网络(KAN)结合的点云框架,以克服实值编码在几何一致性和多尺度耦合方面的局限性。四元数提供了一种紧凑、连续的表示方式,保持了几何关系并实现了结构化的跨通道交互。KAN用可学习的1D函数表替换了MLP,以增强在复杂几何变化下的非线性拟合能力。整体架构由四个协作组件组成:用于统一几何编码的四元数映射模块、用于结构化邻域特征提取的双分支局部建模阶段、用于增强空间-语义交互的投影阶段,以及用于全局表示学习的基于四元数的功能聚合模块。通过这些组件的协调设计,DQRNet建立了一种几何感知的学习范式,支持在四元数域内进行一致的局部建模和有效的全局抽象。本文的主要贡献如下:
•我们提出了DQRNet,该模型通过四元数驱动的几何仿射模块将点云中的相对空间关系编码为四元数表示。这种设计使得点云表示的建模更加明确,从而形成了更加稳健且几何一致的邻域结构。
•引入了DQC模块来建模局部空间结构。通过利用哈密顿积,该模块实现了空间中点间关系的耦合表示,显著增强了模型感知局部几何特征的能力。此外,还提出了DQP模块,用于将空间坐标与视觉特征明确关联起来,实现了几何表示和语义表示之间的结构耦合,提高了模型在高维特征空间中的表达能力和融合能力。
•提出了四元数KAN模块,通过功能近似增强了模型在四元数空间中表示全局非线性特征的能力。通过对四元数空间中点云的高维特征进行多阶函数拟合,模型实现了更强的全局表示和抽象能力。
•广泛的实验表明,DQRNet在广泛采用的3D分类和大规模3D语义分割基准测试中表现出了先进的性能。消融研究进一步验证了所提出模型中各组件的有效性。
本文的其余部分组织如下。第2节介绍了相关工作。第3节介绍了所提出方法的概述。第4节展示了DQRNet的实验结果,并与其他先进方法进行了比较。最后,第5节提供了结论和对未来研究的建议。
部分摘录
点云上的深度学习
点云分析针对3D点集进行了表示学习和语义推理,其中的核心挑战是从无序、稀疏和不规则的观测数据中提取稳健的几何和语义特征,以支持下游的分类和分割任务[24]。为了应对特定场景的挑战,开发了多种表示方法[25]、[26]。PointNet++扩展了层次化集
方法
本文提出了一种通过四元数表示对空间信息进行编码的点云学习模型,称为DQRNet。该模型旨在利用四元数代数明确建模点云表示,从而构建更加稳健且几何一致的邻域结构。同时,它通过功能近似增强了四元数空间中全局非线性特征的表示。如图1所示,整体架构
实验
在本节中,我们通过三个具有挑战性的点云基准测试ModelNet40 [48]、ShapeNetPart [49]和S3DIS [50],对DQRNet进行了全面实验评估。我们将DQRNet与现有先进方法进行了对比,并对架构变体和超参数进行了消融研究,并对结果进行了深入分析。
结论
在这项工作中,我们提出了双分支四元数表示网络(DQRNet),它能够在四元数域中对点云进行表示和特征提取。通过利用四元数空间中的表示和特征提取,DQRNet显著提高了对局部空间结构的敏感性和捕捉全局几何特征的能力。在ModelNet40、ShapeNetPart和S3DIS上的广泛实验表明,DQRNet取得了有竞争力的性能
作者声明
Kai Zhang:方法论、初稿撰写、调查、概念化、审稿与编辑、验证。Qin Ma:撰写、审稿与编辑、可视化、监督、验证。Xiaochen Shi:软件开发、审稿与编辑。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。