基于混合注意力机制的PTv3-SE模型,用于高效点云分割

《Remote Sensing Applications: Society and Environment》:Hybrid attention-based PTv3-SE model for efficient point cloud segmentation

【字体: 时间:2026年01月31日 来源:Remote Sensing Applications: Society and Environment 3.8

编辑推荐:

  语义分割框架融合PTv3与SE机制,优化数据稀疏性、类别不平衡及实时传输。通过SMOTE增强少数类、八叉树分层压缩及自适应流策略,模型在SemanticKITTI和ShapeNet数据集上实现93.4%精度、87.5% mIoU,效率提升至2秒/帧。

  
Rytis Maskeliūnas | Sarmad Maqsood
立陶宛考纳斯理工大学信息学院实时计算机系统中心,LT-51386,考纳斯,立陶宛

摘要

点云数据的高精度和高效语义分割对于从城市映射到环境监测等广泛的遥感应用至关重要。然而,数据稀疏、类别不平衡和高计算复杂性等挑战常常导致现有分割方法性能不佳。在这项研究中,我们提出了一种新的混合分割框架,该框架结合了Point Transformer v3 (PTv3)和Squeeze-Excitation (SE)注意力机制,以增强特征提取并提高分割精度。预处理流程包括体素网格降采样以减少冗余、固定大小的点云准备(每个样本1024个点)以确保计算一致性,以及合成少数类过采样技术(SMOTE)来通过生成代表性不足类别的合成数据来解决类别不平衡问题。所提出的PTv3-SE模型基于分层注意力机制和通道级重新校准,能够有效捕获稀疏和噪声点云中的局部和全局特征。该方法结合了基于八叉树和截断金字塔细分的数据压缩技术,以及内部“数据”传输优化、特征优先级和自适应流策略。使用SemanticKITTI和ShapeNet数据集对模型进行了评估,展示了出色的先进水平分割性能,准确率为93.4%,精确率为95.03%,召回率为93.44%,F1分数为93.98%,同时保持了每帧2秒的高计算效率,几乎比最接近的竞争模型快一秒。与现有方法相比,我们的方法显著提高了分割精度和效率。在SemanticKITTI数据集上,该框架的mIoU达到了87.5%,显著优于PointNet++(74.1%)和DGCNN(72.5%)。同样,在ShapeNet数据集上,该框架在对象级分割上也表现出色,mIoU为89.4%,体现了其在捕捉细粒度细节方面的稳健性。

引言

三维(3D)映射技术的进步彻底改变了多个领域,包括自主导航、城市规划、环境监测和增强现实(AR)。在这些技术中,光检测和测距(LiDAR)因其无与伦比的捕捉物理环境高精度几何数据的能力而变得流行。LiDAR系统通过发射激光脉冲并记录其返回时间来工作,生成密集的3D点云,作为空间结构的准确表示(Li等人,2024b;Shen等人,2024;Atik和Duran,2022),这使得点云成为基础设施管理(Comesana-Cebral等人,2024)、地形测量(Du等人,2022)和自动驾驶车辆导航(Ilci和Toth,2020)等应用中的核心数据。尽管具有变革潜力,但由于数据量大、分割挑战和传输瓶颈,LiDAR数据的有效利用受到了限制,这限制了其在实时场景和资源受限环境中的可扩展性和效率(Pravallika等人,2024;Li等人,2024a)。
点云数据的语义分割通常涉及将每个点分类到预定义的类别中(例如,道路、建筑物、植被、车辆),这是提取有意义信息的基本任务(Maskeliünas和Maqsood,2025)。准确的分割对于使智能系统能够实时解释和与其周围环境交互至关重要(Maskeliunas等人,2025)。例如,在自动驾驶车辆中,分割后的点云有助于障碍物识别和轨迹预测;而在城市规划中,它们可以自动分析基础设施并检测随时间的变化(Comesana-Cebral等人,2024;Du等人,2022;Maskeliūnas等人,2025)。然而,点云数据的高维性和稀疏性带来了重大的计算和算法挑战。在这项工作中,我们使用“稀疏”一词来描述只有少量三维体积被测量点占据的点云,这导致了大面积的空区域和由于传感器范围、遮挡和扫描几何形状而产生的高度不均匀的点密度。此外,类别不平衡问题(例如,道路和建筑物等主导类别掩盖了电线杆和行人等较小对象)导致代表性不足类别的性能较差(Ilci和Toth,2020)。
点云数据的主要挑战在于其庞大的体积和不规则的结构,这两者共同导致了存储、处理和传输的困难。对于全面的调查,原始点云的大小常常达到TB级别,使得传统的存储和处理方法不再适用(Cura等人,2017;Khan和Kumar,2024)。此外,分割任务(即将点云划分为有意义的区域)是一项计算密集型任务,尤其是在处理大规模数据集时(Ma等人,2019)。各种传统的几何分割和配准算法(如随机样本一致性(RANSAC)(Derpanis,2010)和迭代最近点(ICP)(Chetverikov等人,2002)以及更现代的机器学习(ML)和深度学习(DL)方法(如PointNet(Qi等人,2017a);PointNet++(Qi等人,2017b)和动态图卷积神经网络(DGCNN)(Phan等人,2018))显著提高了语义分割性能,但它们通常需要大量的计算资源,限制了其在实时或资源受限应用中的实用性。压缩技术可以减少数据体积,但往往以牺牲几何保真度为代价,可能会降低下游任务的性能。此外,在带宽受限的环境中(如边缘计算平台和自动驾驶车辆),大型数据集的传输仍然是一个瓶颈(Arthurs等人,2021;Hasan等人,2024)。
尽管取得了这些进展,现有的基于DL的点云处理流程仍面临一些限制。大规模数据集中的数据分布不平衡导致次要类别的识别效果不佳,而高维点云表示需要大量的计算和内存资源,使得实时处理变得具有挑战性。分割技术虽然对特征提取至关重要,但在资源受限的环境中往往难以平衡速度和精度(Yin等人,2020),许多模型缺乏在处理稀疏和噪声数据时专注于最有趣特征的机制。传统的压缩方法(如体素化(Karabassi等人,1999)可能会进一步降低关键的几何细节,从而影响几何完整性(Roriz等人,2024)。这些问题突显了需要集成解决方案的必要性,这些解决方案能够同时解决分割、压缩和传输问题,而不影响数据的可用性和保真度。最近的研究表明,结合传统算法与ML技术和多模态融合的混合方法在缓解某些挑战方面显示出前景(Shen等人,2024;Zhang和Lin,2017;Brell等人,2016);然而,它们通常关注特定的多模态设置,而不是为实时应用优化的独立点云流程。Transformer和注意力机制作为强大的工具出现,用于克服其中的一些限制,例如Point Transformer(Zhao等人,2021)利用自注意力来捕捉点云中的长距离依赖性和上下文关系。此外,Squeeze-Excitation(SE)模块在优先处理通道级特征方面取得了成功,进一步提高了分割性能。然而,现有工作尚未有效结合分层注意力机制和特征优先级技术,同时解决稀疏数据集中的类别不平衡问题,即点云集合中许多空间单元根本不包含任何点的情况。
为了解决这些挑战,我们的论文提出了一种通过预处理、分割、压缩和传输优化的新颖组合来应对数据处理挑战的流程。因此,本研究的主要贡献如下:
  • 1.
    我们提出了一种新的双注意力分割模型,它在多个层中结合了PTv3和SE模块。这种统一设计使得在稀疏和类别不平衡的点云中实现全局上下文学习和细粒度的通道级重新校准,从而获得更稳健的性能。
  • 2.
    我们设计了一个全栈预处理和类别平衡框架,包括固定大小的点采样、标签重映射和保持3D几何形状的SMOTE适应,以实现一致的输入处理并提高代表性不足类别的分割精度。
  • 3.
    该方法基于协同优化的压缩和传输策略,结合了八叉树量化、截断金字塔细分和基于几何梯度的自适应流机制,能够在带宽限制下保持语义保真度的同时实现高效的实时传输。
本文的其余部分组织如下:第2节回顾了相关工作,指出了本研究中解决的空白。第3节描述了所提出的方法论,包括数据预处理、混合PTv3-SE模型架构、压缩和传输优化。第4节概述了实验结果。第6节进行了讨论,包括与现有方法的比较。最后,第7节总结了本文并提出了未来研究的方向。

相关工作

由于点云数据在自主导航、3D城市映射和环境监测等应用中的作用,对其的高效处理已经得到了广泛研究。尽管在优化语义分割、压缩和传输方面取得了显著进展,但现有方法通常孤立地处理这些组件,导致集成系统的性能不佳。本节提供了传统和现代方法的详细概述

方法论

我们的研究提出了一个集成框架,用于解决大规模点云处理的挑战,以适应实时应用,如自主导航和基于UAV的映射。所提出的方法结合了先进的预处理技术、基于混合神经网络的分割方法、高效的压缩方法和传输优化,以实现可扩展性、计算效率和数据保真度。
该方法从原始点云数据开始,这些数据通常带有噪声

SemanticKITTI数据集

该模型在大型室外场景中表现出强劲的性能,总体mIoU为87.5%,F1分数为93.98%。对于主导类别(如道路(96.4% mIoU)、建筑物(88.5%)和植被(91.2%),分割精度很高。重要的是,该模型在少数类别(如行人(79.7% mIoU)和电线杆(78.6%)上也显示出显著的改进。这一进步归因于使用SMOTE进行类别平衡和SE注意力模块来增强局部特征

噪声长凳数据集验证

为了评估所提出的PTv3-SE模型的泛化和稳健性,我们在一个专门设计用于模拟现实世界挑战的定制数据集(更嘈杂的长凳)上测试了其性能。该数据集包括多样的环境条件、靠近相机的干扰物体和相机移动,这使得它比标准数据集(在我们的案例中是SemanticKITTI和ShapeNet)更加嘈杂,更适合验证模型的分割能力

讨论与其他方法的比较

所提出的框架相比竞争方法具有几个优势(见表13):首先,将PTv3与SE模块结合有效地优先处理了相关特征,从而在SemanticKITTI和ShapeNet等复杂数据集上实现了更优越的分割性能。其次,通过结合截断金字塔和截断圆锥体,我们的方法在实现高压缩比的同时最小化了几何失真,提供了存储和

结论

在这项研究中,我们提出了一个端到端的语义点云分割框架,旨在解决数据稀疏、类别不平衡和计算复杂性等关键挑战。所提出的混合模型结合了PTv3和SE注意力机制,以捕获层次化的空间依赖性,并在通道级别重新校准特征重要性。这种组合提高了分割精度,特别是在涉及稀疏或

CRediT作者贡献声明

Rytis Maskeliūnas:撰写 – 审稿与编辑、验证、监督、资源管理、项目管理、资金获取、正式分析。Sarmad Maqsood:撰写 – 原始草稿、可视化、软件开发、方法论、数据管理、概念化。

AI的使用

使用了最新版本的Writefull for Overleaf和Grammarly来提高本文的语言清晰度和语法

资助

该研究项目编号02-019-K-0044由欧盟基金在2021–2027年期间资助,根据措施编号05-001-01-05-07“建立促进创新活动的连贯系统”,在“刺激创新供应”行动下,属于“投资开发新型高附加值产品并使研究人员能够参与企业研发活动、促进知识产权”行动的一部分

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号