HTMNet：一种结合Transformer和Mamba网络的结构，用于基于激光雷达的3D检测与语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：HTMNet: A Hybrid Transformer-Mamba Network for LiDAR-based 3D Detection and Semantic Segmentation

【字体：大中小】 时间：2026年02月28日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　3D检测与语义分割任务中，针对LiDAR点云稀疏性和类内差异问题，提出融合3D稀疏卷积、全局通道注意力（GCA）和Mamba模块的HTMNet。通过U型编码器-解码器架构与跳跃连接，实现局部几何特征、跨通道依赖和长程上下文的多层次表征，在JRDB（AP 48.5%）和SemanticKITTI（mIoU 73.5%）数据集上达到SOTA性能，单卡RTX 5090下运行38 FPS。

南开大学机器人与自动信息系统研究所，天津，300350，中国

摘要

基于LiDAR的3D检测和语义分割是自动驾驶和移动机器人的基本任务，但其性能常常受到点云数据极端稀疏性和显著类别内变化的限制。在本文中，我们提出了一种混合Transformer-Mamba网络（HTMNet），该网络结合了3D稀疏卷积、全局通道注意力（GCA）和Mamba状态空间模块，以共同捕获局部几何特征、通道间依赖性和长距离上下文关系。这种混合设计在保持计算效率的同时增强了特征表示能力。HTMNet嵌入在U形编码器-解码器架构中，有效利用了体素化的LiDAR信息来构建更丰富的层次化表示。

实验结果表明，我们的HTMNet在大型JRDB行人数据集上的3D检测任务中达到了最先进（SOTA）性能，平均精度（AP）为48.5%。同样，在SemanticKITTI数据集上的3D语义分割任务中也取得了有竞争力的结果，平均交并比（mIoU）为73.5%。此外，我们的HTMNet在单个NVIDIA GeForce RTX 5090 GPU上运行时，帧率为38帧每秒（FPS）。这些结果突显了HTMNet在捕获稀疏点云中的局部几何信息和全局上下文方面的有效性，从而提高了3D物体检测和语义分割的性能。

该项目可在以下链接公开获取：https://github.com/jinzhengguang/HTMNet

引言

尽管端到端自动驾驶（Chen等人，2024年）受到了越来越多的关注，但在许多端到端和混合框架中，显式的3D感知仍然至关重要，因为它是一种可解释且对安全性至关重要的表示方式。特别是基于LiDAR的感知（Mao, Shi, Wang, & Li, 2023年）在现实世界的自主系统中继续发挥着重要作用，因为它在各种操作条件下的鲁棒性很强。基于LiDAR的3D检测（Wu, Guang, Wu, & Chen, 2025a）和语义分割（Betsas, Georgopoulos, Doulamis, & Grussenmeyer, 2025）是自动驾驶车辆（Li等人，2024b）和移动机器人（Guang, Cao, Song, & Liu, 2025a）的基本感知任务。高精度的3D检测有助于定位交通参与者（Wang等人，2025年），而细粒度的点级语义支持下游任务，如可行区域提取（Park, Kim, Kim, & Jo, 2023年）。随着大规模数据集（例如SemanticKITTI（Behley等人，2019年）的出现，提高LiDAR感知的准确性对于推进安全和完全自主的导航至关重要。特别是在夜间等具有挑战性的全天气条件下，LiDAR对于鲁棒的自主操作至关重要，因为它提供了准确的度量深度和光照不变的几何信息。

尽管取得了快速进展，基于LiDAR的3D感知仍然面临几个内在挑战。如图1所示，点云本质上是稀疏的，尤其是在远距离时，因为每个物体的LiDAR返回点数随着距离的增加而显著减少。例如，行人3的点数远少于较近的行人2。这种稀疏性使得准确的定位和分类特别困难。此外，行人之间存在较大的类别内姿态变化；例如，行人1是坐着的，而行人2是在行走，导致3D形状有显著不同。同样，如图2所示，LiDAR语义分割需要为原始3D扫描中的每个点分配语义标签（例如，道路、汽车、人、植被、杆子、建筑物）。由于采样不均匀、严重遮挡、数据缺失以及物体规模和形状的巨大变化（从细长的杆子到宽阔的建筑物立面），这项任务具有挑战性。此外，细粒度的类别边界（例如，道路与停车场或人行道）往往模棱两可，严重的类别不平衡使得学习小型或远距离类别特别困难。

早期的LiDAR感知流程主要使用基于体素的CNN（Yan, Mao, & Li, 2018）或2D投影（Xu等人，2020），这会导致立方体内存增长和量化误差或深度线索的丢失。基于点的方法（Shi, Wang, & Li, 2019）直接在原始坐标上操作以保留精细的几何信息，但在大规模应用时成本较高，这促使人们开发了如PV-RCNN（Shi等人，2020）这样的混合框架，以平衡效率和准确性。除了框架设计之外，注意力驱动的重新校准也提升了性能，从轻量级的挤压和激励通道注意力（Hu, Shen, & Sun, 2018）到模拟长距离依赖性的Transformer风格自注意力（Wu等人，2024a）。最近，像Mamba（Gu & Dao, 2024）这样的选择性状态空间模型作为自注意力的可扩展替代方案出现，并开始在3D应用中得到应用（Lu等人，2025）。受这些趋势的启发，我们旨在结合卷积、注意力和Mamba（Gu & Dao, 2024）来共同捕获局部几何特征、通道间依赖性和长距离上下文关系。

为了解决这个问题，我们提出了一种混合Transformer-Mamba网络（HTMNet），它基于U形编码器-解码器架构，并通过跳跃连接连接相应的分辨率级别。具体来说，HTMNet协同结合了来自稀疏3D卷积的局部几何线索、通过全局通道注意力（GCA）模块的全局通道上下文以及通过Mamba的长距离序列建模，从而产生更丰富和更具区分性的特征。实验结果表明，我们的HTMNet在3D物体检测和语义分割基准测试中达到了最先进（SOTA）性能，同时保持了实时吞吐量。我们的贡献如下：

1)
我们提出了全局通道注意力（GCA）模块，它利用Transformer风格的Q-K-V操作来捕获LiDAR点云中的全局通道上下文。
2)
我们提出了混合Transformer-Mamba（HTM）模块，它利用Mamba状态空间模块来捕获长距离的点对点依赖性并增强全局上下文建模。
3)
实验结果表明，我们的HTMNet在大型JRDB数据集上的3D检测任务中达到了最先进（SOTA）性能。同样，在SemanticKITTI数据集上的3D语义分割任务中也取得了有竞争力的结果。

部分摘录

基于LiDAR的3D检测和分割

早期的LiDAR感知流程（Li, Wang, Zeng, 2024a, Liu, Zhang, Lan, Cheng, Wu, 2025, Zhang, Shi, Zhao, Feng, Lovreglio, 2024）要么将点云量化为密集的体素，由3D CNN处理（例如SECOND（Yan等人，2018）），要么将它们投影到2D距离图像和鸟瞰图网格上（例如SqueezeSeg（Xu等人，2020））。虽然体素方法能够准确捕获局部几何信息，但它们会面临立方体内存增长的问题，而投影方法会丢失细粒度深度线索。

动机

传统的基于体素或点的CNN在建模局部结构方面很有效，但在捕获全局上下文方面存在困难，而基于Transformer的架构虽然可以建模长距离交互，但其复杂度与点数成二次方关系，这在高LiDAR分辨率下变得不可行。最近的选择性状态空间模型（SSMs），例如Mamba，提供了线性时间的全局建模。然而，直接将它们应用于LiDAR并不简单，因为（a）缺乏一个标准的

实验

在本节中，我们的HTMNet在两个大规模数据集JRDB（Martin-Martin等人，2021）和SemanticKITTI（Behley等人，2019）上进行了实验。我们首先详细介绍了这些数据集，然后将我们的HTMNet与最先进（SOTA）方法进行了基准测试，并以消融结果和可视化作为总结。

结论

在本文中，我们提出了一种用于基于LiDAR的3D检测和语义分割的混合Transformer-Mamba网络（HTMNet）。我们的HTMNet主要由三个关键组件组成：用于局部特征提取的3D稀疏卷积层、用于自适应通道重新校准的全局通道注意力（GCA）模块以及用于高效长距离序列建模的Mamba状态空间模块。实验结果表明，我们的HTMNet达到了最先进（SOTA）性能，平均精度为48.5%

CRediT作者贡献声明

Jinzheng Guang：概念化、方法论、软件、验证、写作——原始草稿。Shichao Wu：研究、资金获取、写作——审阅与编辑。Yongru Wang：研究、写作——审阅与编辑。Zhenzhong Cao：数据管理、写作——审阅与编辑。Xiao Wu：写作——审阅与编辑。Jingtai Liu：方法论、监督、资金获取、写作——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号