VISTA-3D:无需训练的视觉基础3D物体检测方法

【字体: 时间:2026年03月09日 来源:Neural Networks 6.3

编辑推荐:

  VISTA-3D提出训练-free的时空展开方法,通过替换层归一化为指数归一化并引入望远镜转换模块,使3D检测器适应神经形态计算,在KITTI和nuScenes上保持精度,降低能耗。

  
董晓宇|徐芳|刘颖|赵瑞|郑雅静
中国一汽集团有限公司,长春,130011,中国

摘要

基于视觉输入的3D对象检测为自动驾驶和具身AI提供了支持,但在推理过程中仍然需要大量的计算资源和能源。虽然神经形态(脉冲驱动)计算承诺提供事件驱动的稀疏性和效率,但以往的无训练转换方法主要针对2D任务。由于依赖于规范化的不一致性,这些方法无法直接应用于现代3D检测器。我们提出了VISTA-3D,这是一种无需训练的基于视觉的3D对象检测展开方法。该方法用校准的指数规范化(ExpNorm)替换了所有的LayerNorm模块,并生成增量时间更新,其总和与一次性ANN输出相匹配,从而产生适合脉冲式执行的时间展开表示。在KITTI基准测试中,VISTA-3D保持了原始检测器的准确性,在标准的R40评估协议下,无论是单目还是深度增强版本都达到了相同的3D平均精度。在nuScenes数据集上的实验进一步表明,这种展开机制可以推广到更大的基于Transformer的检测器上,在保持竞争性准确性的同时实现稀疏的脉冲式计算。VISTA-3D降低了分析延迟,并实现了大约0.17的标准化SOP基础能量代理,而无需引入新参数。受控的消融实验确认,直接在测试时启用脉冲而不移除LayerNorm会严重降低性能,而我们的校准展开方法则能够稳健地保持准确性。VISTA-3D为面向神经形态的3D感知提供了一条原则性的、即插即用的路径,提供了一种稳定的时间表示,可以作为未来全脉冲3D检测器的基础。

引言

基于视觉输入的3D对象检测是自动驾驶和具身AI的核心能力。当前的方法主要分为三大类:直接在不规则集合上操作的基于点的网络(Qi, Su, Mo, Guibas, 2017a, Qi, Yi, Su, Guibas, 2017b)、体素和稀疏卷积流程(Lang, Vora, Caesar, Zhou, Yang, Beijbom, 2019, Yan, Mao, Li, 2018, Zhou, Tuzel, 2018),以及利用学习到的几何或Transformer将多视图图像转换为鸟瞰图的BEV中心检测器(Huang等人,Li, Wang, Li, Xie, Sima, Lu, Yu, Dai, 2022d, Yin, Zhou, Krahenbuhl, 2021)。在单目设置中,结合了几何误差先验的架构(如MonoDGP(Pu等人,2025)在保持实用传感器套件的同时取得了较高的准确性。尽管取得了这些进展,但由于高分辨率特征处理、注意力层和依赖规范化的解码器,基于视觉的3D检测在推理过程中仍然需要大量的计算资源和能源,这使得在嵌入式平台上的部署变得具有挑战性。
在这种背景下,神经形态(脉冲驱动)(Maass, 1997, Thorpe, Delorme, Van Rullen, 2001)计算通过利用事件驱动的、异步的通信以及内存和计算的共定位性来承诺效率。脉冲系统仅在活动发生时才执行工作,从而减少了动态切换和内存流量(Indiveri, Liu, 2015, Roy, Jaiswal, Panda, 2019, Zheng, Jia, Yu, Huang, Liu, Tian, 2020)。诸如IBM TrueNorth(Merolla等人,2014)、Intel Loihi/Loihi2(Davies, Srinivasa, Lin, Chinya, Cao, Choday, Dimou, Joshi, Imam, Jain等人,2018, Orchard, Frady, Rubin, Sanborn, Shrestha, Sommer, Davies, 2021)和SpiNNaker(Furber等人,2014)等硬件示例展示了低功耗脉冲原生计算的潜力。此外,直接训练的SNN(Fang, Yu, Chen, Masquelier, Huang, Tian, 2021, Neftci, Mostafa, Zenke, 2019, Shrestha, Orchard, 2018, Wu, Deng, Li, Zhu, Shi, 2018)和无训练转换流程(Diehl, Neil, Binas, Cook, Liu, Pfeiffer, 2015, Jiang, Anumasa, De Masi, Xiong, Gu, 2023, Li, Deng, Dong, Gu等人,Rueckauer, Lungu, Hu, Pfeiffer, Liu, 2017, Sengupta, Ye, Wang, Liu, Roy, 2019)在算法上的进步进一步激发了探索脉冲就绪表示的兴趣。然而,几乎所有现有的无训练转换方法都是在2D图像分类或检测上评估的。最近的尝试,如SpiCalib(Li等人,2022c)在2D任务上表现出色,但在直接应用于3D对象检测时效果不佳(见第4节)。此外,最近的SNN-Transformer探索(例如,脉冲Transformer中的相对位置编码(Lv等人,2025)仍然局限于2D基准测试,并未解决3D检测器中出现的规范化诱导的不一致性问题。
障碍在于规范化。现代3D检测器严重依赖于Transformer风格的模块,其中LayerNorm(LN)(Ba, Kiros, & Hinton, Xiong, Yang, He, Zheng, Xing, Zhang, Lan, Wang, & Liu)非常普遍。LN的每个样本统计和除法/开方根操作与时间展开根本不兼容。正如我们通过实验所示,将简单的“测试时脉冲”接口应用于基于LN的检测器(如MonoDGP、Petrv2(Liu等人,2023)或IS-Fusion(Yin等人,2024)会导致尺度漂移和3D检测准确性的几乎完全崩溃。这突显了需要一种意识到规范化的、无需训练的转换方法,该方法在保持原始ANN的数值行为的同时,能够实现脉冲式的时间表示。
我们用VISTA-3D来解决这一需求,这是一种为基于视觉的3D检测量身定制的、无需训练的神经形态就绪方法。如图1所示,VISTA-3D用校准的指数规范化(ExpNorm)替换了每个LayerNorm模块,并使用伸缩增量对每个位置进行时间化。在我们的实验中,这种时间包装器被称为TCN(伸缩转换)模块,“无TCN”表示不使用此包装器的测试时展开。这产生了一个适合脉冲式的时间流,同时在单个时间步长上保持相同的行为,从而避免了简单转换中的不稳定性。
我们在KITTI基准测试(Geiger等人,2012)上使用MonoDGP及其深度增强版本实现了VISTA-3D。未经重新训练,转换后的模型在AP3D?|?R40上保持了原始检测器的准确性,同时降低了分析延迟,并实现了接近0.17的标准化SOP基础能量代理。为了评估泛化能力,我们进一步将VISTA-3D应用于大规模的nuScenes数据集,使用了PETRv2和IS-Fusion——两种高性能的基于Transformer的3D检测器。展开机制在保持竞争性准确性的同时实现了稀疏的脉冲式计算,证明了所提出的转换方法不依赖于单一架构。消融实验确认,在展开过程中保留LN会导致灾难性的性能下降,这突显了规范化的核心障碍。
我们的贡献总结如下:
  • 我们提出了VISTA-3D,一种用于基于Transformer的3D检测器的无需训练的时间展开框架。该方法用校准的指数-仿射替代品(ExpNorm)替换了输入依赖的规范化层(例如LayerNorm),并应用期望-补偿(EC)公式生成时间上一致的增量,其平均值恢复了原始ANN的输出。
  • 我们展示了VISTA-3D在KITTI上保持了最先进的单目和RGB-D 3D检测器的准确性,并且可以推广到大规模的nuScenes模型(PETRv2, IS-Fusion),同时实现了事件驱动的稀疏性,表现为较低的发射率和标准化的SOP基础能量。相比之下,现有的无需训练的ANN→SNN转换(例如SpiCalib)无法成功应用于3D检测,这突显了这些架构对规范化依赖的展开的敏感性。
  • 我们对基于视觉的3D对象检测的脉冲式展开进行了系统研究,分析了时间稳定性(跨时间步长的延迟)、增量稀疏性和活动驱动的能量趋势。这些发现表明,即使对于现代基于Transformer的3D检测器,也可以在不重新训练的情况下实现稳定的脉冲式推理。

部分摘录

基于视觉的3D对象检测

基于视觉的3D对象检测沿着三个主要方向发展。基于点的方法直接使用共享的MLP和对排列不变的聚合操作在不规则的点集上操作(Qi, Su, Mo, Guibas, 2017a, Qi, Yi, Su, Guibas, 2017b)。体素化流程对空间进行离散化,并应用稀疏的3D卷积以提高效率(Lang, Vora, Caesar, Zhou, Yang, Beijbom, 2019, Yan, Mao, Li, 2018, Zhou, Tuzel, 2018)。BEV中心的方法将图像特征提升到鸟瞰图域中

动机和概述

无需训练的时间展开对于神经形态部署很有吸引力,因为它避免了重新训练,同时暴露了事件驱动的稀疏性。然而,直接展开预训练的3D检测器在数学上是不成立的:大多数基于Transformer的架构(MonoDGP, PETRv2, IS-Fusion)包含多个LayerNorm、GeLU、Softmax和其他非线性模块,其输出与非线性地依赖于瞬时输入。因此,操作

设置

数据集和指标我们在KITTI(Geiger等人,2012)和大规模的nuScenes基准测试上评估VISTA-3D。按照标准做法,除非另有说明,KITTI的结果使用AP3D?|?R40@0.70报告,其中R40和R11分别表示40点和11点召回率采样。对于nuScenes,我们遵循官方协议,报告mAP和NDS(NuScenes检测分数),该分数结合了类别级的AP、速度、属性、方向和中心距离质量。
转换

结论

我们提出了VISTA-3D,这是一种无需训练的时间展开方法,它替换了基于视觉的3D检测器中的规范化瓶颈,并在不修改主干权重的情况下实现了脉冲就绪的推理。通过用校准的指数替代品替换LayerNorm和其他非线性节点,并引入伸缩(期望-补偿)发射器,该方法保证了时间等价性:跨时间步长的时间平均预测与原始的一次性ANN输出相匹配。

未引用的引用

缺少引用:图2、表5

CRediT作者贡献声明

董晓宇:撰写 – 审稿与编辑、项目管理、调查、资金获取、数据管理、概念化。徐芳:监督、调查、形式分析、数据管理。刘颖:监督、数据管理、概念化。赵瑞:撰写 – 原始草稿、验证、方法论、概念化。郑雅静:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、项目管理、方法论、调查、形式分析,

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
董晓宇报告称获得了中国一汽集团有限公司的财务支持。徐芳报告与吉林大学的关系,包括就业。郑雅静报告与北京大学的关系,包括就业。如果有其他作者,他们声明没有已知的财务利益或个人
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号