基于视觉输入的3D对象检测是自动驾驶和具身AI的核心能力。当前的方法主要分为三大类:直接在不规则集合上操作的基于点的网络(Qi, Su, Mo, Guibas, 2017a, Qi, Yi, Su, Guibas, 2017b)、体素和稀疏卷积流程(Lang, Vora, Caesar, Zhou, Yang, Beijbom, 2019, Yan, Mao, Li, 2018, Zhou, Tuzel, 2018),以及利用学习到的几何或Transformer将多视图图像转换为鸟瞰图的BEV中心检测器(Huang等人,Li, Wang, Li, Xie, Sima, Lu, Yu, Dai, 2022d, Yin, Zhou, Krahenbuhl, 2021)。在单目设置中,结合了几何误差先验的架构(如MonoDGP(Pu等人,2025)在保持实用传感器套件的同时取得了较高的准确性。尽管取得了这些进展,但由于高分辨率特征处理、注意力层和依赖规范化的解码器,基于视觉的3D检测在推理过程中仍然需要大量的计算资源和能源,这使得在嵌入式平台上的部署变得具有挑战性。
在这种背景下,神经形态(脉冲驱动)(Maass, 1997, Thorpe, Delorme, Van Rullen, 2001)计算通过利用事件驱动的、异步的通信以及内存和计算的共定位性来承诺效率。脉冲系统仅在活动发生时才执行工作,从而减少了动态切换和内存流量(Indiveri, Liu, 2015, Roy, Jaiswal, Panda, 2019, Zheng, Jia, Yu, Huang, Liu, Tian, 2020)。诸如IBM TrueNorth(Merolla等人,2014)、Intel Loihi/Loihi2(Davies, Srinivasa, Lin, Chinya, Cao, Choday, Dimou, Joshi, Imam, Jain等人,2018, Orchard, Frady, Rubin, Sanborn, Shrestha, Sommer, Davies, 2021)和SpiNNaker(Furber等人,2014)等硬件示例展示了低功耗脉冲原生计算的潜力。此外,直接训练的SNN(Fang, Yu, Chen, Masquelier, Huang, Tian, 2021, Neftci, Mostafa, Zenke, 2019, Shrestha, Orchard, 2018, Wu, Deng, Li, Zhu, Shi, 2018)和无训练转换流程(Diehl, Neil, Binas, Cook, Liu, Pfeiffer, 2015, Jiang, Anumasa, De Masi, Xiong, Gu, 2023, Li, Deng, Dong, Gu等人,Rueckauer, Lungu, Hu, Pfeiffer, Liu, 2017, Sengupta, Ye, Wang, Liu, Roy, 2019)在算法上的进步进一步激发了探索脉冲就绪表示的兴趣。然而,几乎所有现有的无训练转换方法都是在2D图像分类或检测上评估的。最近的尝试,如SpiCalib(Li等人,2022c)在2D任务上表现出色,但在直接应用于3D对象检测时效果不佳(见第4节)。此外,最近的SNN-Transformer探索(例如,脉冲Transformer中的相对位置编码(Lv等人,2025)仍然局限于2D基准测试,并未解决3D检测器中出现的规范化诱导的不一致性问题。
障碍在于规范化。现代3D检测器严重依赖于Transformer风格的模块,其中LayerNorm(LN)(Ba, Kiros, & Hinton, Xiong, Yang, He, Zheng, Xing, Zhang, Lan, Wang, & Liu)非常普遍。LN的每个样本统计和除法/开方根操作与时间展开根本不兼容。正如我们通过实验所示,将简单的“测试时脉冲”接口应用于基于LN的检测器(如MonoDGP、Petrv2(Liu等人,2023)或IS-Fusion(Yin等人,2024)会导致尺度漂移和3D检测准确性的几乎完全崩溃。这突显了需要一种意识到规范化的、无需训练的转换方法,该方法在保持原始ANN的数值行为的同时,能够实现脉冲式的时间表示。
我们用VISTA-3D来解决这一需求,这是一种为基于视觉的3D检测量身定制的、无需训练的神经形态就绪方法。如图1所示,VISTA-3D用校准的指数规范化(ExpNorm)替换了每个LayerNorm模块,并使用伸缩增量对每个位置进行时间化。在我们的实验中,这种时间包装器被称为TCN(伸缩转换)模块,“无TCN”表示不使用此包装器的测试时展开。这产生了一个适合脉冲式的时间流,同时在单个时间步长上保持相同的行为,从而避免了简单转换中的不稳定性。
我们在KITTI基准测试(Geiger等人,2012)上使用MonoDGP及其深度增强版本实现了VISTA-3D。未经重新训练,转换后的模型在AP3D?|?R40上保持了原始检测器的准确性,同时降低了分析延迟,并实现了接近0.17的标准化SOP基础能量代理。为了评估泛化能力,我们进一步将VISTA-3D应用于大规模的nuScenes数据集,使用了PETRv2和IS-Fusion——两种高性能的基于Transformer的3D检测器。展开机制在保持竞争性准确性的同时实现了稀疏的脉冲式计算,证明了所提出的转换方法不依赖于单一架构。消融实验确认,在展开过程中保留LN会导致灾难性的性能下降,这突显了规范化的核心障碍。
我们的贡献总结如下:- •
我们提出了VISTA-3D,一种用于基于Transformer的3D检测器的无需训练的时间展开框架。该方法用校准的指数-仿射替代品(ExpNorm)替换了输入依赖的规范化层(例如LayerNorm),并应用期望-补偿(EC)公式生成时间上一致的增量,其平均值恢复了原始ANN的输出。
- •
我们展示了VISTA-3D在KITTI上保持了最先进的单目和RGB-D 3D检测器的准确性,并且可以推广到大规模的nuScenes模型(PETRv2, IS-Fusion),同时实现了事件驱动的稀疏性,表现为较低的发射率和标准化的SOP基础能量。相比之下,现有的无需训练的ANN→SNN转换(例如SpiCalib)无法成功应用于3D检测,这突显了这些架构对规范化依赖的展开的敏感性。
- •
我们对基于视觉的3D对象检测的脉冲式展开进行了系统研究,分析了时间稳定性(跨时间步长的延迟)、增量稀疏性和活动驱动的能量趋势。这些发现表明,即使对于现代基于Transformer的3D检测器,也可以在不重新训练的情况下实现稳定的脉冲式推理。