VISTA-3D：无需训练的视觉基础3D物体检测方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Neural Networks 6.3

编辑推荐：

　　VISTA-3D提出训练-free的时空展开方法，通过替换层归一化为指数归一化并引入望远镜转换模块，使3D检测器适应神经形态计算，在KITTI和nuScenes上保持精度，降低能耗。

董晓宇|徐芳|刘颖|赵瑞|郑雅静

中国一汽集团有限公司，长春，130011，中国

摘要

基于视觉输入的3D对象检测为自动驾驶和具身AI提供了支持，但在推理过程中仍然需要大量的计算资源和能源。虽然神经形态（脉冲驱动）计算承诺提供事件驱动的稀疏性和效率，但以往的无训练转换方法主要针对2D任务。由于依赖于规范化的不一致性，这些方法无法直接应用于现代3D检测器。我们提出了VISTA-3D，这是一种无需训练的基于视觉的3D对象检测展开方法。该方法用校准的指数规范化（ExpNorm）替换了所有的LayerNorm模块，并生成增量时间更新，其总和与一次性ANN输出相匹配，从而产生适合脉冲式执行的时间展开表示。在KITTI基准测试中，VISTA-3D保持了原始检测器的准确性，在标准的R40评估协议下，无论是单目还是深度增强版本都达到了相同的3D平均精度。在nuScenes数据集上的实验进一步表明，这种展开机制可以推广到更大的基于Transformer的检测器上，在保持竞争性准确性的同时实现稀疏的脉冲式计算。VISTA-3D降低了分析延迟，并实现了大约0.17的标准化SOP基础能量代理，而无需引入新参数。受控的消融实验确认，直接在测试时启用脉冲而不移除LayerNorm会严重降低性能，而我们的校准展开方法则能够稳健地保持准确性。VISTA-3D为面向神经形态的3D感知提供了一条原则性的、即插即用的路径，提供了一种稳定的时间表示，可以作为未来全脉冲3D检测器的基础。

引言

基于视觉输入的3D对象检测是自动驾驶和具身AI的核心能力。当前的方法主要分为三大类：直接在不规则集合上操作的基于点的网络（Qi, Su, Mo, Guibas, 2017a, Qi, Yi, Su, Guibas, 2017b）、体素和稀疏卷积流程（Lang, Vora, Caesar, Zhou, Yang, Beijbom, 2019, Yan, Mao, Li, 2018, Zhou, Tuzel, 2018），以及利用学习到的几何或Transformer将多视图图像转换为鸟瞰图的BEV中心检测器（Huang等人，Li, Wang, Li, Xie, Sima, Lu, Yu, Dai, 2022d, Yin, Zhou, Krahenbuhl, 2021）。在单目设置中，结合了几何误差先验的架构（如MonoDGP（Pu等人，2025）在保持实用传感器套件的同时取得了较高的准确性。尽管取得了这些进展，但由于高分辨率特征处理、注意力层和依赖规范化的解码器，基于视觉的3D检测在推理过程中仍然需要大量的计算资源和能源，这使得在嵌入式平台上的部署变得具有挑战性。

在这种背景下，神经形态（脉冲驱动）（Maass, 1997, Thorpe, Delorme, Van Rullen, 2001）计算通过利用事件驱动的、异步的通信以及内存和计算的共定位性来承诺效率。脉冲系统仅在活动发生时才执行工作，从而减少了动态切换和内存流量（Indiveri, Liu, 2015, Roy, Jaiswal, Panda, 2019, Zheng, Jia, Yu, Huang, Liu, Tian, 2020）。诸如IBM TrueNorth（Merolla等人，2014）、Intel Loihi/Loihi2（Davies, Srinivasa, Lin, Chinya, Cao, Choday, Dimou, Joshi, Imam, Jain等人，2018, Orchard, Frady, Rubin, Sanborn, Shrestha, Sommer, Davies, 2021）和SpiNNaker（Furber等人，2014）等硬件示例展示了低功耗脉冲原生计算的潜力。此外，直接训练的SNN（Fang, Yu, Chen, Masquelier, Huang, Tian, 2021, Neftci, Mostafa, Zenke, 2019, Shrestha, Orchard, 2018, Wu, Deng, Li, Zhu, Shi, 2018）和无训练转换流程（Diehl, Neil, Binas, Cook, Liu, Pfeiffer, 2015, Jiang, Anumasa, De Masi, Xiong, Gu, 2023, Li, Deng, Dong, Gu等人，Rueckauer, Lungu, Hu, Pfeiffer, Liu, 2017, Sengupta, Ye, Wang, Liu, Roy, 2019）在算法上的进步进一步激发了探索脉冲就绪表示的兴趣。然而，几乎所有现有的无训练转换方法都是在2D图像分类或检测上评估的。最近的尝试，如SpiCalib（Li等人，2022c）在2D任务上表现出色，但在直接应用于3D对象检测时效果不佳（见第4节）。此外，最近的SNN-Transformer探索（例如，脉冲Transformer中的相对位置编码（Lv等人，2025）仍然局限于2D基准测试，并未解决3D检测器中出现的规范化诱导的不一致性问题。

障碍在于规范化。现代3D检测器严重依赖于Transformer风格的模块，其中LayerNorm（LN）（Ba, Kiros, & Hinton, Xiong, Yang, He, Zheng, Xing, Zhang, Lan, Wang, & Liu）非常普遍。LN的每个样本统计和除法/开方根操作与时间展开根本不兼容。正如我们通过实验所示，将简单的“测试时脉冲”接口应用于基于LN的检测器（如MonoDGP、Petrv2（Liu等人，2023）或IS-Fusion（Yin等人，2024）会导致尺度漂移和3D检测准确性的几乎完全崩溃。这突显了需要一种意识到规范化的、无需训练的转换方法，该方法在保持原始ANN的数值行为的同时，能够实现脉冲式的时间表示。

我们用VISTA-3D来解决这一需求，这是一种为基于视觉的3D检测量身定制的、无需训练的神经形态就绪方法。如图1所示，VISTA-3D用校准的指数规范化（ExpNorm）替换了每个LayerNorm模块，并使用伸缩增量对每个位置进行时间化。在我们的实验中，这种时间包装器被称为TCN（伸缩转换）模块，“无TCN”表示不使用此包装器的测试时展开。这产生了一个适合脉冲式的时间流，同时在单个时间步长上保持相同的行为，从而避免了简单转换中的不稳定性。

我们在KITTI基准测试（Geiger等人，2012）上使用MonoDGP及其深度增强版本实现了VISTA-3D。未经重新训练，转换后的模型在AP_3D?|?R40上保持了原始检测器的准确性，同时降低了分析延迟，并实现了接近0.17的标准化SOP基础能量代理。为了评估泛化能力，我们进一步将VISTA-3D应用于大规模的nuScenes数据集，使用了PETRv2和IS-Fusion——两种高性能的基于Transformer的3D检测器。展开机制在保持竞争性准确性的同时实现了稀疏的脉冲式计算，证明了所提出的转换方法不依赖于单一架构。消融实验确认，在展开过程中保留LN会导致灾难性的性能下降，这突显了规范化的核心障碍。

我们的贡献总结如下：

•
我们提出了VISTA-3D，一种用于基于Transformer的3D检测器的无需训练的时间展开框架。该方法用校准的指数-仿射替代品（ExpNorm）替换了输入依赖的规范化层（例如LayerNorm），并应用期望-补偿（EC）公式生成时间上一致的增量，其平均值恢复了原始ANN的输出。
•
我们展示了VISTA-3D在KITTI上保持了最先进的单目和RGB-D 3D检测器的准确性，并且可以推广到大规模的nuScenes模型（PETRv2, IS-Fusion），同时实现了事件驱动的稀疏性，表现为较低的发射率和标准化的SOP基础能量。相比之下，现有的无需训练的ANN→SNN转换（例如SpiCalib）无法成功应用于3D检测，这突显了这些架构对规范化依赖的展开的敏感性。
•
我们对基于视觉的3D对象检测的脉冲式展开进行了系统研究，分析了时间稳定性（跨时间步长的延迟）、增量稀疏性和活动驱动的能量趋势。这些发现表明，即使对于现代基于Transformer的3D检测器，也可以在不重新训练的情况下实现稳定的脉冲式推理。

部分摘录

基于视觉的3D对象检测

基于视觉的3D对象检测沿着三个主要方向发展。基于点的方法直接使用共享的MLP和对排列不变的聚合操作在不规则的点集上操作（Qi, Su, Mo, Guibas, 2017a, Qi, Yi, Su, Guibas, 2017b）。体素化流程对空间进行离散化，并应用稀疏的3D卷积以提高效率（Lang, Vora, Caesar, Zhou, Yang, Beijbom, 2019, Yan, Mao, Li, 2018, Zhou, Tuzel, 2018）。BEV中心的方法将图像特征提升到鸟瞰图域中

动机和概述

无需训练的时间展开对于神经形态部署很有吸引力，因为它避免了重新训练，同时暴露了事件驱动的稀疏性。然而，直接展开预训练的3D检测器在数学上是不成立的：大多数基于Transformer的架构（MonoDGP, PETRv2, IS-Fusion）包含多个LayerNorm、GeLU、Softmax和其他非线性模块，其输出与非线性地依赖于瞬时输入。因此，操作

设置

数据集和指标我们在KITTI（Geiger等人，2012）和大规模的nuScenes基准测试上评估VISTA-3D。按照标准做法，除非另有说明，KITTI的结果使用AP_3D?|?R40@0.70报告，其中R40和R11分别表示40点和11点召回率采样。对于nuScenes，我们遵循官方协议，报告mAP和NDS（NuScenes检测分数），该分数结合了类别级的AP、速度、属性、方向和中心距离质量。

转换

结论

我们提出了VISTA-3D，这是一种无需训练的时间展开方法，它替换了基于视觉的3D检测器中的规范化瓶颈，并在不修改主干权重的情况下实现了脉冲就绪的推理。通过用校准的指数替代品替换LayerNorm和其他非线性节点，并引入伸缩（期望-补偿）发射器，该方法保证了时间等价性：跨时间步长的时间平均预测与原始的一次性ANN输出相匹配。

未引用的引用

缺少引用：图2、表5

CRediT作者贡献声明

董晓宇：撰写 – 审稿与编辑、项目管理、调查、资金获取、数据管理、概念化。徐芳：监督、调查、形式分析、数据管理。刘颖：监督、数据管理、概念化。赵瑞：撰写 – 原始草稿、验证、方法论、概念化。郑雅静：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、项目管理、方法论、调查、形式分析，

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

董晓宇报告称获得了中国一汽集团有限公司的财务支持。徐芳报告与吉林大学的关系，包括就业。郑雅静报告与北京大学的关系，包括就业。如果有其他作者，他们声明没有已知的财务利益或个人

联系信箱：

粤ICP备09063491号

摘要

引言