综述：基于图像的3D物体检测在自动驾驶中的创新方法：全面综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：Innovative Approaches in Image-Based 3D Object Detection for Autonomous Driving: A Comprehensive Review

【字体：大中小】 时间：2026年02月24日 来源：Digital Signal Processing 3

编辑推荐：

　　3D目标检测综述：提出图像与点云融合新分类框架，系统分析IM-3DOD和F-PCIM-3DOD方法，总结KITTI、nuScenes等数据集及评估指标，揭示图像法深度估计局限及融合优势，展望实时计算与多模态协同等未来方向。

中国浙江省宁波市宁波理工学院信息科学与工程学院

摘要

二维物体检测（2DOD）是一个著名的研究领域，但它从根本上缺乏安全自动驾驶所需的必要的深度和维度信息。为了解决这一限制，许多研究人员提出了基于图像的三维物体检测（3DOD）方法。本文对这一具有成本效益的领域的最新进展进行了全面综述，特别关注了其背后的方法论。我们提出了一种创新的、细粒度的分类框架来对这些基于图像的方法进行分类，并将相关文献分为基于图像的三维物体检测（IM-3DOD）和基于点云和基于图像的三维物体检测融合（F-PCIM-3DOD）。本文总结了重要的数据集，包括卡尔斯鲁厄理工学院和丰田技术研究院（KITTI）的数据集、nuScenes以及Waymo Open数据集，并概述了标准的评估指标。我们的分析表明，虽然有效的F-PCIM-3DOD可以显著提高3DOD的准确性，目前表现最好的模型在KITTI“汽车”基准测试中的平均精度（mAP）已超过87%，但对于行人或骑自行车者等小型或远距离物体，其性能仍然受到严重限制。最后，我们讨论了几个未来研究的有趣方向，包括奇异池化、半监督训练和实时融合策略，这些对于在自动驾驶系统中平衡准确性和计算速度至关重要。本文中的所有数据均可访问于：

https://github.com/malikharispk/Innovative-Approaches-3D-Object-Detection

引言

物体检测是计算机视觉中的一个核心任务，在现代技术中有着广泛的应用，包括自动驾驶中的车辆检测、智能机器人的自动导航、车道线检测和偏离估计[1]以及人脸识别。深度学习的快速发展为这一领域带来了新的突破，尤其是在2DOD和实例分割[2]等领域。然而，2DOD从根本上限制了对真实世界的感知，因为它只能回归物体的像素坐标，无法获取物体的大小和深度等信息。这种缺乏3D上下文的情况使得其在实际应用中非常困难。

当物体部分或完全被遮挡时，2D检测器效果不佳，因为它们仅依赖于可见的像素模式。此外，当物体由于距离或观察角度的不同而大小或形状发生显著变化时，也会面临挑战。2DOD的最大缺点之一是它无法确定3D物体的姿态，如位置、方向和旋转，这使得理解物体在空间中的相对关系变得困难。这种3D定位和方向的缺失使得其在自动驾驶、机器人操控和增强现实等关键领域难以应用。

为了满足自动驾驶和智能机器人等领域的迫切需求，研究人员转向了基于深度学习的方法来进行3DOD[3]。在3D空间中找到物体是这一高级任务的主要目标，它涉及两个关键步骤：定位和识别。定位确定物体在3D空间中的位置，而识别则在3D边界框（BBox）内对其进行识别和分类。3DOD比2D版本拥有更多的几何数据，包括3D姿态估计、大小估计以及物体的确切位置和方向。这种对空间和深度的深入理解使得机器能够真正感知物理世界。它是自动驾驶和机器人技术的基础，因为需要准确知道物体的位置及其运动方式[4]。最近的融合技术，如雷达-相机融合变换器（RaC-Former – 2025）和相机-2D与LiDAR-3D融合（C2L3-Fusion – 2025），继续强调了准确3D空间数据的重要性[5,6]。

根据所使用的传感器数据，3DOD算法在实际应用中可分为三大类（图1）。第一类是基于点云的3D物体检测（PC-3DOD），它们完全依赖LiDAR生成的点云数据来检测物体。这类方法具有较高的空间精度，但必须克服点云数据不规则和稀疏的特性以及较大的空间搜索范围所带来的挑战。典型的例子包括VoxelNet [7]、PointPillars [8]和PointRCNN [9]。第二类是IM-3DOD，仅使用红、绿、蓝颜色（RGB）图像（单目或立体），这些方法推断3D物体的位置。虽然它们更具成本效益，并利用了2DOD网络的成熟技术，但在深度估计方面存在固有困难，并且对光照和遮挡敏感。最近的基于图像的综述强调了这一领域的持续发展[10]。第三类是F-PCIM-3DOD，它结合了基于图像和基于点云的数据，以利用图像的语义丰富性和点云的空间精度。融合可以在特征层或决策层进行，是提高检测鲁棒性和准确性的关键策略[11]。例如动态点-像素特征对齐网络（DPPFA Net – 2024）[12]和最近的体素-像素融合网络[13]等研究致力于通过有效的融合来改进小物体的检测。

点云数据提供了准确的空间信息，但LiDAR传感器价格昂贵，这限制了它们在自动驾驶、安全导航等不同应用中的广泛应用。相比之下，基于图像的方法虽然成本较低，但缺乏内在的深度信息，并且容易受到光照等环境因素的影响，导致显著的3D定位误差。融合方法提供了一个稳健的折中方案，但有效结合这两种异构数据类型的挑战仍然是一个主要的研究焦点[[14], [15], [16]]。

之前的调查探讨了3D检测的各个方面，但往往未能提供详细和全面的基于图像的方法分析。例如，一些研究只是粗略地对基于图像的方法进行了分类[17]，有些则主要关注2D和双目系统[18]，还有许多研究集中在LiDAR和点云技术上[19]。这导致文献中存在一个关键空白：需要详细且基于方法论的仅基于图像的3DOD综述。

本文的主要目的是通过明确回顾使用图像数据检测3D物体的方法的发展，并提出一个精确、新颖的分类框架，该框架基于这些技术的方法论原则

为了深入理解其工作原理，本文介绍了两种精细的分类框架。对于IM-3DOD分类，方法被分为三个部分：直接预测方法，利用从图像中提取的2D特征来找到3D物体（例如具有维度不一致性抑制的单目3DOD（MonoDIS）[20]、通过关键点估计的单目3DOD（SMOKE）[21]、具有深度感知的Transformer的单目3DOD（MonoDTR）[22]；特征上采样方法，将2D网络的特征图转换为高维表示（例如体素或鸟瞰图（BEV）特征）以改进空间推理；以及数据上采样方法，将2D图像数据转换为伪3D格式，如伪点云，以便使用类似于基于点云的方法进行3DOD。对于F-PCIM-3DOD，主要有两种类型的方法：特征级融合方法在检测前整合特征，以及决策级融合方法，分别检测每种模式然后融合结果，使系统更加鲁棒和准确。这种新的分类法为理解每种策略的工作原理、固有优势和局限性提供了更清晰的框架。

本文的主要贡献通过三个关键点解决了这一关键空白：首先，我们提供了截至2025年的最新代表性工作的全面覆盖，特别关注自动驾驶场景中的基于图像的3DOD，包括对最新模型如C2L3-Fusion（2025）[6]、MonoDTF（2024）[23]和LST-BEV（2025）[24]的分析。其次，我们提出了一种新颖且详细的3D物体识别技术分类，涵盖了每个新类别下的关键代表性模型。最后，我们详细评估了当前面临的挑战，包括数据稀疏性、环境敏感性和计算复杂性，并讨论了未来研究的方向，通过跨类别的比较性能分析为后续研究提供了指导。

本文的结构如下。第2节介绍了IM-3DOD、PC-3DOD和F-PCIM-3D中使用的相关数据集和评估指标。第3节对基于图像的3D物体检测的方法进行了全面调查。随后，第4节探讨了F-PCIM-3DOD中的具体方法。第5节提出了一个综合性和前瞻性的观点，分析了当前基于图像和融合的3DOD在自动驾驶（AD）中的主要挑战、局限性和潜在的未来研究方向。第6节总结了本文的主要见解和贡献。

3DOD

3DOD算法的开发和基准测试依赖于一些常见的大规模自动驾驶数据集，包括KITTI [25]、nuScenes [26]和Waymo Open [26]，如表1所示。

KITTI数据集是最早公开可用的大规模3DOD数据集。它包含7,481张训练图像和7,518张测试图像，但注释仅提供给训练集，模型评估需要提交到官方测试服务器。该数据集覆盖了

IM-3DOD方法

IM-3DOD方法旨在从单目（单眼）或多目（立体/多视图）图像中推断物体的3D位置、尺寸和方向。根本的挑战在于2D图像没有任何清晰的深度信息，这使得在3D空间中准确定位物体变得困难。为了解决这个问题，研究主要通过三种范式取得了进展：

•

直接预测方法：直接从2D图像特征预测3D边界框（BBoxes），通常通过估计几何属性来实现。

•

特征上采样

F-PCIM-3DOD方法

虽然仅基于图像的方法成本较低，但它们固有的深度信息缺失严重限制了其性能。为了解决这个问题，许多研究探索了F-PCIM-3DOD，将来自相机的丰富语义和纹理信息与来自LiDAR的精确几何信息结合起来。根据结合方式的不同，这些方法可以分为特征级和决策级融合。

讨论与未来展望

尽管取得了显著进展，目前的3DOD方法，特别是基于图像的方法，尚未满足完全自动驾驶所需的严格可靠性和鲁棒性要求。我们的综述指出了几个关键挑战和有前景的研究方向。

1.

提高深度估计质量：正如我们的分析所证实的，所有仅基于图像的方法的主要瓶颈是缺乏深度信息。单目方法和立体方法之间的性能差距（例如LST-BEV在3D精度上的差距为23.2%）

结论

3D物体识别是自动驾驶的基础感知任务。通过对仅基于图像的方法和图像-LiDAR融合方法的系统分类和分析，我们从这次全面综述中得出了几个关键见解。基于融合的方法在准确性方面始终表现出优于仅基于图像的方法，确立了当前的技术水平。在比较基于立体视觉的方法时，几何信息的关键作用变得显而易见

作者贡献

马利克·哈里斯（Malik Haris）：撰写初稿、审稿和编辑、方法论构建、概念化。张耀国（Yaoguo Zhang）：概念化、正式分析。张国强（Guoqiang Zhang）：监督、资源管理和项目协调。阿西夫·拉扎（Asif Raza）：撰写初稿、概念化。穆罕默德·沙希德·马斯托伊（Muhammad Shahid Mastoi）：撰写初稿、调查。曼南·哈桑（Mannan Hassan）：撰写初稿、调查。李正清（Zhengqing Li）：概念化、数据整理。

数据可用性声明

本研究中没有生成或分析任何数据集。

资助

本文由中国浙江省宁波市的宁波理工学院提供开放获取资助。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号