物体检测是计算机视觉中的一个核心任务,在现代技术中有着广泛的应用,包括自动驾驶中的车辆检测、智能机器人的自动导航、车道线检测和偏离估计[1]以及人脸识别。深度学习的快速发展为这一领域带来了新的突破,尤其是在2DOD和实例分割[2]等领域。然而,2DOD从根本上限制了对真实世界的感知,因为它只能回归物体的像素坐标,无法获取物体的大小和深度等信息。这种缺乏3D上下文的情况使得其在实际应用中非常困难。
当物体部分或完全被遮挡时,2D检测器效果不佳,因为它们仅依赖于可见的像素模式。此外,当物体由于距离或观察角度的不同而大小或形状发生显著变化时,也会面临挑战。2DOD的最大缺点之一是它无法确定3D物体的姿态,如位置、方向和旋转,这使得理解物体在空间中的相对关系变得困难。这种3D定位和方向的缺失使得其在自动驾驶、机器人操控和增强现实等关键领域难以应用。
为了满足自动驾驶和智能机器人等领域的迫切需求,研究人员转向了基于深度学习的方法来进行3DOD[3]。在3D空间中找到物体是这一高级任务的主要目标,它涉及两个关键步骤:定位和识别。定位确定物体在3D空间中的位置,而识别则在3D边界框(BBox)内对其进行识别和分类。3DOD比2D版本拥有更多的几何数据,包括3D姿态估计、大小估计以及物体的确切位置和方向。这种对空间和深度的深入理解使得机器能够真正感知物理世界。它是自动驾驶和机器人技术的基础,因为需要准确知道物体的位置及其运动方式[4]。最近的融合技术,如雷达-相机融合变换器(RaC-Former – 2025)和相机-2D与LiDAR-3D融合(C2L3-Fusion – 2025),继续强调了准确3D空间数据的重要性[5,6]。
根据所使用的传感器数据,3DOD算法在实际应用中可分为三大类(图1)。第一类是基于点云的3D物体检测(PC-3DOD),它们完全依赖LiDAR生成的点云数据来检测物体。这类方法具有较高的空间精度,但必须克服点云数据不规则和稀疏的特性以及较大的空间搜索范围所带来的挑战。典型的例子包括VoxelNet [7]、PointPillars [8]和PointRCNN [9]。第二类是IM-3DOD,仅使用红、绿、蓝颜色(RGB)图像(单目或立体),这些方法推断3D物体的位置。虽然它们更具成本效益,并利用了2DOD网络的成熟技术,但在深度估计方面存在固有困难,并且对光照和遮挡敏感。最近的基于图像的综述强调了这一领域的持续发展[10]。第三类是F-PCIM-3DOD,它结合了基于图像和基于点云的数据,以利用图像的语义丰富性和点云的空间精度。融合可以在特征层或决策层进行,是提高检测鲁棒性和准确性的关键策略[11]。例如动态点-像素特征对齐网络(DPPFA Net – 2024)[12]和最近的体素-像素融合网络[13]等研究致力于通过有效的融合来改进小物体的检测。
点云数据提供了准确的空间信息,但LiDAR传感器价格昂贵,这限制了它们在自动驾驶、安全导航等不同应用中的广泛应用。相比之下,基于图像的方法虽然成本较低,但缺乏内在的深度信息,并且容易受到光照等环境因素的影响,导致显著的3D定位误差。融合方法提供了一个稳健的折中方案,但有效结合这两种异构数据类型的挑战仍然是一个主要的研究焦点[[14], [15], [16]]。
之前的调查探讨了3D检测的各个方面,但往往未能提供详细和全面的基于图像的方法分析。例如,一些研究只是粗略地对基于图像的方法进行了分类[17],有些则主要关注2D和双目系统[18],还有许多研究集中在LiDAR和点云技术上[19]。这导致文献中存在一个关键空白:需要详细且基于方法论的仅基于图像的3DOD综述。
本文的主要目的是通过明确回顾使用图像数据检测3D物体的方法的发展,并提出一个精确、新颖的分类框架,该框架基于这些技术的方法论原则
为了深入理解其工作原理,本文介绍了两种精细的分类框架。对于IM-3DOD分类,方法被分为三个部分:直接预测方法,利用从图像中提取的2D特征来找到3D物体(例如具有维度不一致性抑制的单目3DOD(MonoDIS)[20]、通过关键点估计的单目3DOD(SMOKE)[21]、具有深度感知的Transformer的单目3DOD(MonoDTR)[22];特征上采样方法,将2D网络的特征图转换为高维表示(例如体素或鸟瞰图(BEV)特征)以改进空间推理;以及数据上采样方法,将2D图像数据转换为伪3D格式,如伪点云,以便使用类似于基于点云的方法进行3DOD。对于F-PCIM-3DOD,主要有两种类型的方法:特征级融合方法在检测前整合特征,以及决策级融合方法,分别检测每种模式然后融合结果,使系统更加鲁棒和准确。这种新的分类法为理解每种策略的工作原理、固有优势和局限性提供了更清晰的框架。
本文的主要贡献通过三个关键点解决了这一关键空白:首先,我们提供了截至2025年的最新代表性工作的全面覆盖,特别关注自动驾驶场景中的基于图像的3DOD,包括对最新模型如C2L3-Fusion(2025)[6]、MonoDTF(2024)[23]和LST-BEV(2025)[24]的分析。其次,我们提出了一种新颖且详细的3D物体识别技术分类,涵盖了每个新类别下的关键代表性模型。最后,我们详细评估了当前面临的挑战,包括数据稀疏性、环境敏感性和计算复杂性,并讨论了未来研究的方向,通过跨类别的比较性能分析为后续研究提供了指导。
本文的结构如下。第2节介绍了IM-3DOD、PC-3DOD和F-PCIM-3D中使用的相关数据集和评估指标。第3节对基于图像的3D物体检测的方法进行了全面调查。随后,第4节探讨了F-PCIM-3DOD中的具体方法。第5节提出了一个综合性和前瞻性的观点,分析了当前基于图像和融合的3DOD在自动驾驶(AD)中的主要挑战、局限性和潜在的未来研究方向。第6节总结了本文的主要见解和贡献。