
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于对象-场景-相机分解与重组的数据高效单目3D物体检测方法
《INTERNATIONAL JOURNAL OF COMPUTER VISION》:Object-Scene-Camera Decomposition and Recomposition for Data Efficient Monocular 3D Object Detection
【字体: 大 中 小 】 时间:2026年03月07日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3
编辑推荐:
针对单目3D物体检测(M3OD)数据集物体、场景与相机姿态高度相关导致多样性不足的问题,提出在线分解重组数据增强方法。通过将训练图像分解为 textured 3D物体模型与背景场景,并在每个epoch重组生成多样化数据,有效缓解训练数据单一性。该方法在完全监督(标注100%)和稀疏监督(标注10%)下均显著提升性能,在KITTI数据集上达到26%-48%的性能增益,并实现新SOTA,同时在Waymo复杂场景中表现优异。
单目3D物体检测(M3OD)本质上是一个病态问题(即存在无法唯一确定的解),因此训练高性能的基于深度学习的M3OD模型需要大量带有复杂视觉变化的标注数据,这些数据应涵盖多样化的场景、各种物体和相机姿态。然而,我们观察到由于人为偏见的存在,在捕获图像以构建训练数据时,物体、场景和相机姿态这三个独立实体总是紧密纠缠在一起。更具体地说,特定的3D物体总是在特定的场景中以固定的相机姿态被捕获,因此缺乏必要的多样性。这种紧密的纠缠导致了训练数据利用不足和过拟合等问题。为了解决这个问题,我们提出了一种在线的物体-场景-相机分解与重组数据操控方案,以更有效地利用训练数据。首先,我们以高效的计算和存储方式将训练图像完全分解为带纹理的3D物体点模型和背景场景。然后,在每个训练周期中,我们将3D物体插入背景场景的空闲空间,并使用来自带纹理的3D点表示的扰动相机姿态对其进行渲染,从而不断生成新的训练图像。这样一来,所有训练周期中的更新后的训练数据就能覆盖物体、场景和相机姿态的所有可能组合。该方案可以作为即插即用的组件来提升M3OD模型的性能,能够灵活适应完全监督和稀疏监督的环境。在完全监督的环境中,所有物体都会被标注;在稀疏监督的环境中,只有距离当前相机最近的物体会被标注。我们可以通过调整标注对象的数量来控制标注成本。为了验证该方法的有效性,我们将其广泛应用于五个具有代表性的M3OD模型,并在KITTI和更复杂的Waymo数据集上进行了评估。在完全监督的环境中,我们的方法将基础模型的性能相对提高了26%至48%,并且在提交时达到了KITTI数据集的新最佳水平。在稀疏监督的环境中,即使只有10%的物体被标注,我们的方法在大多数场景中的性能也与完全监督的方法相当。
单目3D物体检测(M3OD)本质上是一个病态问题(即存在无法唯一确定的解),因此训练高性能的基于深度学习的M3OD模型需要大量带有复杂视觉变化的标注数据,这些数据应涵盖多样化的场景、各种物体和相机姿态。然而,我们观察到由于人为偏见的存在,在捕获图像以构建训练数据时,物体、场景和相机姿态这三个独立实体总是紧密纠缠在一起。更具体地说,特定的3D物体总是在特定的场景中以固定的相机姿态被捕获,因此缺乏必要的多样性。这种紧密的纠缠导致了训练数据利用不足和过拟合等问题。为了解决这个问题,我们提出了一种在线的物体-场景-相机分解与重组数据操控方案,以更有效地利用训练数据。首先,我们以高效的计算和存储方式将训练图像完全分解为带纹理的3D物体点模型和背景场景。然后,在每个训练周期中,我们将3D物体插入背景场景的空闲空间,并使用来自带纹理的3D点表示的扰动相机姿态对其进行渲染,从而不断生成新的训练图像。这样一来,所有训练周期中的更新后的训练数据就能覆盖物体、场景和相机姿态的所有可能组合。该方案可以作为即插即用的组件来提升M3OD模型的性能,能够灵活适应完全监督和稀疏监督的环境。在完全监督的环境中,所有物体都会被标注;在稀疏监督的环境中,只有距离当前相机最近的物体会被标注。我们可以通过调整标注对象的数量来控制标注成本。为了验证该方法的有效性,我们将其广泛应用于五个具有代表性的M3OD模型,并在KITTI和更复杂的Waymo数据集上进行了评估。在完全监督的环境中,我们的方法将基础模型的性能相对提高了26%至48%,并且在提交时达到了KITTI数据集的新最佳水平。在稀疏监督的环境中,即使只有10%的物体被标注,我们的方法在大多数场景中的性能也与完全监督的方法相当。