基于对象-场景-相机分解与重组的数据高效单目3D物体检测方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：Object-Scene-Camera Decomposition and Recomposition for Data Efficient Monocular 3D Object Detection

【字体：大中小】 时间：2026年03月07日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　针对单目3D物体检测（M3OD）数据集物体、场景与相机姿态高度相关导致多样性不足的问题，提出在线分解重组数据增强方法。通过将训练图像分解为 textured 3D物体模型与背景场景，并在每个epoch重组生成多样化数据，有效缓解训练数据单一性。该方法在完全监督（标注100%）和稀疏监督（标注10%）下均显著提升性能，在KITTI数据集上达到26%-48%的性能增益，并实现新SOTA，同时在Waymo复杂场景中表现优异。

摘要

单目3D物体检测（M3OD）本质上是一个病态问题（即存在无法唯一确定的解），因此训练高性能的基于深度学习的M3OD模型需要大量带有复杂视觉变化的标注数据，这些数据应涵盖多样化的场景、各种物体和相机姿态。然而，我们观察到由于人为偏见的存在，在捕获图像以构建训练数据时，物体、场景和相机姿态这三个独立实体总是紧密纠缠在一起。更具体地说，特定的3D物体总是在特定的场景中以固定的相机姿态被捕获，因此缺乏必要的多样性。这种紧密的纠缠导致了训练数据利用不足和过拟合等问题。为了解决这个问题，我们提出了一种在线的物体-场景-相机分解与重组数据操控方案，以更有效地利用训练数据。首先，我们以高效的计算和存储方式将训练图像完全分解为带纹理的3D物体点模型和背景场景。然后，在每个训练周期中，我们将3D物体插入背景场景的空闲空间，并使用来自带纹理的3D点表示的扰动相机姿态对其进行渲染，从而不断生成新的训练图像。这样一来，所有训练周期中的更新后的训练数据就能覆盖物体、场景和相机姿态的所有可能组合。该方案可以作为即插即用的组件来提升M3OD模型的性能，能够灵活适应完全监督和稀疏监督的环境。在完全监督的环境中，所有物体都会被标注；在稀疏监督的环境中，只有距离当前相机最近的物体会被标注。我们可以通过调整标注对象的数量来控制标注成本。为了验证该方法的有效性，我们将其广泛应用于五个具有代表性的M3OD模型，并在KITTI和更复杂的Waymo数据集上进行了评估。在完全监督的环境中，我们的方法将基础模型的性能相对提高了26%至48%，并且在提交时达到了KITTI数据集的新最佳水平。在稀疏监督的环境中，即使只有10%的物体被标注，我们的方法在大多数场景中的性能也与完全监督的方法相当。

联系信箱：

粤ICP备09063491号

摘要

热点排行