《ACM Transactions on Multimedia Computing, Communications, and Applications》:MonoLS: Multi-Scale Feature Fusion and Spatially-Aware Attention for Monocular 3D Object Detection
【字体:
大中小
】
时间:2026年03月04日来源:ACM Transactions on Multimedia Computing, Communications, and Applications
3D 物体检测在自动驾驶系统中发挥着关键作用,有助于实现对场景的全面理解。其主要挑战之一是在复杂环境中实现准确的感知。与激光雷达系统和立体视觉方法相比,基于单目相机的解决方案更具成本效益,也更容易部署。然而,单目图像中缺乏深度信息,这会妨碍仅使用单目图像时对 3D 边界框的准确定位。本文提出了 MonoLS,这是一种单目 3D 物体检测框架,它结合了轻量级的多尺度特征融合和空间感知注意力机制。该框架旨在解决深度信息缺失的问题,同时实现精确的物体定位。首先,轻量级的多尺度特征融合结合了深度特征和浅层特征,这种设计能够在不牺牲实时检测能力的情况下有效提取多尺度特征。其次,空间感知注意力采用双分支结构:空间分支使用三元组注意力来捕捉空间细节,而上下文分支通过全局注意力聚合全局上下文信息。这两个分支随后被融合,以生成保留空间分布和语义丰富性的增强特征表示。最后,在 KITTI 数据集上的实验表明,我们的方法优于基线方法,实现了高达 67 FPS 的实时推理速度。