MonoLS：多尺度特征融合与空间感知注意力机制在单目3D物体检测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：MonoLS: Multi-Scale Feature Fusion and Spatially-Aware Attention for Monocular 3D Object Detection

【字体：大中小】 时间：2026年03月04日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　3D目标检测在自动驾驶中至关重要，但单目相机缺乏深度信息导致定位不准。本文提出MonoLS框架，通过多尺度特征融合和空间注意力机制解决这一问题，在KITTI数据集上实现67 FPS的实时检测。

要查看此由 AI 生成的摘要，您必须具有高级访问权限。

了解更多登录

摘要

3D 物体检测在自动驾驶系统中发挥着关键作用，有助于实现对场景的全面理解。其主要挑战之一是在复杂环境中实现准确的感知。与激光雷达系统和立体视觉方法相比，基于单目相机的解决方案更具成本效益，也更容易部署。然而，单目图像中缺乏深度信息，这会妨碍仅使用单目图像时对 3D 边界框的准确定位。本文提出了 MonoLS，这是一种单目 3D 物体检测框架，它结合了轻量级的多尺度特征融合和空间感知注意力机制。该框架旨在解决深度信息缺失的问题，同时实现精确的物体定位。首先，轻量级的多尺度特征融合结合了深度特征和浅层特征，这种设计能够在不牺牲实时检测能力的情况下有效提取多尺度特征。其次，空间感知注意力采用双分支结构：空间分支使用三元组注意力来捕捉空间细节，而上下文分支通过全局注意力聚合全局上下文信息。这两个分支随后被融合，以生成保留空间分布和语义丰富性的增强特征表示。最后，在 KITTI 数据集上的实验表明，我们的方法优于基线方法，实现了高达 67 FPS 的实时推理速度。

AI 摘要

AI 生成的摘要（实验结果）

此摘要是使用自动化工具生成的，未经过文章作者的撰写或审核。它旨在帮助读者发现相关信息、评估文章的重要性，并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要，后者仍是文章的官方摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对此摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由 AI 生成的通俗语言摘要，您必须具有高级访问权限。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号