3DLaneDT:通过可靠的深度和时间融合技术实现3D车道检测,以支持自动驾驶

《Expert Systems with Applications》:3DLaneDT: 3D Lane Detection via Reliable Depth and Temporal Fusion for Autonomous Driving

【字体: 时间:2026年03月04日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对自动驾驶中3D车道检测的难点,提出3DLaneDT框架,创新性地融合自适应深度网络与状态空间模型,解决传统方法在稀疏深度数据与长时序建模中的不足,实验表明其准确性和实时性均优于现有方法。

  
王兆辉|孙俊仁|孙浩波|张树婷|王浩文|朱博成
北京大学电子学院,中国北京

摘要

精确的3D车道检测对于自动驾驶车辆来说仍然是一个关键挑战,尤其是在涉及斜坡和遮挡的复杂场景中。尽管多模态和时间融合范式在一般物体检测方面取得了成功,但直接将其应用于3D车道检测受到车道标记稀疏且细长的限制。为了解决这些限制,我们提出了3DLaneDT,这是一个专为3D车道检测设计的强大框架。与现有的基于标准卷积的深度感知方法不同,我们提出了自适应深度网络(ADN),其中包含了自适应区域卷积(AAConv)。该设计能够动态适应车道深度信号的稀疏性,并将可靠的几何先验整合到Transformer注意力机制中。此外,与基于注意力的时间融合方法不同,后者存在二次复杂性问题,我们引入了基于状态空间模型(SSM)的时间传播模块(TPM)。该模块能够高效地模拟稀疏车道查询的连续几何演变。在OpenLane和Apollo数据集上的实验结果表明,3DLaneDT在准确性和效率方面都超过了现有最先进的方法。代码将在接受后提供。

引言

作为自动驾驶感知系统的关键组成部分,车道检测直接影响车辆在结构化道路上的自主导航能力。通过持续解释道路边界的几何特征和空间拓扑,这项技术为车辆定位、轨迹规划和安全关键决策提供了重要输入。在复杂的城市和高速公路场景中,持续的车道表示引导车辆完成包括保持车道和超车等基本操作(参见Guo等人(2024年);Wang、Zhao、Han和Xi(2018年)的研究,特别是在隧道和匝道合流区支持动态路径优化)。
在过去十年中,学术研究主要集中在2D车道检测方法上。传统方法基于单目视觉和平面几何分析,通过边缘检测(Khalifa、Hashim和Assidiq(2009年);Hough变换(Ghazali、Xiao和Ma(2012年);M?riut、Fo?al?u和Petrisor(2012年))或深度学习框架(Gajjar、Sanyal和Shah(2023年);Ge等人(2025年);Pang、Zhang、Teng、Ma和Fan(2022年);Perumal等人(2023年))提取图像坐标系中的车道边界特征。这些方法在结构化道路场景中表现出强大的检测召回率和实时性能,并催生了诸如TuSimple和CULane等开源基准数据集。然而,随着自动驾驶系统向L4标准发展,2D检测范式的固有局限性变得明显——图像坐标输出与车辆运动控制所需的欧几里得空间参数之间存在几何解耦误差。在复杂的3D道路网络中,例如山区连续的斜坡或城市立交桥的螺旋匝道,传统方法无法解码车道高度变化,导致纵向速度控制策略与实际道路坡度严重不匹配。
因此,3D车道检测已成为一个研究前沿。当前的主流方法仍然采用以视觉为中心的策略,并遵循两条主要技术路径:第一类方法如图1(a)所示,将任务分解为2D车道检测和单目深度估计子模块,通过相机参数将检测结果投影到3D空间(参见Huang等人(2023年);Zhang等人(2024a))。然而,单目深度估计仍然是一个病态问题,单帧深度预测在多视图融合场景中表现出显著的不可靠性和空间一致性缺陷。第二类方法使用逆透视映射(IPM)构建鸟瞰图(BEV)表示,通过BEV空间的2D检测结合高度估计模块实现3D重建。然而,IPM依赖于平坦地面的假设,在有斜坡或高度变化的场景中性能下降,同时也影响了模型准确提取高度信息的能力。
最近,基于融合的范式在一般3D物体检测方面取得了显著成功。例如,BEVDepth(Li等人,2023b)利用LiDAR点云进行显式深度监督,而BEVFormer(Li等人,2024)利用注意力机制进行时间特征融合。然而,将这些范式直接应用于3D车道检测面临重大挑战,因为车道标记具有独特的特性(即细长的形状、极度的稀疏性和几何连续性)。
首先,在深度利用方面,当前方法(Li等人,2023b;Wang、Zhang、Shen和Zhou,2022b)依赖于标准卷积来回归深度,这种方法对于密集物体有效,但对于稀疏的车道特征效率低下,常常导致深度边界模糊。其次,在时间建模方面,当前方法(Li等人,2024)采用计算复杂的密集注意力机制,这对于跨多帧跟踪长跨度车道来说计算成本很高。
基于上述内容,我们的目标是通过整合深度和时间信息来增强3D车道检测,同时保持实时性能。为此,我们提出了3DLaneDT——一种新的车道检测框架,通过可靠的深度和时间融合来预测3D车道,克服了现有单帧单目检测方法的局限性。如图1(c)所示,3DLaneDT引入了一种创新方法,将深度和时间一致性结合起来,以理解3D车道。我们的3DLaneDT引入了自适应区域卷积(AAConv),通过动态调整采样位置来捕捉稀疏深度。此外,我们将这些深度特征直接整合到Transformer注意力机制中作为几何先验(键/值),使得与CNN卷积相比,利用激光雷达深度监督进行查询推理更加有效。此外,我们将状态空间模型(SSM)(Gu和Dao,2024)引入到我们的时间传播模块(TPM)中。这使得能够以线性复杂度模拟车道的连续几何演变,非常适合实时应用。此外,与处理密集BEV特征的BEVFormer(Li等人,2024)不同,我们的方法针对稀疏车道查询进行了优化,避免了冗余计算。
总结来说,本工作的主要贡献如下:
  • 我们提出了3DLaneDT,一种新的3D车道检测框架。它采用基于查询的范式来预测稀疏的3D车道,并结合了基于SSM的时间建模和稀疏深度监督。
  • 为了将可靠的深度信息整合到车道检测任务中,我们提出了一个自适应深度网络(ADN),结合了自适应区域卷积(AAConv)和深度监督训练方法,有效地将深度信息嵌入到BEV特征中。ADN通过增强对坡度的感知,解决了3D车道检测中的相关挑战,从而提高了上下坡场景下的检测鲁棒性。
  • 为了将时间信息整合到车道检测任务中,我们提出了一个时间传播模块(TPM),它利用SSM将时间相关性高效地编码到BEV特征中。TPM通过提供时间上下文信息,解决了3D车道检测中的遮挡挑战,从而增强了锚点并融合了多帧BEV特征。
  • 我们在两个数据集上评估了所提出的3DLaneDT。实验结果表明其性能优于现有的最先进方法:该方法在检测准确性方面表现优异,同时保持了实时处理能力。消融研究揭示了每个组件的贡献。
  • 本文的其余部分组织如下。第2节回顾相关工作。第3节介绍3DLaneDT的关键组件。第5节报告实验和结果。第6节总结我们的工作并简要讨论可能的未来工作。

    部分摘录

    3D车道检测

    3D车道检测领域受到了越来越多的关注,这主要是由于2D车道检测在捕捉空间几何形状方面的固有局限性,以及GPU加速计算资源的广泛可用性和大规模开源数据集的出现进一步推动了这一发展。
    由于BEV空间的几何特性,3DLaneNet(Garnett、Cohen、Pe’er和Levi,2019)利用IPM将FV转换为BEV,然后在BEV空间中进行检测。

    提出的方法

    本节将介绍我们提出的3DLaneDT的关键细节,包括深度估计网络和时间传播模块。

    损失函数

    在训练阶段,我们的损失函数包括三个部分:回归损失、分类损失和深度损失。
    焦点损失用于监督模型对锚点的分类,可以表示为:<
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号