深度估计是感知计算中获取3D信息的基本技术,在自动驾驶、机器人感知和3D重建等领域都有广泛的应用。对于自动驾驶车辆而言,这项技术通过实时3D场景解析实现了对环境的精确理解,包括动态物体(如车辆、行人)的相对位置和距离测量,从而确保了操作安全性。在机器人系统中,它有助于地形映射和目标物体几何结构的分析,这对于可靠的导航和操控至关重要。在3D重建流程中,深度估计可以将二维图像中的目标恢复为三维几何模型,实现复杂场景的准确几何表示。
目前,主流的深度估计技术包括激光雷达(LiDAR)、结构光等主动感测方式。其中,单目视觉解决方案因其硬件成本效益和强大的环境适应性而受到了广泛关注。当代单目深度估计方法主要分为三类:(1)利用真实深度数据的监督方法,(2)基于光度重投影损失的自监督方法,以及(3)半监督的多模态融合技术。尽管这些方法在理想条件下表现良好,但在恶劣天气场景下存在明显局限性。监督学习需要大规模的极端天气场景标注数据集,而收集这些数据成本非常高昂。自监督方法在降水(如雨、雪)条件下常常失效,因为雨滴和雪花会引入随机运动和外观变化,导致光度一致性破坏,从而引起显著的尺度漂移。虽然多模态融合技术更为鲁棒,但仍容易受到传感器噪声(如惯性测量单元IMU的热漂移)的影响。
这些失败模式直接转化为现实世界的安全风险:在雪地场景中深度估计不足会缩短制动距离预测,错误估计的物体尺度可能导致错误的避碰操作,而运动引起的深度漂移可能会破坏跟踪和规划等下游模块的稳定性。这一问题在现实世界的道路安全统计数据中得到了体现:美国联邦公路管理局报告称,恶劣天气每年导致大约7 . 4 × 1 0 5 起事故,其中包括低能见度条件(如雾和吹雪)(美国联邦公路管理局,2025年)。因此,在恶劣天气条件下提高深度估计的可靠性不仅是性能目标,也是确保自动驾驶系统操作安全的核心要求。
为了解决这些挑战并提高在非理想天气条件下的深度估计性能,我们提出了HybridDepth,这是一个结合了跨领域数据集和混合监督机制的新框架。我们的方法在真实清晰天气图像上使用自监督学习,并利用GAN(生成对抗网络)合成的恶劣天气图像,同时结合来自IMU的物理尺度姿态信息通过EKF(扩展卡尔曼滤波器)来约束相机运动并稳定训练。此外,还使用CARLA仿真平台(Dosovitskiy等人,2017年)生成的带有深度标注的合成数据集进行监督学习。HybridDepth将真实数据、GAN增强数据和合成数据整合在一个联合训练流程中,采用双重监督范式,结合了IMU辅助的自监督学习和真实深度监督。具体来说,GAN增强数据和合成数据缓解了真实极端天气标注的稀缺性问题,IMU测量结果确保了自监督学习中的运动一致性,而合成深度的真实值提供了高精度的监督,以实现模型的鲁棒收敛。
我们强调,这项工作的主要贡献在于系统层面的方法整合,而不仅仅是提出全新的算法模块。虽然像基于GAN的增强、IMU-视觉融合和梯度反转层这样的单个组件已经被独立研究过,但之前没有将它们统一到一个专门为恶劣天气单目深度估计设计的连贯框架中。新颖之处在于如何通过精心设计的数据流程、损失平衡和领域适应来协调这些现有技术,以实现单个组件无法单独实现的鲁棒性。这项工作的核心贡献包括:
(1) 统一的多领域训练范式:我们将多个互补的数据源——真实世界图像、GAN合成的恶劣天气数据和CARLA虚拟场景——整合到一个联合训练流程中。这种系统级设计使模型能够利用每个数据领域的优势(真实性、多样性和真实值的可用性),同时基于IMU的运动约束提供了跨领域的度量尺度一致性。
(2) 协调的领域适应策略:我们采用梯度反转层(GRL)来学习领域不变的表示,并将其与基于指数移动平均(EMA)的动态损失加权方案结合。它们在我们的混合监督框架中的协同部署有效地平衡了监督学习和自监督学习的梯度,减轻了合成数据与真实数据之间的差异。
(3) 实用的边缘感知损失加权:我们利用Sobel边缘响应派生的梯度注意力图来加权自监督光度损失,将优化方向引导到在恶劣天气下光度线索仍然可靠的纹理丰富区域。这是一个实用的工程选择,补充了系统设计。
本文的其余部分组织如下:第2节回顾相关工作,第3节介绍提出的HybridDepth框架,第4节报告实验结果,第5节讨论发现和局限性,第6节总结本文。